В наше время стремительно развивающихся технологий, растет количество информации. Вместе с ней не только развиваются возможности старых способов ее получения, но и появляются новые. Это приводит к накоплению огромного количества данных, которое необходимо хранить и обрабатывать с целью извлечения информации. В связи с этим, актуальными стали такие отрасли, как хранение, обработка и представление данных. В данной работе будет идти речь именно об обработке, а точнее, об одном из популярных в наше время методе анализа данных, кластеризации.
Развитие информационных технологий уже упростило коммуникацию между людьми, и этот процесс не собирается останавливаться. Ежедневно каждый из нас контактирует с огромным количеством людей, прямо или косвенно. Взаимодействия между людьми образуют социальную сеть. Термин «социальная сеть» впервые был введен социологом Джеймсом Барнсом: «социальная сеть - это социальная структура, состоящая из группы узлов, которыми являются социальные объекты (люди или организации), и связей между ними (социальных взаимоотношений)». В настоящее время под этим понятием почти всегда понимается платформа в сети интернет, хотя алгоритмы, применимые к такого рода сетям не теряют свою актуальность и при анализе тех, которые не связаны с интернетом. В этом случае социальная сеть может предоставить довольно большое количество данных о своих пользователях, что может облегчить процесс кластеризации и повысить его точность.
Анализ социальных сетей может рассказать многое о характеристиках ее элементов, а также об их взаимодействии с другими элементами этой сети. Для кластерного анализа ее необходимо представить в виде графа. Кластеризация графа социальной сети может быть использована различными компаниями для определения кластеров клиентов и их характеристик для более таргетированного предоставления услуг или продажи товаров. Это один из самых эффективных способов получения информации о клиентах, требующий только определенной вычислительной мощности и относительно малого количества времени. Для проведения кластерного анализа нужен также грамотный отбор входных данных, имеющих смысл. Когда речь заходит о кластеризации именно социальной сети, в набор этих данных обязательно включаются связи между ее объектами (узлами). На выходе получается информация о кластерах клиентов, обладающих схожими характеристиками и сравнительно более тесными связями между объектами, которая может быть использована компанией в дальнейшем.