- Установить библиотеки wikipedia, scipy.
- Найти список статей англоязычной Википедии по темам: Religious figures, Arctic Ocean, Drugs. (минимум 15 статей по каждой теме) и записать в отдельный массив.
- Получить тест статей (документ) и записать в отдельный массив.
- Извлечь фичи из текстов на английском языке с помощью TF-IDF (признаки).
- Определить число кластеров с помощь elbow метода и нарисовать график 1.
- Разбить массив признаков на кластеры с помощью алгоритмов KMeans, MiniBatchKMeans, DBSCAN и вывести результат работы алгоритмов в консоль, как на графике 2.
- Разбить массив признаков на кластеры с помощью иерархической кластеризации (из библиотеки scipy) и представить результат в виде дендрограммы(график 3)
- На основе признаков из покемонов и статей построить PCA и TSNE распределения в двумерном пространстве.
- Визуализировать результат с помощью scatter графика(график 4)
почти каждая команда с комментариями