Актуальность выбранной темы – разработки новых подходов и апробации на разных данных стоит на повестке развития как алгоритмов искусственного интеллекта, так и социальных сетей.
Проблема исследования классификации не нова относительно скорости развития информационных технологий, однако очень актуальна в наши дни – каждый новый более эффективный алгоритм, повысивший качество на несколько процентов, позволяет высвободить дополнительный процент из расходов компании, который она может потратить на своё развитие, ведь лучше качество – выше уровень автоматизации и соответственно работников рутинного труда обратной связи требуется меньше, что снижает расходы.
При этом несмотря на большое количество исследований в направлении классификации текстов, в русскоязычном интернете нет статей или исследований по теме распознавания кибербуллинга в текстах или других специфических работ. В целом это направление находится на стадии начального развития по причине сложности самой задачи – самому человеку порой бывает сложно понять грань, после которой начинается кибербуллинг. Это говорит о низкой степени научной проработанности темы исследования.
Цель этого исследования – создать рабочий эффективный алгоритм классификации текстов на основе размеченного набора данных сообщений социальной сети Twitter. Данные представляет собой файл формата csv, содержащий текстовые публикации в Twitter с отметкой – тип кибербуллинга или его отсутствие. Также важно проанализировать данные, понять специфику разных типов кибребуллинга и оценить состоятельность данного набора, качество его разметки и сложность самой задачи на примерах. Важно показать современный подход в направлении классификации текстов применительно к области кибербуллинга и её семантической стилистике. Разработка моделей машинного обучения нераздельно связана с анализом данных, что в случае с кибербуллингом может помочь лучше изучить проблему, понять её природу. Изучение данных кибербуллинга и поиск новых знаний об этом феномене являются второй целью работы.
Объектом исследования является феномен кибербуллинга в социальных сетях, а предмет исследования – это методы распознавания кибербуллинга в текстовых данных из социальных сетей.
Задачи, которые необходимо решить для достижения поставленной цели, это первичный анализ набора данных, изучение литературы по методам и моделям обработки естественного языка, выбор лучшей технической комбинации подходов и методов классификации текстов, непосредственная имплементация модели – обучение и разработка полного цикла обработки данных, а также оценка полученных результатов.
Методами данного исследования являются как теоретические – анализ, синтез, сравнение, обобщение, моделирование, так и эмпирические – эксперимент, сравнение. Ключевыми методами исследования будут являться математические методы: обработка количественных данных, оценка метрик качества, сбор статистических сведений о данных и т.д. Для решения технической задачи будет использована среда разработки Jupyter Notebook, язык программирования Python и входящие в него библиотека анализа данных и машинного обучения.
Научная новизна и практическая значимость: подходы и методы, описанные в работе, являются ранее известными способами анализа текстов. Они были разработаны или применены в той или иной области как правило в последние 5 лет, однако новые сферы применения и их доработка по-прежнему стоят на повестке направления обработки естественного языка. Методы и подходы, изученные и разработанные в работе, могут быть сразу применены на практике для анализа текстов. Для внедрения в практику им потребуется лишь интеграция с информационной системой.
Структура работы будет состоять из двух основных глав: введения в область (область обработки естественного языка) и разработки подхода распознавания киберубуллинга в текстах (непосредственно модель и другие вспомогательные методы).
Характеристика основных источников информации: учитывая специфику сферы искусственного интеллекта и скорости её развития, основными источниками, которыми я буду пользоваться в своей работе, будут статьи и исследования по данной теме в сети Интернет.
Оглавление
ВВЕДЕНИЕ 2
ГЛАВА 1: ВВЕДЕНИЕ В ОБЛАСТЬ 7
1.1 Этапы разработки алгоритмов машинного обучения 7
1.2 Выбор программных библиотек 7
1.3 Разведочный анализ 8
1.4 Предобработка текста 9
1.5 Векторизация текста 9
1.6 Обучение алгоритмов классификации 16
1.7 Оценка и выбор лучшей версии решения 18
ГЛАВА 2: РАЗРАБОТКА ПОДХОДА РАСПОЗНАВАНИЯ КИБЕРБУЛЛИНГА 21
2.1 Первичный анализ данных 21
2.2 Предобработка данных 24
2.3 Векторизация текстов 24
2.4 Разработка алгоритма классификации 26
2.5 Анализ результатов 29
ЗАКЛЮЧЕНИЕ 31
СПИСОК ЛИТЕРАТУРЫ 33
ПРИЛОЖЕНИЯ 36
Приложение 1. Код создания набора данных ошибок модели и их аналитика 36
Приложение 2. Аналитика ошибок модели, выводы 38
СПИСОК ЛИТЕРАТУРЫ
1. Cyberbullying Classification [Электронный ресурс] / Kaggle. – URL: https://
2. Top 7 NLP Libraries [And Their Applications in 2022] [Электронный ресурс] / upGrad. – URL: https://
3. Introduction to Stemming [Электронный ресурс] / GeekforGeeks. – URL: https://
4. Stemming and lemmatization [Электронный ресурс] / nlp.stanford.edu. – URL:
5. NLP Tutorial for Text Classification in Python [Электронный ресурс] / Medium. – URL: https:/
6. Vectorization Techniques in NLP [Guide] [Электронный ресурс] / Neptune. – URL: https://
7. Nave Bayes Classifiers [Электронный ресурс] / GeekforGeeks – URL:
8. Understanding Logistic Regression [Электронный ресурс] / GeekforGeeks – URL: https://
9. XGBoost, LightGBM or CatBoost – which boosting algorithm should I use? [Электронный ресурс] / Medium – URL:
10. When to Choose CatBoost Over XGBoost or LightGBM [Practical Guide] [Электронный ресурс] / Neptune. – URL:
...итого 21 источник