ТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ТЕКСТА: РАСПОЗНАВАНИЕ КИБЕРБУЛЛИНГА

Главная

Магазин

Дипломная работа

Информационные технологии

ТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ТЕКСТА: РАСПОЗНАВАНИЕ КИБЕРБУЛЛИНГА

Math-Econom

Был(а) на сайте 5 часов назад

Раздел

Программирование

Предмет

Информационные технологии

Тип

Дипломная работа

Просмотров

257

Покупок

Антиплагиат

100%

Размещена

9 Авг 2024 в 04:47

ВУЗ

Не указан

Курс

Не указан

Стоимость

2 500 ₽

Файлы работы

Каждая работа проверяется на плагиат, на момент публикации уникальность составляет не менее 40% по системе проверки eTXT.

ТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ТЕКСТА РАСПОЗНАВАНИЕ КИБЕРБУЛЛИНГА

781.3 Кбайт 2 500 ₽

Описание

Актуальность выбранной темы – разработки новых подходов и апробации на разных данных стоит на повестке развития как алгоритмов искусственного интеллекта, так и социальных сетей.

Проблема исследования классификации не нова относительно скорости развития информационных технологий, однако очень актуальна в наши дни – каждый новый более эффективный алгоритм, повысивший качество на несколько процентов, позволяет высвободить дополнительный процент из расходов компании, который она может потратить на своё развитие, ведь лучше качество – выше уровень автоматизации и соответственно работников рутинного труда обратной связи требуется меньше, что снижает расходы.

При этом несмотря на большое количество исследований в направлении классификации текстов, в русскоязычном интернете нет статей или исследований по теме распознавания кибербуллинга в текстах или других специфических работ. В целом это направление находится на стадии начального развития по причине сложности самой задачи – самому человеку порой бывает сложно понять грань, после которой начинается кибербуллинг. Это говорит о низкой степени научной проработанности темы исследования.

Цель этого исследования – создать рабочий эффективный алгоритм классификации текстов на основе размеченного набора данных сообщений социальной сети Twitter. Данные представляет собой файл формата csv, содержащий текстовые публикации в Twitter с отметкой – тип кибербуллинга или его отсутствие. Также важно проанализировать данные, понять специфику разных типов кибребуллинга и оценить состоятельность данного набора, качество его разметки и сложность самой задачи на примерах. Важно показать современный подход в направлении классификации текстов применительно к области кибербуллинга и её семантической стилистике. Разработка моделей машинного обучения нераздельно связана с анализом данных, что в случае с кибербуллингом может помочь лучше изучить проблему, понять её природу. Изучение данных кибербуллинга и поиск новых знаний об этом феномене являются второй целью работы.

Объектом исследования является феномен кибербуллинга в социальных сетях, а предмет исследования – это методы распознавания кибербуллинга в текстовых данных из социальных сетей.

Задачи, которые необходимо решить для достижения поставленной цели, это первичный анализ набора данных, изучение литературы по методам и моделям обработки естественного языка, выбор лучшей технической комбинации подходов и методов классификации текстов, непосредственная имплементация модели – обучение и разработка полного цикла обработки данных, а также оценка полученных результатов.

Методами данного исследования являются как теоретические – анализ, синтез, сравнение, обобщение, моделирование, так и эмпирические – эксперимент, сравнение. Ключевыми методами исследования будут являться математические методы: обработка количественных данных, оценка метрик качества, сбор статистических сведений о данных и т.д. Для решения технической задачи будет использована среда разработки Jupyter Notebook, язык программирования Python и входящие в него библиотека анализа данных и машинного обучения.

Научная новизна и практическая значимость: подходы и методы, описанные в работе, являются ранее известными способами анализа текстов. Они были разработаны или применены в той или иной области как правило в последние 5 лет, однако новые сферы применения и их доработка по-прежнему стоят на повестке направления обработки естественного языка. Методы и подходы, изученные и разработанные в работе, могут быть сразу применены на практике для анализа текстов. Для внедрения в практику им потребуется лишь интеграция с информационной системой.

Структура работы будет состоять из двух основных глав: введения в область (область обработки естественного языка) и разработки подхода распознавания киберубуллинга в текстах (непосредственно модель и другие вспомогательные методы).

Характеристика основных источников информации: учитывая специфику сферы искусственного интеллекта и скорости её развития, основными источниками, которыми я буду пользоваться в своей работе, будут статьи и исследования по данной теме в сети Интернет.

Оглавление

ВВЕДЕНИЕ 2

ГЛАВА 1: ВВЕДЕНИЕ В ОБЛАСТЬ 7

1.1 Этапы разработки алгоритмов машинного обучения 7

1.2 Выбор программных библиотек 7

1.3 Разведочный анализ 8

1.4 Предобработка текста 9

1.5 Векторизация текста 9

1.6 Обучение алгоритмов классификации 16

1.7 Оценка и выбор лучшей версии решения 18

ГЛАВА 2: РАЗРАБОТКА ПОДХОДА РАСПОЗНАВАНИЯ КИБЕРБУЛЛИНГА 21

2.1 Первичный анализ данных 21

2.2 Предобработка данных 24

2.3 Векторизация текстов 24

2.4 Разработка алгоритма классификации 26

2.5 Анализ результатов 29

ЗАКЛЮЧЕНИЕ 31

СПИСОК ЛИТЕРАТУРЫ 33

ПРИЛОЖЕНИЯ 36

Приложение 1. Код создания набора данных ошибок модели и их аналитика 36

Приложение 2. Аналитика ошибок модели, выводы 38

Список литературы

СПИСОК ЛИТЕРАТУРЫ

1. Cyberbullying Classification [Электронный ресурс] / Kaggle. – URL: https://

2. Top 7 NLP Libraries [And Their Applications in 2022] [Электронный ресурс] / upGrad. – URL: https://

3. Introduction to Stemming [Электронный ресурс] / GeekforGeeks. – URL: https://

4. Stemming and lemmatization [Электронный ресурс] / nlp.stanford.edu. – URL:

5. NLP Tutorial for Text Classification in Python [Электронный ресурс] / Medium. – URL: https:/

6. Vectorization Techniques in NLP [Guide] [Электронный ресурс] / Neptune. – URL: https://

7. Nave Bayes Classifiers [Электронный ресурс] / GeekforGeeks – URL:

8. Understanding Logistic Regression [Электронный ресурс] / GeekforGeeks – URL: https://

9. XGBoost, LightGBM or CatBoost – which boosting algorithm should I use? [Электронный ресурс] / Medium – URL:

10. When to Choose CatBoost Over XGBoost or LightGBM [Practical Guide] [Электронный ресурс] / Neptune. – URL:

...итого 21 источник

Вам подходит эта работа?

Похожие работы

Информационные технологии

💯 Цифровая экономика [Тема 6-8] — ответы на тесты Синергия / МОИ / МТИ / МосАП

400 ₽

k4linkin

Тест Тест

15 Июл в 15:36

31 +2

0 покупок

Информационные технологии

💯 Информационно-коммуникационные технологии для профессиональной деятельности [Тема 1-4] — ответы на тесты Синергия / МОИ / МТИ / МосАП

400 ₽

k4linkin

Тест Тест

15 Июл в 14:34

27 +3

0 покупок

Информационные технологии

Информационные технологии. Росдистант 2025

2 100 ₽

s_Denis_s

Тест Тест

15 Июл в 13:36

12 +4

0 покупок

Информационные технологии

Информационные технологии в менеджменте

300 ₽

DariaKA

Лабораторная работа Лабораторная

13 Июл в 18:53

14 +1

0 покупок

Информационные технологии

Информационные технологии. Вариант 14. База данных "Регистрация заказов"

450 ₽

clubsound1989

Контрольная работа Контрольная

13 Июл в 10:39

15 +1

0 покупок

Другие работы автора

ТВиМС - Теория вероятностей и математическая статистика

Теория вероятности (комбинаторика)

300 ₽

Math-Econom

Задача Задача

8 Мая в 12:41

70 +2

1 покупка

ТВиМС - Теория вероятностей и математическая статистика

Теория вероятности - Комбинаторика

380 ₽

Math-Econom

Задача Задача

8 Мая в 12:37

77 +1

0 покупок

ТВиМС - Теория вероятностей и математическая статистика

Теория вероятности (Тинькофф) май 2025

380 ₽

Math-Econom

Задача Задача

8 Мая в 09:38

278 +1

1 покупка

ТВиМС - Теория вероятностей и математическая статистика

Теория вероятности

390 ₽

Math-Econom

Задача Задача

8 Мая в 08:26

150 +1

2 покупки

ТВиМС - Теория вероятностей и математическая статистика

Теория вероятности задача (Тинькофф)

380 ₽

Math-Econom

Задача Задача

8 Мая в 07:36

55 +1

0 покупок

Математическая логика

МАТЕМАТИЧЕСКАЯ ЛОГИКА И ТЕОРИЯ АЛГОРИТМОВ 2025 (контрольная) ТУСУР вар 8

900 ₽

Math-Econom

Контрольная работа Контрольная

24 Фев в 07:08

168 +2

0 покупок

Математическая логика

Математическая логика тест ТУСУР 2025 (20 вопросов)

900 ₽

Math-Econom

Тест Тест

24 Фев в 06:57

209 +3

1 покупка

Высшая математика

Высшая математика Линейная алгебра тест ТУСУР 2025 (8 вопросов)

1 200 ₽

Math-Econom

Тест Тест

15 Фев в 10:25

171 +2

0 покупок

Дискретная математика

Дискретная математика тест ТУСУР 2025 (10 вопросов)

700 ₽

Math-Econom

Тест Тест

15 Фев в 10:19

134

0 покупок

Дискретная математика

Дискретная математика тест ТУСУР 2025 (14 вопросов)

1 000 ₽

Math-Econom

Тест Тест

15 Фев в 10:11

184 +1

0 покупок

Дискретная математика

Дискретная математика тест ТУСУР 2025 (20 вопросов)

1 000 ₽

Math-Econom

Тест Тест

15 Фев в 09:59

181 +1

0 покупок

Исследование операций

350 ₽

Math-Econom

Задача Задача

15 Фев в 09:46

165 +1

0 покупок

Экономика

Задача по экономике

350 ₽

Math-Econom

Задача Задача

13 Фев в 05:52

244 +1

0 покупок

Экономика

Задача по экономике

350 ₽

Math-Econom

Задача Задача

13 Фев в 05:47

203

0 покупок

Экономика

Задача по экономике

350 ₽

Math-Econom

Задача Задача

13 Фев в 05:36

199 +1

0 покупок

ТВиМС - Теория вероятностей и математическая статистика

Напомним, что последовательность Фибоначчи определяется реккурентно: F0=0. F1 = 11 и Fk+1=Fk+Fk-1 для всех к > 1. Сумма..

3 500 ₽

Math-Econom

Задача Задача

10 Ноя 2024 в 06:44

262 +1

0 покупок

ТВиМС - Теория вероятностей и математическая статистика

Аня хочет купить себе машину. Из 2020 вариантов, предложенных консультантом, Ане нужно выбрать всею одну. Консультант пронумеровала все машины по тому

350 ₽

Math-Econom

Задача Задача

10 Ноя 2024 в 06:39

344 +1

3 покупки

ТВиМС - Теория вероятностей и математическая статистика

Среди 2020 студентов, пришедших на стажировку, некоторые между собой знакомы (знакомства взаимны; новые знакомства по ходу задачи не появляются; считаем

350 ₽

Math-Econom

Задача Задача

10 Ноя 2024 в 06:32

262 +1

3 покупки

ТВиМС - Теория вероятностей и математическая статистика

Для натурального числа n обозначим через f(n) количество натуральных чисел m таких, что НОД(n,m)^2 = Н0К(n,m). Найдите наименьшее натуральное л для которого f(n) > 20.

350 ₽

Math-Econom

Задача Задача

9 Ноя 2024 в 17:55

314 +1

1 покупка

ТВиМС - Теория вероятностей и математическая статистика

Саша выбрал n непересекающихся троек чисел из чисел от 1 до 500 так, что в каждой тройке одно число равно произведению двух других. Тройка - это три разных числа. При каком наибольшем n это возможно?

350 ₽

Math-Econom

Задача Задача

9 Ноя 2024 в 17:45

264

0 покупок

Предыдущая работа

ЮБИЛЕИ ГОРОДОВ КАК ИНСТРУМЕНТ ГОРОДСКОГО РАЗВИТИЯ В СОВРЕМЕННОЙ РОССИИ

Следующая работа

Учет и анализ заработной платы и отчислений в социальные фонды в бюджетном учреждении

Закажите новую работу, выполненную по вашим требованиям у эксперта

Темы журнала

Статьи справочника

Прямой эфир