На 1 февраля 2023 года оригинальность более 80%
Могу проверить вам актуальную оригинальность работы перед покупкой, пишите в личку.
Оригинал документа в pdf, конвертация в Word автоматическая (в word могут быть недочеты, которые вы легко исправите самостоятельно)
Эта работа основана на использовании обработки естественного языка и методов машинного обучения для построения классификаторов, способных предсказать, поведения и тенденции к здоровому образу жизни пользователей социальной сети ВКонтакте.
В результате этой работы, несколько классификаторов машинного обучения обучены выполнять задачу классификации пользователей на основе результатов, которые они дали в опросе, связанным со здоровьем. Различные наборы признаков, полученные из данных, собранных в социальных сетях, в сочетании с различными классификаторами, оцениваются с помощью метрики ROC AUC, чтобы определить, какая комбинация наборов признаков и классификаторов способна выполнить эту задачу. Для выполнения этой задачи используется язык программирования: Python и его различные библиотеки.
Введение
Эта работа заключается в использовании комбинации обработки естественного языка и машинного обучения для прогнозирования того, склоняются ли люди к определенному образу жизни и поведению. Результатом этой работы является оценка работы этих классификаторов машинного обучения.
Тема мониторинга здоровье общества с помощью социальных сетей получает все большее и больше интереса в научном сообществе. В источнике [1] исследователи попытались использовать методы обработки естественного языка для определения отношения пользователей социальных сетей к курению кальянного табака (ККТ). Исследователи попытались выявить потребителей с неоднозначными или смешанными взглядами на ККТ. Выявление таких людей, которые ещё не определились по поводу их отношения к ККТ, позволяет здравоохранительным органам нацеливаться на таких них и направлять им информацию, которая может изменить их мнение о ККТ. Часто когда здравоохранительные органы рассылают информацию публике о вреде употребление табака, табачные компании рассылают, в ответ, информацию которая пытается опровергнуть научные доказательства которые указывают что курение табака это вредно. Один способ избежать контратаки табачных компаний это рассылать такую информацию только некоторым людям которых можно ещё убедить о вреде курения. Методы автоматической классификации таких пользователей может сильно увеличить эффективность трудов здравоохранительных органов с борьбой против курения.
В другом исследовании [2] был использован иной подход к использованию данных, собранных в социальных сетях, в качестве инструмента общественного здравоохранения. Исследователи собрали 4,5 млн. твитов, связанных с диабетом, диетой, физическими упражнениями и ожирением (ДДФуО), и проанализировали их с целью выявления корреляции между этими темами.
Эта работа разделена на введение, четыре главы, заключение и списка литературы.
Введение состоит из мотивации этой работы, списка целей, которые должны быть достигнуты в этой работе, и список завязанных работ, над которыми работают другие академики.
Первая глава этой работы состоит из фундаментальных основ машинного обучения и истории машинного обучения.
Вторая глава этой работы состоит из различных методов, которые могут быть использованы для подготовки текстовых данных для использования в процессе машинного обучения.
Третья глава работы описывает различные способы оценки и тестирования моделей машинного обучения.
Четвертая глава описывает пошаговый процесс извлечения из текста наборов признаков и их использования для обучения классификатора Random Forest.
Вывод состоит из анализа всех результатов, собранных в ходе этой работы.
Содержание ..................................................................................................... 3 Введение .......................................................................................................... 4 1. Теоретические сведения из машинного обучения ................................ 8
1.1 История машинного обучения ............................................................... 8 1.2 Основы машинного обучения .............................................................. 10
2. Обзор инструментов ............................................................................. 13 2.1 Очистка текста ...................................................................................... 16 2.2 Методы отображения данных .............................................................. 17 2.3 Методы оценки моделей ...................................................................... 23
3. Практика ................................................................................................ 38 3.1 Классификация пользователей соцсетей ............................................ 43 3.2 Признаки и методы .............................................................................. 46 3.3 Результаты ............................................................................................ 50
Заключение .................................................................................................... 53 Приложения ................................................................................................... 55 Список используемой литературы ............................................................... 58
Список используемой литературы
1. Chu K.H. Identifying Key Target Audiences for Public Health Campaigns: Leveraging Machine Learning in the Case of Hookah Tobacco Smoking. / K.H. Chu, J. Colditz, M. Malik, T. Yates, B. Primack// J Med Internet Res 2019; 21(7):e12443 URL: https://www.jmir.org/2019/7/e12443
2. Karami, A. Characterizing diabetes, diet, exercise, and obesity comments on Twitter. /A. Karami, A.A. Dahl, G. Turner-McGrievy, H. Kharrazi, G. Shaw//International Journal of Information Management,Volume 38, Issue 1,2018, Pages 1-6, ISSN 0268-4012, https://doi.org/10.1016/j.ijinfomgt.2017.08.002. (https://www.sciencedirect.com/science/article/pii/S0268401217306126)
3. Yan, H. Automatic detection of eating disorder‐related social media posts that could benefit from a mental health intervention. / H. Yan, E.E. Fitzsimmons‐Craft, M. Goodman, M. Krauss, S. Das, P. Cavazos‐Rehg// Int J Eat Disord. 2019; 52: 1150– 1156. https://doi.org/10.1002/eat.23148
4. Aphinyanaphongs, Y.Text classification for automatic detection of alcohol use-related tweets: A feasibility study. /Y. Aphinyanaphongs, B. Ray, A. Statnikov, P. Krebs// Proceedings of the 2014 IEEE 15th International Conference on Information Reuse and Integration (IEEE IRI 2014), Redwood City, CA, USA, 2014, pp. 93-97, doi: 10.1109/IRI.2014.7051877.
5. Garimella, V.R.K. Social Media Image Analysis for Public Health. /V.R.K. Garimella, A. Alfayad, I. Weber.// In Proceedings of the 2016 CHI Conference on Human Factors in Computing Systems (CHI '16). Association for Computing Machinery, New York, NY, USA, 5543–5547. DOI:https://doi.org/10.1145/2858036.2858234
6. Prieto V. M. Twitter: a good place to detect health conditions. / V. M Prieto, S.
Matos, M. Alvarez, F. Cacheda // PloS one. – 2014. – Т. 9. – №. 1. – С. e86191.
7. Khalil K. Detection of Social Media Users Who Lead a Healthy Lifestyle. / K. Khalil, M. Stankevich, I. Smirnov, M. Danina // In: Kuznetsov S.O., Panov A.I., Yakovlev K.S. (eds) Artificial Intelligence. RCAI 2020. Lecture Notes in Computer Science, vol 12412. Springer, Cham. https://doi.org/10.1007/978-3-030-59535-7_17
8. Khodorchenko, M. Developing an approach for lifestyle identification based on explicit and implicit features from social media. / M. Khodorchenko, N. Butakov // Procedia Computer Science, 136, 236-245
9. Ilakkuvan, V. (2019). Patterns of Social Media Use and Their Relationship to Health Risks Among Young Adults. / V. Ilakkuvan, A. Johnson, A. C. Villanti, W. D. Evans, M. Turner // Journal of Adolescent Health, 64 (2), 158-164
10. Furini, M. Public Health and Social Media: Language Analysis of Vaccine Conversations. /M. Furini, G. Menegoni // 2018 International Workshop on Social Sensing (SocialSens), Orlando, FL, 2018, pp. 50-55.
11. Eichstaedt, J.C. Facebook language predicts depression in medical records. /J. C. Eichstaedt, R. J. Smith, R. M. Merchant, L. H. Ungar, P. Crutchley, D. Preoţiuc-Pietro, D. A. Asch, H. A. Schwartz // Proceedings of the National Academy of Sciences Oct 2018, 115 (44) 11203-11208; DOI: 10.1073/pnas.1802331115
12. MyStem Homepage, https://tech.yandex.ru/mystem, last accessed 2019/08/19.
13. Straka, M. Tokenizing, pos tagging, lemmatizing and parsing ud 2.0 with udpipe.
/M. Straka, M., J. Straková// In Proceedings of the CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies (pp. 88-99).
14. Pedregosa, F. (2011). Scikit-learn: Machine learning in Python. Journal of machine learning research. / F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, J. Vanderplas // 12(Oct), 2825-2830.
15. Chen, T. (2016, August). Xgboost: A scalable tree boosting system. / T. Chen, C. Guestrin // In Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining (pp. 785-794).
16. Pennebaker, J. W. (2011). The secret life of pronouns. / J. W. Pennebaker // New
Scientist, 211(2828), 42-45.
17. Stankevich M. (2019) Predicting Depression from Essays in Russian. / M.
Stankevich, I. Smirnov, Y. Kuznetsova, N. Kiselnikova, S. Enikolopov // Computational Linguistics and Intellectual Technologies, DIALOGUE, 18, 637-647.
18. Stankevich, M. (2018). Feature Engineering for Depression Detection in Social Media. / M. Stankevich, V. Isakov, D. Devyatkin, I. Smirnov// In ICPRAM (pp. 426-431).
19. Devyatkin, D.(2014). Intellectual analysis of the manifestations of verbal aggressiveness in the texts of network communities. /D. Devyatkin, Y. Kuznetsova, N. Chudova, A. Shvets // Artificial Intelligence and Decision Making, (2), pp. 27-41.
20. Russel, S. Artificial Intelligence a Modern Approach Third Edition. / S. Russel, P.
Norvig, // Pearson, 2016.
21. Barnwal, S.K. (2017). Using Psycholinguistic Features for the Classification of
Comprehenders from Summary Speech Transcripts. /S.K. Barnwal, U. Shanker.// 122-136. 10.1007/978-3-319-72038-8_10.
22. Salas-Zárate, M. del P.. Automatic detection of satire in Twitter: A psycholinguistic-based approach. / M. del P. Salas-Zárate, M. A. Paredes-Valverde, M. A. Rodriguez-García, R. Valencia-García, G. Alor-Hernández// Knowledge-Based Systems, Volume 128,2017, Pages 20-33, ISSN 0950-7051, https://doi.org/10.1016/j.knosys.2017.04.009.
(https://www.sciencedirect.com/science/article/pii/S0950705117301855)
23. Gou, L. KnowMe and ShareMe: understanding automatically discovered
personality traits from social media and user sharing preferences. /L. Gou, M. Zhou, H. Yang// Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. 2014.
24. Forman, G. Learning from Little: Comparison of Classifiers Given Little Training.
/ G. Forman, I. Cohen// PKDD 2004, LNAI 3202, pp. 161–172, 2004.