Для выполнения проекта необходимо использовать Google Colab и подключить в нем T4 GPU (раздел «Показать ресурсы» → «Сменить среду выполнения»).
Задание 1. Загрузить датасет и провести первичный анализ данных
1. Загрузите датасет (значок загрузки “Download raw file” справа).
2. Установите и импортируйте необходимые библиотеки:
3. !pip install transformers
4. !pip install torch
5. !pip install pandas
6.
7. import pandas as pd
8. import matplotlib.pyplot as plt
9. import seaborn as sns
10. import numpy as np
11. import torch
12. import nltk
13. import tqdm as tqdm
14.
15. from sklearn.feature_extraction.text import CountVectorizer
16. from sklearn.decomposition import LatentDirichletAllocation
17. from nltk.corpus import stopwords
18. from textblob import TextBlob
19.
20. from transformers import BertTokenizer, BertForSequenceClassification
21. from transformers import pipeline
22. from torch.utils.data import DataLoader
from collections import defaultdict
23. Прочитайте датасет в формате TSKV и представьте его в формате pandas df.
24. Отфильтруйте данные по больницам Москвы, используя столбцы address и rubrics.
25. Постройте график распределения рейтингов больниц в Москве.
26. Постройте график топ-10 больниц по количеству отзывов.
Остальная часть задания описана в приложение в файле Итоговый проект
| Гарантия на работу | 1 год |
| Средний балл | 4.52 |
| Стоимость | Назначаете сами |
| Эксперт | Выбираете сами |
| Уникальность работы | от 70% |