Основы сбора и обработки больших данных

Выполнен
Заказ
5255496
Раздел
Программирование
Антиплагиат
Не указан
Срок сдачи
5 Мар 2023 в 21:55
Цена
1 400 ₽
Блокировка
10 дней
Размещен
1 Мар 2023 в 09:18
Просмотров
148
Описание работы

Две работы по одному предмету, относительно несложные.

Задание в закрепе.

https://catalog.data.gov/dataset - csv можно взять отсюда.

Лабораторная работа №1. Предобработка данных в текстовом редакторе и редакторе таблиц Цель работы: получить базовые навыки предобработки данных в текстовом редакторе и редакторе таблиц.

1. Найдите и скачайте в сети Интернет файл формата .txt или .csv, содержащий данные, разделённые запятой, знаком табуляции, пробелом или запятой. Необходимо согласовать свой выбор с преподавателем!

2. Сделайте копию указанного файла. Откройте её в текстовом редакторе (Блокнот). При помощи глобальной замены (Ctrl+H) заменить символ-разделитель значений какой-то другой (например, запятую на точку с запятой). Сделайте скриншот фрагмента получившегося файла и сохраните его. Также сохраните измененный файл.

3. Открой изменённый файл в редакторе таблиц (например, MS Excel).

4. Выполните, если необходимо разбиение по столбцам.

5. Если в файле отсутствуют названия столбцов, добавьте их.

6. Сделайте скриншот получившегося файла и сохраните его.

7. Включите фильтр столбцов. Выполните фильтрацию по двум значениям целевой переменной и по одному значению двух любых независимых переменных. Сделайте скриншоты результатов и сохраните их.

8. Создайте три новый столбца в разными способами. Сделайте скриншот получившихся столбцов и сохраните его.

9. Выберите целевой столбец (целевая, зависимая переменная). Создайте новый столбец на основе целевого столбца. В новом столбце число значений должно быть равно трём. Если в оригинальном целевом столбце число возможных значений равно двум, то необходимо увеличить число принимаемых значений до четырёх (в новом столбце).

10. Раскрасьте ячейки получившегося нового целевого столбца исходя из их значений (двумя способами).

11. Постройте три вида гистограмм.

12. Выполните умножение на константу для произвольного столбца из файла.

13. Выполните сложение двух столбцов.

14. Найдите максимальное, минимальное и средние значения для определённого столбца.

15. Сравните значения двух столбцов и посчитайте процент совпадений.

16. Сравните значения двух столбцов и посчитайте процент несовпадений.

17. Выполните поиск дубликатов средствми тектового редатора.

18. Выполните поиск выбросов в данных.

Моделирование данных (выполнение модели)

Цель работы: получить базовые навыки моделирования данных в разрезе выполнения моделей

Порядок выполнения работы (задания): Часть 1. 1. Запустите IDLE.

2. Создайте новый файл. Назовите его: "lab2_1_ФИО".

3. Внесите в него следующий код: import statsmodels.api as sm import numpy as np predictors = np.random.random(1000).reshape(500, 2) target = predictors.dot(np.array([0.4, 0.6])) + np.random.random(500) lmRegModel = sm.OLS(target, predictors) result = lmRegModel.fit() print(result.summary())

4. Выполните код. Сделайте скриншот и внесите его в отчёт.

5. Измените код так, чтобы выводу таблицы на экран предшествовал вывод текста: "Результаты регрессии".

6. Выполните код. Сделайте скриншот и внесите его в отчёт.

7. Выполните 10 итераций для переменных "predictors" и "target", изменяя условия их формирования. Входные данные (условия формирования) и измерения (результаты) занести в таблицу (Excel). В таблицы использовать только метрики, рассмотренные на лекции.

8. Сделайте выводы о влиянии изменений условий формирования на качество модели. Найдите средние, минимальные и максимальные значения метрик.

9. Для используемых метрик постройте графики в Excel.

Нужна такая же работа?
  • Разместите заказ
  • Выберите исполнителя
  • Получите результат
Гарантия на работу 1 год
Средний балл 4.96
Стоимость Назначаете сами
Эксперт Выбираете сами
Уникальность работы от 70%
Время выполнения заказа:
11 дней 7 часов 36 минут
Выполнен
Нужна аналогичная работа?
Оформи быстрый заказ и узнай стоимость
Гарантированные бесплатные доработки
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Темы журнала
Показать ещё
Прямой эфир