Прикладная информатика
Направленность (профиль) «Корпоративные информационные системы»
Тип практики технологическая практика
(профильное структурное подразделение Университета) кафедра информационных систем
- Оформление документов на практику, ознакомление с разнообразными требованиями по прохождению практики и правилами оформления документов по практике, в том числе с требованиями по безопасности и антикоррупционному поведению. Составление индивидуального задания прохождения практики руководителем практики от Университета.
– Ознакомиться с правилами внутреннего трудового распорядка, в том числе с нормативной документацией по мерам противодействия коррупционному поведению.
– Пройти инструктаж по технике безопасности и правилах поведения при возникновении чрезвычайных и нештатных ситуаций
– Организовать рабочее место в соответствии с правилами техники безопасности и физической гигены
– Выбрать платформу и необходимые библиотеки для разработки алгоритмов, анализа данных и визуализации данных. Установить дополнительные библиотеки. Разработать необходимые процедуры и функции (технологические требования ниже).
Технологические требования:
– Задача на практику – продемонстрировать способность к самостоятельному освоению и применению сторонних библиотек на примере программы, использующей связку pandas, matplotlib и numpy. По усмотрению практиканта, можно так же инсталлировать и другие библиотеки.
– Получить или сгенерировать набор данных (dataset) в виде файла или файлов в формате *.csv. Задачей практики будет поиск закономерностей в выбранных данных. Данные можно брать любые, как сгенерированные уже существующей имеющейся в распоряжении практиканта программой, так и в готовом виде из доступных практиканту ресурсов (в том числе из Интернета с ресурсов типа kaggle.com).
– Требования к набору данных:
o данные объединены общей темой.
o в исходной таблице должно быть не менее 800 рядов
o данные необходимо согласовать с руководителем практики
– Сформировать на основе полученного набора данных общий объект типа pandas.DataFrame. Вывести на печать разные группы рядов и колонок итогового объекта.
– Выполнить очистку данных от «цифрового мусора» (то есть неопределённых или не имеющих смысла записей). Строки с мусорными данными можно удалять или каким-то образом заполнять правильными данными (взяв, например, среднее значение или медиану в колонке). Удаление не должно нарушать минимальное требование по объёму.
– Максимально привести данные в числовую форму (например, если в таблице есть колонка «пол» человека, то значения в ней должны стать 0 и 1).
– Выполнить расчет и вывод в консоль (и текстовый файл) стандартных статистических характеристик по цифровым данным (среднее, медиана и прочие релевантные статистические характеристики).
– Добавить данные, полученные в результате статистических вычислений, в отдельные колонки DataFrame.
– Придумать 5 разных способов разделения данных по рассчитанным признакам (возможные варианты: по частоте, по распределению, по экономической целесообразности итд.). Определить, какие колонки и ряды данных относятся к какому распределению.
– Выделить 5 новых DataFrame из старого, согласно выбранным способам разделения данных.
– Написать сегменты отчёта, в которых коммуницировать результаты проделанной работы.
– Визуализировать данные разных статистических срезов с помощью библиотеки matplotlib. Использование этой библиотеки обязательно, но в дополнение к ней можно использовать и другие.
– Объединить сгенерированные статистические данные в один набор с исходными данными, добавив соответствующие колонки в исходный DataFrame.
– Выдвинуть 3 гипотезы, о том, каким образом можно предсказать значение одного из исходных столбцов исходного DataFrame на основе остальных, в том числе статистически рассчитанных.
– Проверить эти гипотезы, написав функции такого рассчёта.
– Протестировать их на своём DataFrame, определив количество относительный вес точных и неточных ответов.
– Подумать, какие параметры могут быть у выбранной функции рассчёта и как можно эту функцию оптимизировать, подобрав наиболее подходящие параметры. Написать какой-то (может быть даже неудачный) алгоритм такой оптимизации.
– Написать сегменты отчёта, в которых коммуницировать результаты проделанной работы.
ВВЕДЕНИЕ 3
ВЫБОР ПЛАТФОРМЫ И ДАННЫХ 4
1.1 Выбор платформы для разработки и необходимых библиотек 4
1.1.1 Обоснование выбора платформы интерпретатора языка Python 5
1.1.2 Выбор библиотек для анализа данных 6
1.2 Получение данных 8
1.2.1 Предварительный анализ данных 8
1.2.2 Выбор формата хранения данных 11
1.2.3 Очистка данных от цифрового мусора 13
1.3 Выводы по разделу 18
СОРТИРОВКА ДАННЫХ 20
2.1 Получить Dataset (данные) 20
2.2 Рассчитать стандартные числовые характеристики для набора данных 21
2.3 Визуализировать данные с помощью стандартных 23
2.4 Визуализация данных полученных в результате промежуточного анализа 25
2.5 Прогнозы 30
2.6 Выводы по разделу 30
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 34
ПРИЛОЖЕНИЕ А. ЛИСТИНГ ПРОГРАММЫ 35