Исследовать эффективность методов PCA и SVD для понижения размерности данных.
В качестве исходных данных для анализа следует самостоятельно выбрать изображение в формате jpg. Размер изображения должен быть не менее 400 х 400 пикселей.
В ходе исследования необходимо проделать следующее:
- выбрать и обосновать количество главных компонент, достаточное для качественной визуализации;
- оценить выигрыш сжатого изображения по объему, по сравнению с оригиналом;
- оценить количество «утраченной» информации;
- выяснить зависит ли достаточное число компонент для качественной визуализации от характера изображения (если да, то оценить эту зависимость).
Исследовать возможности классификации данных с использованием алгоритмов t-SNE и UMAP.
Исходные данные для анализа загрузить из ресурса Wine Quality (http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality /) репозитария. Варианты заданий (номер варианта определяется последней цифрой номера зачетки) приведены в табл. 2.
Таблица 2
Варианты задания
Нечетная цифра
winequality-white.csv
Основная задача исследования состоит в определении качества субъективной оценки экспертов и формированию обоснованной кластеризации вин.
Исследование должно содержать:
- описание исследуемого набора данных,
- подготовку данных для анализа,
- план и решаемые задачи,
- выбор используемых функций и описание их параметров,
- результаты исследования,
- аргументированные выводы.
Программный код должен быть снабжен подробным комментарием.
Визуализировать отрывок сказки К.И.Чуковского «Муха-цокотуха» с использованием технологии SVG, соответствующий номеру фрагмента. Номер своего фрагмента определяется последней цифрой номера зачетной книжки:
7) Тут букашки и козявки
Выползают из-под лавки:
"Слава, слава Комару -
Победителю!"
Прибегали светляки,
Зажигали огоньки -
То-то стало весело,
То-то хорошо!
Эй, сороконожки,
Бегите по дорожке,
Зовите музыкантов,
Будем танцевать!
Как минимум, созданный фрагмент должен включать анимацию действия «героев» с использованием технологии SVG, а также звуковое сопровождение соответствующего фрагмента сказки (его можно вырезать, например из https://deti-online.com/audioskazki/skazki-chukovskogo-mp3/muha-cokotuha/). Звуковое сопровождение должно быть синхронизировано с визуальной анимацией.
Результирующий (исполнительный) файл должен иметь расширение svg. Не забудьте приложить все дополнительные файлы (аудио и, возможно jpg, png, gif и внешние svg и т.п.) и проверить работоспособность вашего продукта на разных браузерах.
ВВЕДЕНИЕ 4
Задание № 1: Понижение размерности данных 6
1. Постановка задачи 6
1.1. Задание на курсовую работу 6
1.2. Загрузка и подготовка исходных данных для анализа 6
2. Основные сведения необходимые для выполнения курсовой работы 7
2.1. Главные теоретические положения лежащие в основе решения поставленной задачи 7
2.2. Описание используемых библиотечных функций с примерами 10
3. Решение поставленной задачи 13
3.1. Программный код с подробными комментариями 13
3.2. Полученные результаты с выводами, пояснения полученных графических материалов 15
Задание № 2: Кластеризация данных 19
1. Постановка задачи 19
1.1. Задание на курсовую работу 19
1.2. Загрузка и подготовка исходных данных для анализа 19
2. Основные сведения необходимые для выполнения курсовой работы 20
2.1. Главные теоретические положения лежащие в основе решения поставленной задачи 20
2.2. Описание используемых библиотечных функций с примерами 23
3. Решение поставленной задачи 26
3.1. Программный код с подробными комментариями 26
3.2. Полученные результаты с выводами, пояснения полученных графических материалов 27
Задание № 3: Обработка графической информации 28
1. Постановка задачи 28
1.1. Задание на курсовую работу 28
2. Основные сведения необходимые для выполнения курсовой работы 29
2.1. Главные теоретические положения лежащие в основе решения поставленной задачи 29
2.2. Описание используемых библиотечных функций с примерами 30
3. Решение поставленной задачи 32
3.1. Программный код с подробными комментариями 32
3.2. Полученные результаты с выводами, пояснения полученных графических материалов 34
ЗАКЛЮЧЕНИЕ 36
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 37
1. Machine Learning Repository [Электронный ресурс]. ‒ URL: http://archive.ics.uci.edu/ml/index.php.
2. Филиппов Ф.В. Обработка графической информации в формате SVG : учебное пособие : часть 1 / Ф. В. Филиппов ; СПбГУТ. – СПб., 2017. – 84 с.
3. Филиппов Ф.В. Обработка графической информации в формате SVG : учебное пособие : часть 2 / Ф. В. Филиппов ; СПбГУТ. – СПб., 2017. – 36 с.
4. Метод главных компонент [Электронный ресурс]. ‒ URL:
https://rcs.chemometrics.ru/old/Tutorials/pca.htm
5. Метод главных компонент: введение (примеры на R) [Электронный ресурс]. ‒ URL:
https://rpubs.com/AllaT/pca-intro
6. Как уменьшить количество измерений и извлечь из этого пользу (SVD примеры на R) [Электронный ресурс]. ‒ URL:
https://habr.com/ru/post/275273/
7. Препарируем t-SNE [Электронный ресурс]. ‒ URL:
https://habr.com/ru/post/267041/
8. Обзор нового алгоритма уменьшения размерности UMAP [Электронный ресурс]. ‒ URL: https://habr.com/ru/company/newprolab/blog/350584/
9. Uniform Manifold Approximation and Projection in R [Электронный ресурс]. ‒ URL:
https://cran.r-project.org/web/packages/umap/vignettes/umap.html