Нужна помощь с курсовой работой по машинному обучению, используя язык R. Дедлайн до 26 является лишь частью курсовой. Полный дедлайн будет до 30 Марта, который в заказе будет продлён. В документе представлены частичные описания заданий (3 задания). Все остальные описания и дата будет предоставлена после обсуждения.
Описание того, что нужно до 26 Февраля:
Отчет: не более 10 страниц, формат A4, размер шрифта Arial 11, поля 2 см.
Код: отдельный файл сценария R
Выполнимость задания. В этом задании мы просим вас только:
Проведите исследовательский анализ данных (EDA), который поможет вам генерировать идеи моделирования.
Используйте свой EDA, чтобы разработать и обосновать 5 идей/гипотез моделирования. Попробуйте обсудить эти вопросы:
Оправдывают ли сильные корреляции X, Y линейную модель или кусочно-линейную?
Предлагают ли диаграммы рассеяния преобразования для линеаризации отношений X, Y?
Какие-то пропущенные значения? Каковы различные способы их лечения и их недостатки/преимущества?
Какие-то категориальные особенности и разные кодировки со своими недостатками/преимуществами?
Если вы разрабатываете «слишком много» функций, какие инструменты уменьшения размерности вы могли бы использовать и их недостатки/преимущества?
Какие нелинейные модели (без учителя/с учителем) вы могли бы использовать и их недостатки/преимущества?
Существует ли наблюдательная зависимость (например, во времени, группе и т. д.)? Как вы можете обнаружить это и зафиксировать в своей нелинейной модели?
Существует ли зависимость признаков (например, мультиколлинеарность)? Как вы можете обнаружить это и зафиксировать в своей нелинейной модели?
Если наблюдений слишком много/мало, как вы можете сократить или увеличить выборку обучающего набора?
Какие метрики модели подходят и их недостатки/преимущества? (например, RSS, MSE, MAE, RMSE, R2, категориальные потери, AIC, BIC, Cp, показатели кластеризации, ...)
Как можно настроить гиперпараметры и выбрать «лучший» набор их значений? (например, тестовая метрика по случайному размеру леса или поиску по сетке)
Если модель может переобучать (например, слишком много производных функций), как вы можете с этим справиться? (например, усеченный PCA, регуляризация, ...)
Если классы несбалансированы, как вы можете предотвратить смещение самого большого класса?
Если это проблема с несколькими классами или несколькими метками, какие модели вы могли бы использовать и как? (например, один против всех, один против остальных, полиномиальная логистическая регрессия, деревья, ...)
-------------------------------------------------------------------------------------------------------------------------------
Разработайте простую базовую модель
Если вы включите улучшенные модели, мы не будем оценивать их, чтобы избежать конфликта интересов.
Включите страницу ссылок.
Выберите стиль цитирования (например, APA) и последовательно используйте его.
Google Scholar — удобный способ генерировать цитаты в разных стилях.
Для URL-адресов: постарайтесь найти автора/псевдоним, первоначальную дату (или хотя бы год) и текущую дату поиска.
По крайней мере, укажите, где вы использовали понятия/формулы из учебников ISLR или ESL.
Гарантия на работу | 1 год |
Средний балл | 4.96 |
Стоимость | Назначаете сами |
Эксперт | Выбираете сами |
Уникальность работы | от 70% |