1. Нейронные сети бывают следующих видов:
Полносвязные и рекуррентные
Рекуррентные, сверточные и трансформеры
Рекуррентные, сверточные, полносвязные и трансформеры
2. Задача классификации – это задача
*Обучения с учителем
*Обучения без учителя
*Обучения с подкреплением
3. Обучение нейронной сети – это применение алгоритма оптимизации для решения задачи
Минимизации средней нормы градиента эмпирического риска по весам модели Минимизации эмпирического риска
Минимизации средней нормы матриц весов модели
4. Отметьте верные высказывания о функциях активации:
Тип ответа: Одиночный выбор
*Функция активации сигмоида лежит в диапазоне [0,1] и может быть интерпретирована как вероятность, а потому часто используется для решения задач бинарной классификации. Функция ReLU - кусочно-линейная
*Функция Leacky ReLU - всюду дифференцируема. Популярная функция активации гиперболический тангенс может быть использована, как решающая функция для задачи регрессии. Производная сигмоидальной функции не выражается аналитически через значение самой функции в данной точке
* Все функции активации взаимозаменяемы вследствие того, что имеют одну и ту же область значений и область определения
5. Идея Momentum состоит в:
*Вычислении градиента в точке, к которой алгоритм должен сойтись на текущем шаге, согласно посчитанному моментному члену, а не в той точке, откуда алгоритм производит шаг *Использовании идеи физической инерции посредством добавления моментных членов, "скоростей"
*приближенном, а значит - более быстром("моментальном") вычислении градиентов в текущей
6. Нейронные сети, наиболее часто применяющиеся в CV – это
*Полносвязные
*Сверточные
*Рекуррентные
7. Задачу машинного обучения можно представить в виде последовательности выполнения действий по выбору оптимальной решающей функции f из многопараметрического семейства F. Задача обучения сводится к задаче оптимизации на этапе:
*Выбора семейства F
*Оценки качества выбранной функции f из семейства F
*Поиска наилучшей функции из семейства F
8. Производная сигмоиды выражается через саму сигмоиду аналитически, как
sigm’ = sigm(1 - sigm)
sigm’ = 5sigm^(5)
sigm’ = 100sigm/sin(sigm)
9. Метод подбора адаптированного learning rate на основе оценки исторических градиентов:
Nesterov Momentum
RMSProp
Adagrad
10. При прямом проходе через Feed Forward Neural Network:
Происходит обновление весов модели на основе градиентов, посчитанных на предыдущей итерации
Происходит выстраивание архитектуры модели посредством подбора числа слоев и их размеров
Сигнал передается посредством последовательного матричного умножения и применения нелинейных функций активации
11. Архитектура полносвязной нейронные сети основана на идее
обобщения низкоуровневых признаков и генерирования на их основе более высокоуровневых Построения разделяющей гиперплоскости
Минимизации лосс-функции без использования градиентных методов
12. Начальная инициализация весов нейросети:
*Должна быть константной для того, чтобы результаты обучения нейросети на одной и той же трейнинговой выборке были воспроизводимыми
*Должна быть случайной для того, чтобы модель могла обучиться, не зануляя градиенты на определенном шаге, причем такой, что дисперсия сигнала не будет изменяться при проходе через слои нейросети.
*Может быть любой
13. Лучший способ борьбы с переобучением:
Изменение архитектуры модели
Регуляризации
Увеличение количества данных
14. Наиболее популярный на текущий момент метод оптимизации, основанный на идее использования двух моментных членов, предложенный в 2015 году:
ADAM
Adagrad
Adadelta
15. Обучение с учителем характеризуется
*Целью обучить агента принимать оптимальные решения в среде
* Отсутствием размеченной выборки
*Наличием размеченной выборки
16. Градиентные методы оптимизации
*Представляют собой итерационные алгоритмы
*Аналитически ищут решение задачи оптимизации
*Вопреки названию, не используют градиент
17. Условия Каруша-Куна-Таккера применимы для решения:
*Любой задачи оптимизации
*Задачи выпуклой оптимизации
*Задачи оптимизации произвольной функции на выпуклом множестве Q
18. Все описанные в лекции алгоритмы обладают общим свойством. Каким?
*Для всех требуется вычисление матрицы Гессе оптимизируемой функции
*Для всех требуется вычисление градиентов оптимизированной функции
*Для всех требуется подсчет значения оптимизируемой функции в данной точке
19. Функции активации в нейронных сетях:
*Нелинейны (глобально) и вносят неоднородность в сигнал при прямом проходе
*Линейны и нужны для проверки работоспособности модели
*Активируют нейросеть в разных режимах работы
20. Переобучение – это эффект, возникающий при
*Излишней сложности модели по отношению к сложности обучающей выборки, из-за чего происходит “заучивание” данных
*Слишком долгом обучении модели, из-за чего она теряет свою предсказательную способность вследствие увеличения энтропии весов
*Усталости специалиста по машинному обучению от того, что его модели слишком долго учатся
21. Алгоритм Backpropagation:
*Состоит в случайном подборе весов модели до тех пор, пока не будет достигнут оптимальный набор параметров, минимизирующий ошибку
*Используется только для оптимизации полносвязных нейросетей
*Последовательном вычислении градиентов по весам модели, начиная с последнего слоя, по предактивациям соответствующего слоя и градиентам по весам следующего
22. Функции активации в нейронных сетях:
*Нелинейны (глобально) и вносят неоднородность в сигнал при прямом проходе
*Линейны и нужны для проверки работоспособности модели
*Активируют нейросеть в разных режимах работы