Нужно обучить двух агентов (2 ракетки), желательно с помощью DQN, игра Pong из Atari.
Также требуется написать небольшое объяснение по данным пунктам :
1. Постановка задачи
a. описание среды;
b. описание функций агента.
2. Формализация задачи. Описание
a. модели поведения среды,
b. состояний среды,
c. вознаграждений,
d. действий агента,
e. целевой функции агента.
3. Выбор метода обучения с подкреплением.
4. Реализация имитационной модели поведения среды.
5. Реализация алгоритма обучения с подкреплением.
6. Обучение агента.
7. Оценка качества обучения агента