Сделаем допущение, что данные по клиентам, заказам, продуктам и адресам доставки хранятся в базе данных PostgreSQL, а также метаданные по каждому клиенту: сколько был на сайте, сколько времени тратит на просмотр каждого товара и т.п.
Отдел глубокой аналитики нашей компании строит десятки гипотез на основе данных, но так как требуется наличие большого количества источников: данных ФЛ (физических лиц), данных ЮЛ (юридических лиц) - для этой цели было выбрано специальное хранилище больших данных - Hadoop (СDH). Данные по заказам, метаданные, клиентам, адресам доставки клиентов из PostgresSQL должны перемещаться в Hadoop. Для ETL процесса был выбран Spark, а брокером Kafka Apache.
Сформируйте скрипты создания таблиц, создания индексов, скрипты наполнения данных. Объем каждой таблицы не менее 100 строк. Нужно использовать оконные функции.
Также сформируйте аналитические скрипты:
- нужно найти всех клиентов, кто делает заказы в городе Москве с 7 до 10 часов утра, проранжировать их по возрастной категории (от 0-17 ребенок, от 18 до 25 студент, от 26 до 65 трудящийся, от 66 до 150 пенсионер), количество заказов за последний год и добавить дополнительные атрибуты: дата рождения, дата последнего заказа