Data Lakehouse и BI-ассистент. Выполнить ТОЛЬКО часть SQL AI-агента (пункты 6-8). Остальные части будут выполнены другими исполнителями. Будет доступен удаленный доступ к ноутбуку.
Структура проекта:
Часть 1 - Разворачивание и обработка данных в Data Lakehouse
1. Найти любые данные для обработки, лучше более 1 ГБ (данные уже выбраны!!!)
2. Установить S3 Minio, Hive Metastore, Iceberg/ Hudi, Trino
3. Выполнить загрузку данных в S3 Minio AS IS
4. Выполнить загрузку данных в Iceberg с помощью движка
5. Выполнить обработку данных в Iceberg, сформировать набор аналитик. По рез-ту обработки данных - получить готовую аналитическую витрину или набор витрин
Часть 2 - Разработка своего SQL AI агента
Пререквизиты:
Наличие Апи ключа для одной из иностранных нейросетей:
Gemini, OpenAI, Claude и др. в зависимости от используемой в проекте
В зависимости от выбранного решения возможно потребуется дополнительно поставить другую СУБД и в нее загрузить витрину, полученную в части 1.
6. Далее предлагается на выбор изучить набор вариантов по разработке BI-агента. В рамках проекта потребуется выбрать одно из решений или предложить свое, на базе которого будет работать SQL AI агент/ ассистент.
Возможные варианты решений:
- Проект https://github.com/Canner/WrenAI (предпочтительный вариант)
- https://github.com/vanna-ai/vanna
- https://github.com/AnandThirwani8/Agentic-AI-Driven-Chat-with-SQL-Database
- Любые другие релевантные проект
- Написать проект самому на базе питон-библиотеки langchain, langgraph
7. Развернуть локально и настроить выбранное решение для загрузки из DLH
8. Настроить семантический слой к данным при необходимости - описание данных.
Полезные материалы для изучения SQL AI агентских решений:
https://github.com/HKUSTDial/NL2SQL_Handbook
https://towardsdatascience.com/agentic-ai-from-first-principles-reflection/
9. В рамках сдачи групповой работы:
- Установить и настроить DLH, показать его работу в действии
- Показать формирование аналитических витрин данных на основе вашего датасета
- Показать рабочее GenAI решение для анализа данных
- Показать интеграцию GenAI решения с DLH и процесс загрузки витрины данных
- Осветить настройку GenBI решения - конфигурацию, семантический слой (если есть), код работы с данными и моделями (если есть), настроенные промпты
- Сделать демо в реальном времени - задать вопросы к данным, показать, что модель формирует ответы на основе данных
- Осветить, как улучшать качество работы модели
Будет плюсом:
- Произвести оценку качества работы модели с использованием лучших практик - например, LLM-as-a-Jundge, когда другая LLM-модель проверяет качество ответов другой модели.
| Гарантия на работу | 1 год |
| Средний балл | 4.52 |
| Стоимость | Назначаете сами |
| Эксперт | Выбираете сами |
| Уникальность работы | от 70% |