Профилирование LLM
1. Развернуть фреймворк SGLang
2. Установить Pytorch
3. Подготовить к запуску модель LLM.
3. Профилировщиком собрать данные выполнения на CPU или GPU (раздел Profile a server with sglang.bench_serving) по инструкции https://docs.sglang.ai/developer_guide/benchmark_and_profiling.html#profile-a-server-with-sglang-bench-serving
4. Проанализировать время выполнения модуля Attention на этапе Prefill:
- Собрать данные выполения по каждой операции в модуле в таблицу
- Привести изображение исследуемого отрезка в отчете
5. Проанализировать время выполнения модуля Attention на этапе Decode
- Собрать данные выполения по каждой операции в модуле в таблицу
- Привести изображение исследуемого отрезка в отчете.
Необходим отчет с описанием действий
| Гарантия на работу | 1 год |
| Средний балл | 4.52 |
| Стоимость | Назначаете сами |
| Эксперт | Выбираете сами |
| Уникальность работы | от 70% |