Одни используют принцип одна карточка товара для одного именования товара, но с множеством продавцов внутри каждой карточки. Что требует сотни и тысячи моделей машинного обучения для ранжирования, рекомендации, систематизации и иерархического представления товаров разных продавцов. Модели машинного обучения, которые помогают в корректной работе большого количества аспектов сайта электронной коммерции. А именно помогают точнее выводить вперед нужные, подходящие и выгодные для бизнеса товары, которые увидит пользователь. Другие сайты электронной коммерции, в том числе маркетплейсы располагают все карточки товаров на одной странице. Также применяя методы машинного обучения для хранения и представления товаров в иерархической структуре, ранжирования и рекомендации. В том числе разделение всех товаров на категории дает возможность настраивать, различные фильтры, признаки и атрибуты товаров, в автоматическом или управляемом режиме.
Хотя несмотря на обширность иерархии категорий и преимущества такого представления товаров, становится трудно выводить карточки товаров для клиентов сайта. Так как во всех системах электронной коммерции число категорий достигает тысяч и десятков тысяч, что приводит к сильному затруднению выбора правильной, подходящей категории товара к каждой карточке товара. Это настоящие трудности, с которыми приходится сталкиваться при работе с сервисом, негативно отражаются на удовлетворенности продавца и качестве контента на сайте, следовательно, значительно падают продуктовые метрики.
Использования всех имеющихся категорий сайта и иерархичного отношения для определения категории нового, добавляемого товара. Что позволит упростить категоризацию, уменьшить ошибки и автоматизировать получение правильной категории в любой среде через интеграции. Для этого вводиться задача классификация категорий товара с поставкой предсказаний через сервис с единым интерфейсом (API). Для сервиса необходима модель машинного обучения учитывающая разрозненность, зашумленность данных и сильный дисбаланс категорий.
Цель работы – разработать сервис для классификации категории по описанию товара с применением моделей машинного обучения. Сервис, который будет использовать модель и функционал по предобработке описания товаров для дальнейшей передачи в модель.
Для достижения поставленной цели необходимо выполнить следующие задачи:
1) разработать модель классификации,
2) разработать функционал сервиса по обработке запросов,
3) настроить промышленное окружение для модели и сервиса,
4) провести тестирование кода и инфраструктуры.
ВВЕДЕНИЕ..................................................................................................... 3
1. Обзор литературы по существующим методикам решения задачи.... 5
1.1. Метрики для задачи иерархической классификации............................ 8
1.2. Иерархические модели........................................................................... 9
1.3. Локальный классификатор на каждый узел (lcn)................................ 10
1.4. Локальный классификатор на родительский узел (lcpn).................... 11
1.5. Локальный классификатор на уровень дерева (lcl)............................ 14
1.6. Дополнительные признаки................................................................... 17
1.7. Выбор модели...................................................................................... 20
2. Реализация сервиса.............................................................................. 24
2.1. Система по переобучению моделей..................................................... 25
2.2. Микросервисное взаимодействие через api gateway.......................... 28
2.3. Контейнеризация и подготовка приложения к развертыванию......... 30
ЗАКЛЮЧЕНИЕ............................................................................................. 34
СПИСОК ЛИТЕРАТУРЫ............................................................................. 38
ПРИЛОЖЕНИЕ............................................................................................. 40
1) Large-scale Multi-class and Hierarchical Product Categorization for an E-commerce Giant [сайт] — 2016 — URL: https://www.semanticscholar.org/paper/Large-scale-Multi-class-and-Hierarchical- Product-an-Cevahir-Murakami/1f2392382018d63f633742b4ac5bb37c8ed98394 (дата обращение 11.04.2023).
2) Large-Scale Item Categorization in e-Commerce Using Multiple Recurrent Neural Networks [сайт] — 2016 — URL: https://dl.acm.org/doi/10.1145/2939672.2939678 (дата обращение 12.04.2023).
3) HDLTex: Hierarchical Deep Learning for Text Classification [сайт] — 2017 — URL: https://arxiv.org/abs/1709.08267 (дата обращение 12.04.2023).
4) Is a picture worth a thousand words? A Deep Multi-Modal Fusion Architecture for Product Classification in e-commerce [сайт] — 2016 — URL: https://arxiv.org/abs/1611.09534 (дата обращение 14.04.2023).
5) Language Models are Few-Shot Learners [сайт]. — 2020 — URL: https://arxiv.org/abs/2005.14165 (дата обращение 17.04.2023).
6) Language-agnostic BERT Sentence Embedding [сайт]. — 2020 — URL: https://arxiv.org/abs/2007.01852 (дата обращение 20.04.2023).
7) CatBoostClassifier [сайт]. — 2017 — URL: https://catboost.ai/en/docs/concepts/python-reference_catboostclassifier (дата обращение 18.04.2023).
8) Support Vector Classification — [сайт]. — 2014. — URL: https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html (дата обращение 16.04.2023).
9) Support Vector Machine [сайт]. — 2018 — URL: http://www.machinelearning.ru/wiki/index.php?title=Метод_опорных_векторов (дата обращение 16.04.2023).
10) Переобучению быть или не быть: когда пора обновлять модели машинного обучения [сайт]. — 2022 — URL: https://habr.com/ru/companies/vk/articles/671224/ (дата обращение 19.04.2023).