На входе:
• массив документов для обучения;
• набор рубрик для классификации;
• массив документов, которые необходимо классифицировать по рубрикам;
На выходе:
• наименования документов, сгруппированные по рубрикам, к которым их можно
отнести согласно наивной байесовской модели.
Таблица 1 — Можество документов с оценками эксперта относительно их принадлежности
классу China (1 — документ соответствует рубрике, 0 — не соответствут)
Номер
документа Содержание c=China
1 Chinese Beijing Chinese 1
2 Chinese Chinese Shanghai 1
3 Chinese Makao 1
4 Tokio Japan Chinese 0
5 Chinese Chinese Chinese Tokio Japan ?
Использовать мультиномиальный метод и сглаживание Лапласа!