CountVectorizer Coursera Python Andwanced week 4

Раздел
Программирование
Просмотров
344
Покупок
0
Антиплагиат
Не указан
Размещена
25 Ноя 2020 в 19:46
ВУЗ
Coursera
Курс
Не указан
Стоимость
300 ₽
Файлы работы   
1
Каждая работа проверяется на плагиат, на момент публикации уникальность составляет не менее 40% по системе проверки eTXT.
zip
СountVectorizer
687 Б 300 ₽
Описание

Данное задание взято из Coursera -> Python -> Andwanced week 4 и решено мною в ходе проф деятельности по решению подобных задач. На сайте реализована автоматическая проверка данного задания эта программа его проходит на 100%.


Программа из строк / массивов строк формирует словарь токенов, а затем вектора.

Для чего это необходимо? Программа подготавливает строки для обучения нейросетей.

Пример.

Дан массив строк

corpus = [

'AABBOOHHBB',

'HOPPAAABTA',

'HPTAABBNNK'

]

Создаем копию класса CountVectorizer (в коде программы это есть). Входные данные ngram size (в этом примере число 2. это означает что токены будем разбивать по 2 символа)

Далее формируется список токенов.

для первой строки - AA AB BB BO OO OH HH HB BB

для остальных по аналогии.

Далее удаляются все повторы из списка, список сортируется в лексикографическом порядке (по алфавиту).

Из списка формируется словарь где токен - ключ, а значение порядковый номер.

{'AA': 0, 'AB': 1, 'BB': 2, 'BN': 3, 'BO': 4, 'BT': 5, 'HB': 6, 'HH': 7, 'HO': 8, 'HP': 9, 'NK': 10, 'NN': 11, 'OH': 12, 'OO': 13, 'OP': 14, 'PA': 15, 'PP': 16, 'PT': 17, 'TA': 18} - словарь.


Конечный итог работы программы список векторов строк.

[

[1, 1, 2, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0],

[2, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1],

[1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1]

]

Вам подходит эта работа?
Похожие работы
Основы программирования
Лабораторная работа Лабораторная
2 Ноя в 14:20
13 +13
0 покупок
Другие работы автора
Информатика
Реферат Реферат
12 Ноя 2021 в 22:37
281 +1
0 покупок
Имитационное моделирование
Курсовая работа Курсовая
11 Дек 2020 в 22:01
507 +1
4 покупки
Основы программирования
Задача Задача
2 Дек 2020 в 12:53
1 143
3 покупки
Линейное программирование
Задача Задача
21 Ноя 2020 в 23:46
1 058
0 покупок
Темы журнала
Показать ещё
Прямой эфир