Добрый день.Нужно сделать 4 лаб.работы. ПРИЛАГАЮ НИЖЕ ОДНУ ИЗ НИХ
Лабораторная работа No 1
Вычисление статистических характеристик
текстовой информации
Теоретические сведения
Важными характеристиками текста являются повторяе-
мость букв, пар букв (биграмм) и вообще m-ок (m-грамм), соче-
таемость букв друг с другом, чередование гласных и согласных
и некоторые другие. Эти характеристики являются достаточно
устойчивыми.
Для русского языка частоты знаков алфавита, в котором
отождествлены E c Ё, Ь с Ъ, а также имеется знак пробела меж-
ду словами, приведены в таблице 1.ормация
Таблица 1
Частоты знаков алфавита
Символ /
Вероятность
Символ /
Вероятность
Символ /
Вероятность
Символ /
Вероятность
пробел 0,175 О 0,090 Е, Ё 0,072 А 0,062
И 0,062 Т 0,053 Н 0,053 С 0,045
Р 0,040 В 0,038 Л 0,035 К 0,028
М 0,026 Д 0,025 П 0,023 У 0,021
Я 0,018 Ы 0,016 З 0,016 Ь, Ъ 0,014
Б 0,014 Г 0,013 Ч 0,012 Й 0,010
Х 0,009 Ж 0,007 Ю 0,006 Ш 0,006
Ц 0,004 Щ 0,003 Э 0,003 Ф 0,002
Некоторая разница значений частот в различных источни-
ках объясняется тем, что частоты существенно зависят не толь-
ко от длины текста, но и от его характера.
Если бы сообщения передавались с помощью равноверо-
ятных букв алфавита и между собой статистически независи-
мых, то энтропия таких сообщений была бы максимальной. На
самом деле реальные сообщения строятся из не равновероятных
букв алфавита с наличием статистических связей между буква-
ми. Поэтому энтропия реальных сообщений Hр – оказывается
много меньше оптимальных сообщений Hо. Допустим, нужно
передать сообщение, содержащее количество информации, рав-
ное I. Источнику, обладающему энтропией на букву, равной Hр,
придется затратить некоторое число nр, то есть I = npHp.
Если энтропия источника была бы Н0, то пришлось бы за-
тратить меньше букв на передачу этого же количества инфор-
мации I = nоHо, т.е.
Таким образом, часть букв nр nо является как бы лишни-
ми, избыточными. Мера удлинения реальных сообщений по
сравнению с оптимально закодированными и представляет со-
бой избыточность D.
Но наличие избыточности нельзя рассматривать как при-
знак несовершенства источника сообщений. Наличие избыточ-
ности (2) способствует повышению помехоустойчивости сооб-
щений. Высокая избыточность естественных языков обеспечи-
вает надежное общение между людьми.
Задания
Задание 1. Определить количество информации (по Харт-
ли), содержащееся в заданном сообщении, при условии, что зна-
чениями являются буквы кириллицы.
«Информация в общем виде является свойством матери-
альных объектов, существует вечно, никогда не возникала и ни-
когда не исчезает.».
Задание 2. Построить таблицу распределения частот сим-
волов, характерных для заданого сообщения. Производится так
называемая частотная селекция, текст сообщения анализируется
как поток символов и высчитывается частота встречаемости
каждого символа. Сравнить с имеющимися данными в таблице
1.
Задание 3. На основании полученных данных определить
среднее и полное количество информации, содержащееся в за-
данном сообщении.
Задания для самостоятельной работы
Оценить избыточность сообщения из задания
Гарантия на работу | 1 год |
Средний балл | 4.96 |
Стоимость | Назначаете сами |
Эксперт | Выбираете сами |
Уникальность работы | от 70% |