Теоретические основы информатики

Отменен
Заказ
5809133
Раздел
Программирование
Антиплагиат
70% Антиплагиат.РУ (модуль - Интернет Free)
Срок сдачи
17 Янв в 09:00
Цена
1 500 ₽
Блокировка
10 дней
Размещен
11 Янв в 13:48
Просмотров
53
Описание работы

Добрый день.Нужно сделать 4 лаб.работы. ПРИЛАГАЮ НИЖЕ ОДНУ ИЗ НИХ

Лабораторная работа No 1

Вычисление статистических характеристик

текстовой информации

Теоретические сведения

Важными характеристиками текста являются повторяе-

мость букв, пар букв (биграмм) и вообще m-ок (m-грамм), соче-

таемость букв друг с другом, чередование гласных и согласных

и некоторые другие. Эти характеристики являются достаточно

устойчивыми.

Для русского языка частоты знаков алфавита, в котором

отождествлены E c Ё, Ь с Ъ, а также имеется знак пробела меж-

ду словами, приведены в таблице 1.ормация

Таблица 1

Частоты знаков алфавита

Символ /

Вероятность

Символ /

Вероятность

Символ /

Вероятность

Символ /

Вероятность

пробел 0,175 О 0,090 Е, Ё 0,072 А 0,062

И 0,062 Т 0,053 Н 0,053 С 0,045

Р 0,040 В 0,038 Л 0,035 К 0,028

М 0,026 Д 0,025 П 0,023 У 0,021

Я 0,018 Ы 0,016 З 0,016 Ь, Ъ 0,014

Б 0,014 Г 0,013 Ч 0,012 Й 0,010

Х 0,009 Ж 0,007 Ю 0,006 Ш 0,006

Ц 0,004 Щ 0,003 Э 0,003 Ф 0,002

Некоторая разница значений частот в различных источни-

ках объясняется тем, что частоты существенно зависят не толь-

ко от длины текста, но и от его характера.

Если бы сообщения передавались с помощью равноверо-

ятных букв алфавита и между собой статистически независи-

мых, то энтропия таких сообщений была бы максимальной. На

самом деле реальные сообщения строятся из не равновероятных

букв алфавита с наличием статистических связей между буква-

ми. Поэтому энтропия реальных сообщений  Hр – оказывается

много меньше оптимальных сообщений  Hо. Допустим, нужно

передать сообщение, содержащее количество информации, рав-

ное I. Источнику, обладающему энтропией на букву, равной Hр,

придется затратить некоторое число nр, то есть I = npHp.

Если энтропия источника была бы Н0, то пришлось бы за-

тратить меньше букв на передачу этого же количества инфор-

мации I = nоHо, т.е.

Таким образом, часть букв nр  nо является как бы лишни-

ми, избыточными. Мера удлинения реальных сообщений по

сравнению с оптимально закодированными и представляет со-

бой избыточность D.

Но наличие избыточности нельзя рассматривать как при-

знак несовершенства источника сообщений. Наличие избыточ-

ности (2) способствует повышению помехоустойчивости сооб-

щений. Высокая избыточность естественных языков обеспечи-

вает надежное общение между людьми.

Задания

Задание 1. Определить количество информации (по Харт-

ли), содержащееся в заданном сообщении, при условии, что зна-

чениями являются буквы кириллицы.

«Информация в общем виде является свойством матери-

альных объектов, существует вечно, никогда не возникала и ни-

когда не исчезает.».

Задание 2. Построить таблицу распределения частот сим-

волов, характерных для заданого сообщения. Производится так

называемая частотная селекция, текст сообщения анализируется

как поток символов и высчитывается частота встречаемости

каждого символа. Сравнить с имеющимися данными в таблице

1.

Задание 3. На основании полученных данных определить

среднее и полное количество информации, содержащееся в за-

данном сообщении.

Задания для самостоятельной работы

Оценить избыточность сообщения из задания

Нужна такая же работа?
  • Разместите заказ
  • Выберите исполнителя
  • Получите результат
Гарантия на работу 1 год
Средний балл 4.96
Стоимость Назначаете сами
Эксперт Выбираете сами
Уникальность работы от 70%
Нужна аналогичная работа?
Оформи быстрый заказ и узнай стоимость
Гарантированные бесплатные доработки
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Темы журнала
Показать ещё
Прямой эфир