Цель диссертационной работы заключается в изложении нового подхода сравнения текстов на естественном языке, которая позволяет извлечение текстовых сегментов с полным смыслом и обнаружение семантического сходства, путём использования некоторых компонентов, разработанных в предыдущих исследованиях, и внедрении новых методов решения, учитывая смысловые семантические аспекты.
Для достижения поставленной цели решаются следующие задачи:
1. Реализовать интеграцию компонентов или шагов, обрамленных в общие принципы схемы/модели систем обработки текстов, что является необхо-димым для нового подхода сравнения текстов.
2. Разработать метод сегментации текстов на естественном языке, который гарантирует извлечение значимых текстовых фрагментов, сохраняющих смысл текста.
3. Разработать метод автоматического сравнения двух текстов на естественном языке, который обнаруживает семантическое сходство, независимо от используемых слов.
4. На базе разработанных методов предложенного сравнения, разработать алгоритмы сегментации и сравнения, также позволяющие оценивать сходство текстов научно-технического стиля по критериям правильности и глубины.
5. Провести экспериментальные исследования методов сегментации и срав-нения текстов на естественном языке.
Объект исследования – информационная технология интерпретации текстов на естественном языке.
Предмет исследования – являются семантико-синтаксическая обработка научно-технического текстов на русском языке и автоматическая обработка текста.
Методы исследования. При выполнении диссертационного исследования использовались компьютерной лингвистики, теории вероятностей, теории графов, теории информационного поиска и современные технологии программирования, теория интеллектуальных систем, морфологический анализ, семантико-синтаксический и статистический анализ.
Научная новизна диссертационной работы:
В диссертации получены следующие новые научные и практические ре-зультаты:
1. Изложение нового подхода сравнения научно-технического текстов на естественном языке, учитывая смысловые семантические аспекты.
2. Разработка метода и алгоритм извлечения значимых текстовых пассажей, сохраняющих смысл текста.
3. Разработка метода автоматического сравнения двух текстов, который обнаруживает семантическое сходство, независимо от используемых слов, используя семантические классы сравниваемых слов.
4. Разработка алгоритм, который позволяет оценивать сходство текстов научно-технического стиля по критериям правильности и глубины.
ВВЕДЕНИЕ 5
1. ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ И АЛГОРИТМОВ В РАМКАХ ИЗВЕСТНОГО ПОДХОДА К ОБРАБОТКИ НАУЧНЫХ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ. ПОСТАНОВКА ЗАДАЧИ ИССЛЕДОВАНИЯ. 13
1.1 Обзор используемых семантических интерпретаций текстов языка. 13
1.1.1 Анализ используемой структуры языка. 14
1.1.2 Используемые особенности русского языка. 16
1.1.3 Используемые определения понятий: лингвистическое явление анафоры. 17
1.2 Анализ существующего подхода к обработке научных текстов на естественном языке. 18
1.3 Обзор существующего методов построения структурных элементов схемы существующего подхода к обработке научных текстов на естественном языке. 22
1.3.1 Используемые методы сегментации текстов. 23
1.3.2 Известные методы разрешения анафор. 32
1.3.3 Используемые методы сравнения текстов. 35
1.4 Постановка задачи нового подхода семантического сравнения текстовых научных документов и разработка методов и алгоритмов его реализация. 40
Выводы по главе 43
2. ПРЕДЛАГАЕМЫЙ ПОДХОД К ЗАДАЧЕ СЕМАНТИЧЕСКОГО СРАВНЕНИЯ ТЕКСТОВЫХ НАУЧНЫХ ДОКУМЕНТОВ И РАЗРАБОТКА МЕТОДОВ И АЛГОРИТМОВ ЕГО РЕАЛИЗАЦИИ. 45
2.1 Новый подход обработки текстов для текстового сравнения. 45
2.2 Разработка метода сегментация на значимых текстовых пассажах для последующего сравнения. 47
2.3 Разработка метода сравнения текстов на основе текстовых пассажей с учетом семантических классов. 51
2.4 Вычисление сходства между документами. 58
Выводы по главе 59
3. РАЗРАБОТКА АЛГОРИТМЫ СЕМАНТИЧЕСКОГО СРАВНЕНИЯ НАУЧНЫХ ТЕКСТОВЫХ ДОКУМЕНТОВ. 61
3.1 Разработка алгоритма нового подхода текстов для текстового сравнения. 61
3.2 Разработка алгоритма сегментации текстов на значимых пассажах. 64
3.3 Разработка алгоритма сравнения текстов основанном на значимых пассажах с учетом семантических классов. 74
Выводы по главе 83
4. исполнение экспериментального исследования и оценку полученнных результатов. 84
4.1 Результаты эксперимента, анализ и сравнение сегментация текстов на значимых текстовых пассажах. 84
4.2 Результат