В век информационных технологий в любой сфере деятельности информация является одним из основных ресурсов, благодаря которому эта деятельность совершается. Данные об изменении каких-либо числовых показателей (например, курс валют, коэффициент рождаемости в регионе, рентабельность продаж и прочее), обзорные статьи о разных исследованиях, таблицы, иллюстрации и многое другое. Информация в различном представлении используется для анализа предметных областей, составления прогнозов и прочего. Повседневно мы имеем дело с большими объемами данных, а наиболее доступным ресурсом для их получения служит Интернет, который представляет собой доступ к большому количеству источников различных данных.
К сожалению, большая часть таких ресурсов представляет собой электронные документы, каждый из которых имеет определенную структуру, заложенную составителем, не всегда подходящую для обработки текстов компьютером. Другими словами, в таких источниках чаще всего представлена неструктурированная или слабоструктурированная информация, что в совокупности с большими объемами данных, содержащихся в документах, затрудняет поиск действительно нужных или полезных данных именуемых знаниями. Для их извлечения аналитикам помимо собственных навыков необходимо прибегать к специальным методам, которые позволяют собирать из разных источников необходимую информацию.
На данный момент существует множество методов, решающих проблему информационного поиска:
· фактографический поиск информации;
· аннотирование документов;
· рубрицирование или классификация;
· автоматическое реферирование;
· и другие.