Учебный материал: Технические задачи информационного поиска (инф. поиск)

Главной задачей информационного поиска является нахождение всей информации, соответствующей информационным потребностям пользователя, в некоторой коллекции документов. Данную задачу можно условно разделить на несколько подзадач. Рассмотрим некоторые.

 

Сбор информации

Проблему обхода коллекции с целью нахождения документов, соответствующих заданной тематике, можно рассматривать как отдельную задачу. Для решения данной задачи применяются различные техники обхода, которые можно разбить на две группы. Первая — различные стратегии обхода, повышающие количество найденных тематически связанных документов среди общего объема найденных. Вторая — простая фильтрация, которая позволяет быстро отсеивать документы, не соответствующие тематике, уменьшая вычислительную стоимость нахождения очередного интересующего документа. Для решения задач сбора информации используются так называемые поисковые роботы (краулеры), которые получают из коллекции документы и извлекают из них гиперссылки, по которым осуществляется дальнейший сбор информации.

 

Построение индексной структуры

Необходимо найти оптимальную структуру хранения документов, позволяющую максимально эффективно хранить информацию, получать к ней доступ и выдавать результат поиска с минимальной задержкой по времени. В некоторых случаях, индексная структура должна обладать свойствами масштабируемости и надежности работы при отказе некоторых ее частей. При создании индексной структуры для размещения и работы с информацией большого объема используются распределенные параллельные архитектуры. Например, она разбивается на отдельные коллекции по некоторому принципу, причем внутри разных, коллекций могут использоваться разные методы выполнения поиска.

 

Ранжирование информации

Различные документы могут иметь различную ценность для конкретного пользователя, независимо от его конкретной информационной потребности. Критериями такой ценности может быть размер и тематическая целостность документа, авторитетность его автора, время его создания. В процессе ранжирования должен оцениваться вес документа в коллекции. Оценка веса документа может зависеть от поискового запроса, либо от него не зависеть. В последнем случае она вычисляется на этапе индексации. При этом учитывается смысловое содержание текста или гиперссылочная структура документа.

 

Выбор модели документа

Для организации процедуры информационного поиска требуется формировать и сохранять упрощенные модели документов (модели с определенными наборами характеристик, по которым оцениваются документы) 5 коллекции. Моделью документа обычно называют набор характеристик документа, которые учитываются системой поиска при его обработке. Причем, для каждой из возможных задач подбирается индивидуальный набор характеристик, по которому оценивается документ или группы документов.

 

Оценка качества поиска

На данный момент существует несколько моделей оценки качества информационного поиска. Используются как автоматические средства оценки качества, так и оценка путем опроса пользователей системы. Существуют общепринятые тестовые наборы, критерии и открытые результаты оценки качества различных информационных систем на этих наборах. Проводятся различные конференции по проблемам оценки качества информационного поиска, как на международном (TREC), так и на российском (РОМИП) уровне.

На сегодняшний день перечисленный выше набор технических задач информационного поиска далеко не конечный, постоянно появляются новые проблемы, ставятся новые задачи.

Опубликовано: 26 июня

Добавить свой комментарий

(обязательно):

Присылай свое сочинение нам и получай денежное вознаграждение! Подробности на genericwrite@gmail.com.