Тезаурусы в задачах информационного поиска

Скачать 6.4 Mb.

Название	Тезаурусы в задачах информационного поиска
страница	2/45
Тип	Задача

rykovodstvo.ru > Руководство эксплуатация > Задача

1 2 3 4 5 6 7 8 9 ... 45

Введение

Область современного информационного поиска чрезвычайно разнообразна. Она включает такие задачи, как собственно поиск информации, фильтрация, рубрикация и кластеризация документов, поиск ответов на вопросы, автоматическое аннотирование документа и группы документов, поиск похожих документов и дубликатов, сегментирование документов и многое другое. Когда подобные операции выполняет человек, ему необходимо выявить основное содержание документа, его основную тему и подтемы, и для этого обычно используется большой объем знаний о языке, мире, организации связного текста.

Абсолютно подавляющее число современных методов обработки неструктурированной информации решают эти задачи на основе минимальных дополнительных предварительных знаний и базируются на моделях текста как набора слов (“bag of words”), предлагая изощренные методы учета частотностей встречаемости слов в предложении, тексте, наборе документов, совместной встречаемости слов и т.п. Пословные модели не учитывают такие языковые явления как синонимия, многозначность, существование лексических отношений между словами.

Недостаток лингвистических и онтологических знаний (знаний о мире), используемых в приложениях информационного поиска и автоматической обработки текстов, приводит к разнообразным проблемам. Нехватка знаний приводит к нерелевантному поиску в тех случаях, если способы формулировки запросов отличаются от способов описания релевантных ситуаций в документах. Эта проблема усугубляется при обработке длинных запросов, при поиске ответов на вопросы в вопросно-ответных системах, а также при поиске информации в специализированных поисковых системах, в которых содержится значительно меньшее число документов, чем в Интернет. Нехватка знаний приводит к снижению качества при автоматической фильтрации и рубрикации документов, к излишним повторам или нарушению связности при автоматическом аннотировании и др.

Еще одним типом обычно не достаточно используемых лингвистических знаний в приложениях информационного поиска является неучет структурных свойств связного текста. Как известно, связный текст имеет сложную иерархическую структуру. Существенным проявлением связности текста является так называемая глобальная связность текста, когда в тексте имеется одна главная тема, а вся остальная информация подчинена изложению этой основной темы. Одним из проявлений глобальной связности текста является его лексическая связность, когда в тексте содержится множество близких по смыслу слов и выражений. Между тем подавляющее большинство подходов рассматривает текст как совокупность независимых друг от друга слов, характеризующихся частотностью встречаемости в документе и коллекции.

В настоящее время знания о языке и мире описываются в таких компьютерных ресурсах как онтологии и тезаурусы. Однако на практике применение тезаурусов и онтологий в промышленных информационных системах, основанных на автоматической обработке текстов, не слишком распространено.

Такая ситуация связана с целым рядом обстоятельств.

Во-первых, если предлагается использовать некоторый лингвистический ресурс, то он должен включать описания десятков тысяч слов и словосочетаний. Процент ошибок ресурса должен быть настолько мал, чтобы не испортить возможные улучшения, получаемые от применения этого ресурса. При этом нужно понимать, что ведение любого лингвистического ресурса всегда будет отставать от развития предметной области, то есть даже наиболее качественный лингвистический ресурс будет всегда неполон.

Во-вторых, применение тезаурусов и онтологий в информационном поиске требует высокого качества разрешения многозначности слов текста. Однако тестирование качества разрешения лексической многозначности, проводимых на конференциях SemEval и Senseval, показало, что качество разрешения многозначности для всех многозначных слов текста пока не достигает уровня, достаточного для эффективного применения тезаурусов и онтологий в приложениях информационного поиска.

В-третьих, применение отношений тезауруса или онтологии для расширения запросов может столкнуться с проблемой неточно описанных отношений или отношений, которые не соответствуют контексту запроса. Применение таких отношений часто ведет к значительному снижению точности поиска. Так, в последнее время глобальные поисковые системы Яндекс и Google стали активно применять расширение запросов однокоренными словами, что может рассматриваться как минимальный тезаурус, но во многих случаях даже такое минимальное расширение запроса может оказаться нерелевантным.

Наконец, существует мнение, что применяемые статистические методы имплицитно учитывают лингвистическую информацию, что текст – это лишь набор характеристик (features), которые хорошо учитываются статистическими моделями. В качестве примеров моделирования лингвистических подходов статистическими методами Хелен Ворхес (Voorhees, 1999) приводит следующие примеры: морфологический анализ может быть приближен стеммингом, извлечение словосочетаний - выявлением часто встречающихся пар слов, процедуры разрешения многозначности могут быть смоделированы мерами сходства контекстов.

Вместе с тем, как показали эксперименты в рамках конференции по информационному поиску TREC и семинаре «Надежный доступ к информации» (Reliable Information Access), проведенном в 2003 году, существуют типы запросов к поисковым системам, которые являются сложными для современных технологий информационного поиска и, следовательно, качество поиска по этим запросам достаточно низкое. Среди потенциальных методов, которые могли бы улучшить выдачу поисковых систем по таким запросам, указывались методы расширения запросов, в том числе, и с использованием специальных ресурсов – тезаурусов.

При поиске в отличных от Интернета коллекциях документов, таких как профессиональные информационные базы, внутрикорпоративные ресурсы, отличающиеся относительно небольшим (по сравнению с Интернет) размером, возможность несоответствия языка запроса и языка документов считается достаточно серьезной проблемой.

Таким образом, важным является вопрос о том, каково должно быть внутреннее устройство лингвистических ресурсов, содержащих знания о понятиях, терминах, значениях языковых выражений в широких предметных областях, которые не только бы не ухудшали характеристики информационного поиска, а, напротив, сделали его более содержательным. Кроме того, необходимо понять, каким образом описанные в лингвистических ресурсах знания могут быть встроены в современные модели информационного поиска.

Рассмотрим основные направления использования разного рода лингвистических и терминологических ресурсов в информационном поиске.

Как известно, в 1960 – 1980е годы в информационном поиске активно использовались так называемые информационно-поисковые тезаурусы, которые предназначались для описания содержания документов нормализованными ключевыми словами в процессе ручного индексирования людьми-индексаторами.

В то время большинство информационных систем не являлись полнотекстовыми, а хранили достаточно ограниченный набор информации о документе: библиографические данные, реферат. Добавление списка ключевых слов, характеризующих основное содержание документа, существенно расширяло возможности поиска документов. С начала семидесятых годов создаются национальные и международные стандарты разработки информационно-поисковых тезаурусов.

Появление полнотекстовых информационно-поисковых систем, а также возможностей поиска по всем словам текста с помощью методов ранжированного информационного поиска значительно снизило значимость разработки и использования информационно-поисковых тезаурусов, поскольку давало возможность поиска текста неподготовленному пользователю в любых предметных областях без дополнительных посредников в виде специально разработанных тезаурусов и профессиональных индексаторов.

Многочисленные исследования по определению эффективности различных методов представления документов при информационном поиске показали, что эффективность пословного индексирования сравнима с эффективностью поиска, использующего ручное индексирование по качественному информационно-поисковому тезаурусу (Salton, 1986; Sparck Jones, 1981), для создания которого нужно было еще затратить достаточно много средств и усилий,а, кроме того, нужно было еще осуществлять качественное ручное индексирование документов по этому тезаурусу.

Действительно, использование хорошо разработанного тезауруса при ручном индексировании должно снимать проблемы синонимии, близких понятий, многозначности. Однако при этом могут возникнуть существенные различия между понятиями, используемыми в тезаурусе, и информационной потребностью пользователя, когда пользователю трудно сформулировать описание нужных ему текстов посредством понятий тезауруса, или тезаурус действительно не содержит адекватных понятий. В этих случаях пословное индексирование имеет преимущество из-за больших выразительных возможностей в том смысле, что пользователь может сформулировать запрос на естественном языке без всяких дополнительных ограничений.

Кроме того, при ручном индексировании серьезную проблему составляет фактор субъективности, когда приписывание тексту терминов тезауруса зависит от умения и опыта индексаторов, от количества текстов, которые необходимо проиндексировать и т.п.

Тем не менее, и в настоящее время существуют информационные службы, имеющие и разрабатывающие информационно-поисковые тезаурусы, а также имеющие штат профессиональных индексаторов, индексирующих документы на основе тезаурусов. Примерами таких организаций являются Исследовательская служба Конгресса США, индексирующая по тезаурусу Legislative Indexing Vocabulary, Продовольственная и Сельскохозяйственная организация при ООН (ФАО), которая развивает тезаурус AGROVOC, службы Европейского сообщества, использующие для индексирования Европейского законодательства тезаурус EUROVOC. Деятельность таких служб наиболее близка к библиотечной деятельности, в рамках которой книги и документы классифицируются по библиотечным классификаторам типа УДК.

Происходит и процесс обновления стандартов разработки тезаурусов. Так, например, американский национальный стандарт по разработке и ведению контролируемых словарей Z39.19 последний раз обновлялся в 2003 году.

Современные стандарты разработки и использования информационно-поисковых тезаурусов четко ограничивают сферу их применения. Так, например, международный стандарт по разработке одноязычных тезаурусов (ISO 2788) указывает, что стандарт должен применяться в организациях, имеющих людей-индексаторов, которые анализируют содержание документов и описывают основные темы документов с помощью терминов тезауруса. «Применение стандарта не предполагает его применение в тех организациях, которые используют полностью автоматические методы индексирования».

Возникает вопрос, почему существующая парадигма разработки информационно-поисковых тезаурусов не дает возможности использовать созданные ресурсы в автоматических режимах индексирования текста. Как и можно ли создавать тезаурусы для автоматического индексирования? В книге мы рассмотрим, какие особенности существующей парадигмы разработки информационно-поисковых тезаурусов ограничивают их использование в автоматических режимах.

С 80-х годов 20 века начинает активно обсуждаться парадигма автоматического концептуального индексирования документов, то есть индексирования документов не пословным индексом, а концептуальным, в котором синонимы сведены к одной и той же единице, а многозначные слова и термины разведены к разным концептуальным единицам (Woods, 1997).

Такие системы как SCISSORS (Jacobs, Rau, 1990) и FERRET (Mauldin, 1991) реализуют идею концептуального индексирования для узких предметных областей: используются специальные структуры представления понятий и развиваются специальные алгоритмы для создания концептуального индекса.

С опубликованием в 1995 году ресурса английского языка WordNet, структура которого представляет собой иерархическую сеть лексикализованных понятий английского языка – синсетов, многие исследователи пытались реализовать идею концептуального индексирования на базе этого ресурса.

Однако изначально WordNet не предназначался для приложений автоматической обработки текстов, и исследователи в области компьютерной обработки текстов встретились с многочисленными проблемами, которые затрудняют использование его в таких приложениях. В частности, в большом числе экспериментов по использованию знаний, описанных в WordNet, часто не наблюдалось улучшение характеристик информационного поиска.

Среди наиболее существенных проблем, которыми обычно объясняется такая ситуация, можно отметить следующие: слишком большое количество значений слов, проблемы с автоматическим выбором значения, нехватка отношений между синсетами, другой информации для разрешения многозначности, проблемы собственно описания отношений между синсетами (какие должны быть, по каким правилам устанавливаться и т.п.).

Несмотря на некоторые неудачи использования WordNet в конкретных приложениях, появление этого ресурса вызвало огромный резонанс в мире. На базе WordNet выполнены тысячи экспериментов исследователями из многих стран мира, предложены самые разнообразные алгоритмы. Понимание уровня достигнутых результатов, знакомство с описанными в литературе экспериментами очень важно для исследований в области информационного поиска на базе других тезаурусных и онтологических ресурсов.

Так, мы покажем, что после примерно 10 лет исследования применения WordNet для решения задачи эффективного расширения поискового запроса, в течение которых не удавалось получить устойчивого улучшения качества информационного поиска, в 2004 году в трудах конференции SIGIR было опубликовано исследование, в котором был предложен метод использования информации из WordNet в классическом информационном поиске для расширения запроса, который улучшил показатели поиска по сравнению с достаточно качественной базовой моделью поиска.

Кроме того, формализованное описание лексики английского языка, представленное в WordNet, позволяет в автоматизированном режиме относительно легко строить словари разного назначения, извлекать те или иные классы слов, что в значительной мере облегчает создание различных словарных ресурсов и внутренних словарей информационных систем и систем автоматической обработки текстов.

Исследователи из разных стран начали разработку сходных ресурсов для своих языков. Согласованные усилия для развития wordnet’ов были реализованы в таких европейских проектах как EuroWordNet, BalkaNet, Meaning, в рамках которых были разработаны wordnet’ы для голландского, итальянского, испанского, немецкого и других языков. Было начато и несколько проектов по созданию русского WordNeta.

Разработчики wordnet’ов пытались учесть проблемы так называемого Принстонского WordNet’a, сделать их более приспособленными к компьютерным приложениям, в том числе и в сфере информационного поиска. Многочисленные публикации обсуждают возможности кластеризации различных значений в обобщенные значения, проблемы введения дополнительных отношений в новые ресурсы, появляются дополнения в уже созданные ресурсы. Так, например, исходный Принстонский WordNet обогатился отношениями между разными частями речи, разметкой по тематическим областям, словообразовательными отношениями.

Другие исследователи изучают возможности более смыслового семантического поиска на основе так называемых онтологий – концептуальных описаний знаний о предметных областях и в целом о мире, содержащих совокупности понятий, отношений между ними, правил вывода. Была выдвинута концепция Семантической сети Интернет (Semantic Web), где предполагалось, что качество поиска в Интернет можно значительно улучшить посредством использования таких онтологий.

Существует множество разных определений онтологий. Широкие определения онтологий, позволяющие разные степени формализации описаний, включают в понятие онтологии и упомянутые выше информационно-поисковые тезаурусы, и тезаурусы типа wordnet.

Часть исследователей считает, что онтологии должны описывать знания о мире и быть независимыми от конкретного языка. Однако для того, чтобы применить такого рода независимую от языка онтологию в практических задачах информационных технологий, которые во многом связаны с переработкой неструктурированной информации, текстов, необходимо установить отношения между понятиями языковонезависимой онтологии и значениями лексических единиц конкретного естественного языка. Кроме того, часть исследователей (см. например, (Wilks, 2008)) подвергают сомнению возможность создания большой онтологии совершенно независимо от естественного языка.

Онтологии обычно классифицируются на онтологии верхнего уровня, описывающие наиболее общие знания о мире, и предметные онтологии, описывающие знания о конкретных предметных областях. Так и знания о языке делятся на общеупотребительные («литературный язык») и терминологию конкретной предметной области.

Но какой бы текст, принадлежащий значимой предметной области, мы ни взяли, он всегда включает и общеупотребительные языковые единицы, и термины данной предметной области, а понимание этого текста требует как общих знаний о мире, так и знаний в данной конкретной области. На практике же одни исследователи создают онтологии верхнего уровня, другие создают онтологии предметных областей, общезначимый язык изучается лингвистами, а термины – языковые единицы конкретных предметных областей - исследуются терминологами. Однако лингвистический ресурс, предназначенный для поддержки автоматической обработки текста в рамках современных информационных технологий, должен каким-то образом совмещать эти разные типы знаний.

Более того, для удобства создания того или иного терминологического ресурса, онтологии для некоторой предметной области, исследователи, разработчики считают, что эта область некоторым образом отделима от других предметных областей. Однако современные информационные системы имеют дело со сверхбольшими коллекциями документов, значимая часть которых содержит документы, включающие терминологию разных предметных областей. Так, в экономических документах значимую роль занимает терминология правовой области, а в правовых документах - экономическая терминология, в документах по банковскому делу значимое место занимает терминология налоговой сферы, бухгалтерии, фондового рынка и т.п.

Таким образом, при всем обилии научной литературы по вопросам построения информационно-поисковых тезаурусов, тезаурусов типа WordNet, онтологий открытыми остаются следующие вопросы:

каким образом в прикладных компьютерных ресурсах оптимально сочетать описание взаимоотношений лексических единиц и описание онтологических знаний о мире,
какая модель описания неструктурированной широкой предметной области наиболее оптимальна для того, чтобы, с одной стороны, создать ее в разумные сроки и охватить всю важную для специалистов терминологию, с другой стороны, чтобы созданная формализованная модель была полезна в широком круге приложений информационного поиска и автоматической обработки текстов,
каким образом оптимально сочетать описание общеупотребительной лексики литературного языка и терминологии конкретной предметной области в формализованных моделях, предназначенных для компьютерных приложений.

В данной книге предлагаются подходы к решению вышеперечисленных вопросов. Книга посвящена описанию опыта автора по созданию сверхбольших лингвистических ресурсов для автоматической обработки текстов в рамках современных информационных технологий и сопоставлению созданных ресурсов и технологий с подобными проектами, развиваемыми в мире.

Под руководством и с непосредственным участием автора книги разрабатываются такие онтологические ресурсы как Тезаурус русского языка РуТез, Онтология по естественным наукам и технологиям ОЕНТ, созданы ряд онтологических ресурсов в конкретных областях, таких как компьютерная безопасность, авиация, банковское дело, выборы и др.

Созданные ресурсы применяются в таких технологиях автоматической обработки текстов как автоматическое концептуальное индексирование, расширение поискового запроса, рубрицирование, автоматическое аннотирование отдельных документов и групп тематически близких документов, кластеризация документов.

Исследования, связанные с представлением знаний о языке и предметной области, были поддержаны рядом международных и российских научных грантов: грантами Фонда МакАртуров, Фонда Форда, российских научных фондов РФФИ и РГНФ, стипендиями компании Яндекс.

Созданные ресурсы и технологии использовались в проектах, выполненных для ряда государственных и коммерческих организаций (ФГУП НИИ Восход, Государственная Дума Российской Федерации, Счетная палата Российской Федерации, Банк России, ФСБ, компания Гарант, компания Рамблер Медиа и др.)

Материал, изложенный в книге, частично излагался в спецкурсах, читавшихся в Московском государственном университете на филологическом факультете и факультете ВМиК в 2003-2005 году.

Учебный курс, разработанный на основе предварительных материалов книги, вошел в число победителей:

открытого конкурса учебных курсов в области разработки программного обеспечения, организованного компанией Microsoft и факультетом вычислительной математики и кибернетики МГУ им. М.В. Ломоноса в 2006 году (http://www.microsoft.com/ Rus/Msdnaa/Curricula/Default.mspx);
конкурса учебных курсов по информационному поиску «Класс 2006», организиванного компанией Яндекс (http://company.yandex.ru/class/courses/solovyev.xml).

Предварительные материалы данной книги излагались в ряде глав учебного пособия Добров Б.В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д. «Онтологии и тезаурусы: модели, инструменты, приложения». – М., Изд-во Интуит, 2008.
Книга делится на два раздела.

В первом разделе (части 1-3) мы опишем различные подходы к созданию больших лингвистических ресурсов на примере конкретных проектов. Также мы подробно рассмотрим различные алгоритмы и системы, которые используют эти ресурсы для решения различных задач информационного поиска. Описывая алгоритмы, мы будем обращать особое внимание на методы оценки их качества, достигнутые показатели, которые указывают на то, удалось или нет разработчикам ресурсов и алгоритмов достигнуть лучшего качества по сравнению с пословными статистическими методами.

Во второй разделе книги (части 4-6) мы опишем принципы разработки лингвистического ресурса русского языка тезауруса РуТез и наши эксперименты по применению этого тезауруса в различных задачах обработки текстов для приложений информационного поиска. Описывая собственные алгоритмы, мы также уделяем большое внимание экспериментам, которые показывают, насколько качественно удается решать конкретные задачи на базе тезаурусных знаний.

В каждом из двух разделов книги выделяются части, которые подразделяются на главы.

Первая часть первого раздела книги посвящена описанию различных видов тезаурусов, включая тезаурус Роже, информационно-поисковые тезаурусы, тезаурусы типа WordNet.

Во второй части книги мы рассматриваем основные положения современных онтологических исследований, принципы создания онтологических ресурсов.

Особенно подробно рассматриваются принципы установления онтологических отношений, которые нужны для создания ресурсов в различных предметных областях. В это число входят отношения «класс-подкласс», часть-целое, отношения онтологической зависимости.

Следующая, третья часть описывает применение тезаурусов и онтологий в конкретных приложениях информационного поиска. Здесь мы рассматриваем такие системы, как собственно информационный поиск, системы автоматической рубрикации, вопросно-ответные системы, алгоритмы разрешения лексической многозначности, алгоритмы установления лексической связности в тексте, алгоритмы автоматического аннотирования текстов.

Каждая глава этой части строится схожим образом. Сначала описывается общая постановка задачи, некоторые теоретические положения и (или) основные статистические пословные алгоритмы, а также меры измерения качества решения задачи, а далее излагаются методы и результаты применения тезаурусов и онтологий в данной задаче.

Отметим, что среди значимых приложений, относимых к информационному поиску, мы не рассматриваем задачу извлечения информации, в которой могут использоваться онтологические ресурсы. Это связано с тем, что главным предметом нашего интереса являются сверхбольшие плохо структурированные предметные области, и неструктурированные тексты. Задача извлечения информации характеризуется тем, что из текстов извлекается очень небольшое количество типов информации, при этом если используется онтология, то число понятий в ней относительно невелико (Moens, 2006).

С четвертой части начинается второй раздел книги, посвященный рассмотрению наших собственных ресурсов и экспериментов с ними. В этой части будут рассмотрены основные принципы построения Тезауруса русского языка РуТез, методы описания понятий, языковых выражений, тезаурусных отношений, способы отражения разных значений слов, терминов, языковых выражений, описание синонимичности языковых выражений.

В пятой части книги рассматриваются эксперименты и приложения, основанные на знаниях, описанных в Тезаурусе РуТез. В число этих приложений входят: информационный поиск, автоматическая рубрикация текстов, автоматическое аннотирование отдельного текста и совокупности сходных текстов, автоматической разрешение лексической многозначности, построение лексических цепочек и тематического представления связного текста.

В шестой, последней части книги мы рассмотрим основные направления развития тезауруса РуТез, а также технологии разработки других ресурсов, которые были созданы на основе тезауруса РуТез, а именно, принципы устройства и современное состояние Онтологии по естественным наукам и технологиям (ОЕНТ).

Книга предназначена для специалистов, научных работников, аспирантов и студентов, интересующихся вопросами автоматической обработки текстов, применения в информационном поиске лингвистических ресурсов, а также информационным поиском в целом, практическими вопросами применения онтологий.

Для читателей, не знакомых с теориями, применяемыми в компьютерной лингвистике, семантике, с одной стороны, или с теорией и практикой информационного поиска, тестирования информационно-поисковых систем, с другой стороны, мы постарались изложить необходимый для понимания материал, насколько это было возможно в рамках одной книги. Во многих разделах книги имеются специальные подразделы, содержащие такого рода сведения.

Автор благодарит Доброва Б.В. за всемерную поддержку данного исследования; Салий А.Д., Шаталову М.Г., Штернову О.А., Агеева М.С., Сидорова А.В., Штернова С.В. за многолетнее сотрудничество; Юдину Т.Н., Леонтьеву Н.Н., Исакадзе Н. В. за обсуждение результатов работы.

ЧАСТЬ 1. Тезаурусы

Термин «тезаурус» употребляется по отношению к достаточно различным лингвистическим ресурсам и словарям (Kilgarriff, Yallop, 2000):

1) Во-первых, тезаурусом называется особый вид словарей – идеографический, лексика в которых организуется по тематическому принципу. Первым такого рода словарем явился знаменитый Тезаурус Роже, созданный в 19 веке. Основное назначение таких словарей – помощь в подборе синонимов и близких по смыслу слов при написании текста.

2) Второй тип тезаурусов - информационно-поисковые тезаурусы, описывающие отношения между терминами предметной области – создаются экспертами в некоторой предметной области, и предназначены для помощи при информационном поиске.

3) Тезаурусами также называют относительно недавно появившиеся лингвистические ресурсы типа WordNet и EuroWordNet, описывающие отношения между лексическими значениями естественного языка как иерархическую систему групп синонимов – синсетов.

4) Словосочетание «Ассоциативные тезаурусы» может относиться к двум принципиально разным ресурсам.

С одной стороны, ассоциативным тезаурусом называется словарь описывающий психологические ассоциации между словами, возникающие у людей. Таким словарем, например, является Русский ассоциативный словарь (Караулов, 2002).

Кроме того, термин «ассоциативный тезаурус» употребляется для ссылки на ресурсы, создаваемые автоматически на основе обработке корпусов и показывающие совместную встречаемость пар слов в документах.

Между всеми этими употреблениями термина «тезаурус» есть существенное сходство. В работе (Kilgarriff, Yallop, 2000) дается объединяющее определение тезауруса как ресурса, в котором слова со схожим значением сгруппированы вместе.

Никитина С.Е. (Никитина, 1987, стр. 52) определяет тезаурус как словарь с концептуальным входом и фиксированными семантическими связями между его единицами. Она подчеркивает, что для определения тезауруса существенны оба указанных независимых признака. Например, существуют словари, которые, обеспечивая концептуальный вход, например, по набору синонимов, при этом отношения между словами описывают традиционными толкованиями.

В данной книге рабочим определением тезауруса будет следующее:

Тезаурус – это словарь, в котором слова и словосочетания с близкими значениями сгруппированы в единицы, называемые понятиями, концептами или дескрипторами, и в котором явно (в виде отношений, иерархии) указываются семантические отношения между этими понятиями (концептами, дескрипторами).

Поскольку в данной книге мы рассматриваем, как человеческие знания могут быть описаны в созданных человеком ресурсах и применяться затем в компьютерных приложениях, базирующихся на автоматической обработке текста, то нас прежде всего будут интересовать тезаурусы 2)-3).

Ссылки на использование тезаурусов типа Тезауруса Роже в экспериментах по автоматической обработке текстов можно найти в ряде работ (Kennedy, Szpakowicz, 2008; Jarmasz, Szpakowicz, 2003). Однако такое их использование в компьютерных системах ограничено рядом факторов, которые мы рассмотрим на примере конкретной словарной статьи.

Структура словаря типа Тезауруса Роже (Таб. 1.1.) обычно включает разделение на категории (например, Land – суша, земля) и подкатегории; подразделение подкатегорий обычно производится на основе разделения по частям речи. Слова, следующие за выделенным словом, могут обозначать синонимы, родовые и видовые лексемы по отношению к предшествующему выделенному слову. Некоторые слова в словарной статье имеют отсылки к другим категориям или подкатегориям тезауруса
Land 342

N. land, earth, ground, dry land, terra firma

continent, mainland, peninsula, chersonese[Fr], delta; tongue of land, neck of land; isthmus, oasis; promontory &c. (projection) 250; highland &c. (height) 206.

coast, shore, scar, strand, beach; playa; bank, lea; seaboard, seaside, seabank, seacoast, seabeach[obs3]; ironbound coast; loom of the land; derelict; innings; alluvium , alluvion[obs3]; ancon.

riverbank, river bank, levee

soil, glebe, clay, loam, marl, cledge, chalk, gravel, mold, subsoil, clod, clot; rock, crag.

V. land, come to land, set foot on the soil, set foot on dry land; come ashore, go ashore, debark

Adj. earthy, continental, midland, coastal, littoral, riparian,; alluvial; terrene &c. (world) 318; landed, predial, territorial; geophilous; ripicolous

Adv. ashore; on shore, on land,

Таблица 1.1 Фрагмент словарной статьи Тезауруса Роже (Roget, 1982)
Обычно отмечаются следующие особенности словарей типа тезаурусов Роже, препятствующие применению таких тезаурусов в автоматической обработке текстов.

Во-первых, в структуре такого тезауруса, в отсылках между категориями заключено большое разнообразие различных типов отношений, которые явным образом не указаны, что затрудняет их использование в приложениях.

Во-вторых, существенным фактором является отсутствие выделенных значений слов. В тех случаях, когда то или иное слово упоминается в разных разделах тезауруса, то это может происходить как из-за того, что в разные разделы попали разные значения слов, так и из-за того, что одно и то же значение слова может быть отнесено в разные категории.

Кроме того, отмечаются проблемы классификации, связанные с жесткой заданностью древесной структуры категорий тезауруса. Возникают вопросы по поводу последовательности решений разделения на категории: какие именно признаки выделять в категории тезауруса, а какие нет (Морковкин, 1970).

В связи с перечисленными проблемами тезаурусов типа тезаурус Роже и в связи с тем, что число публикаций по применению таких тезаурусов для автоматической обработки текстов сравнительно невелико, мы далее не будем подробно рассматривать эксперименты, базирующиеся на использовании такого рода тезаурусов.

1 2 3 4 5 6 7 8 9 ... 45

	Тезаурусы в задачах информационного поиска Правила индексирования документов дескрипторами информационно-поискового тезауруса 39		Тезисы представленные на Внимание! Для поиска своей фамилии или ключевого слова в тексте нажмите Ctrl+F и введите искомое слово в окно поиска!!
	Инструкция по заполнению документов на регистрацию информационного ресурса Настоящая инструкция определяет порядок заполнения и представления документов для регистрации информационного ресурса в Реестре государственных...		Конспект лекций по дисциплине «Информационные системы и технологии в науке и образовании» Введение. Содержание дисциплины и порядок ее изучения. Фактографический поиск. Математические модели фактографического поиска. Информационная...
	Лекция №11 В этом разделе будет приведен обзор одних из первых систем поиска информации, насчитывающих к настоящему моменту времени многолетнюю...		Инструкция по сверке Планов финансово-хозяйственной деятельности В параметрах поиска в строке Наименование учреждения вводим инн, либо название учреждения. Нажать кнопку Найти. Внизу экрана загрузится...
	Алгоритмы поиска. Линейный поиск. Двоичный поиск Также, линейный поиск часто используется в виде линейных алгоритмов поиска максимума/минимума		Рабочая инструкция по настройке представлений в hp sm Удалены не используемые номера рисунков. Добавлено описание создания представления из Поиска и описание требований для удаления Представления....
	Задачах на 2014 год Итоги работы Отдела социальной защиты населения г. Рошаль Отдела социальной защиты населения г. Рошаль Министерства социальной защиты населения Московской области и подведомственных учреждений...		Общая характеристика информационного ресурса Целью оказания услуг является формирование и сопровождение картографического информационного ресурса «Шельфовые проекты» (далее ир...
	Инструкция по поиску и спасанию в зоне авиационно-космического поиска... Организация поисково-спасательного обеспечения полетов в Южной зоне авиационно-космического поиска и спасания (акпс)		Отчёт о результатах деятельности отдела загс администрации Лужского... Во исполнение поручения главы администрации Лужского муниципального района Малащенко Олега Михайловича предоставляем отчет о результатах...
	Универсальный телевизионный пульт дистанционного управления «умного» поиска и сохранения канала, что избавляет вас от необходимости поиска и сохранения каналов вручную. Своевременная замена...		Инструкция по работе с программным комплексом единого информационного ресурса При входе в программный комплекс единого информационного ресурса (далее – пк еир) пользователю необходимо пройти авторизацию в меню,...
	Регламент информационного взаимодействия Настоящий Регламент информационного взаимодействия (далее Регламент) разработан в целях реализации требований следующих документов:...		Приказ от 3 июня 2014 г. N 148 об утверждении требований к подготовке... Федеральных авиационных правил поиска и спасания в Российской Федерации, утвержденных постановлением Правительства Российской Федерации...

Тезаурусы в задачах информационного поиска

Введение

Похожие: