Тезаурусы в задачах информационного поиска

Скачать 6.4 Mb.

Название	Тезаурусы в задачах информационного поиска
страница	14/45
Тип	Задача

rykovodstvo.ru > Руководство эксплуатация > Задача

1 ... 10 11 12 13 14 15 16 17 ... 45

Глава 4. Онтологии как ресурсы для представления знаний о мире

4.1. Определения онтологии

Слово «онтология» имеет два значения:

Онтология 1. – Философская дисциплина, которая изучает наиболее общие характеристики бытия и сущностей;
Онтология 2. – Артефакт, структура, описывающая значения элементов некоторой системы.

В данной книге мы будем использовать слово онтология во втором значении как некоторый компьютерный ресурс, представляющий собой некоторое описание взгляда на мир применительно к конкретной области интересов.

На формальном уровне, онтология - это система, состоящая из набора понятий и набора утверждений об этих понятиях, на основе которых можно строить классы, объекты, отношения, функции и теории.

Одно из самых известных определений онтологии, сформулированное Т. Грубером таково (Gruber, 1993):

Онтология – это точная спецификация концептуализации.

Концептуализация – это структура реальности, рассматриваемая независимо от словаря предметной области и конкретной ситуации. Например, если мы рассматриваем простую предметную область, описывающую кубики на столе, то концептуализацией является набор возможных положений кубиков, а не конкретное их расположение в текущий момент времени.

Более поздней модификацией определения Грубера является такое определение (Gomez-Perez и др., 2004):

Онтология – это формальная спецификация согласованной концептуализации.

Под согласованной концептуализацией подразумевается, что данная концептуализация не является частным мнением, а является общей для некоторой общности людей.

Сформулировано еще достаточно много разных определений онтологии (Клещев, Шалфеева; 2005). В работе (Guarino, Giaretta, 1995) было проанализировано семь различных определений онтологии и предложили следующее определение:

Ontology is a logical theory which gives an explicit, partial account of a conceptualization (Онтология – это формальная теория, ограничивающая возможные концептуализации).

При всем различии к определению онтологии многие авторы соглашаются в наборе основных компонентов онтологии.

Основными компонентами онтологии являются:

классы или понятия;
атрибуты;
отношения;
аксиомы;
экземпляры.

Часто используется очень широкая трактовка классов (понятий) онтологии. При широкой трактовке утверждается, что классы (понятия онтологии) могут быть абстрактными и конкретными, элементарными и составными, реально существующими и воображаемыми. Другими словами, классом (понятием) может быть любая сущность, о которой может быть дана какая-либо информация (Corcho, Gomes-Perez; 2000).

Экземпляры (индивиды) представляют собой единичные сущности, принадлежащие классам онтологии.

Единицы онтологии (классы и экземпляры) могут иметь свойства - атрибуты. Каждый атрибут обычно имеет имя и значение, и используется для хранения информации, которая специфична для данной единицы.

Отношения представляют тип взаимодействия между понятиями области. Они формально определяются как подмножество произведения n множеств: R: C1 x C2…x Cn. Пример бинарного отношения – отношение часть-целое. Различие между отношениями и атрибутами заключается в том, что отношения связывают между собой два класса, а атрибут описывает внутренние свойства объектов посредством конкретных значений.

Наиболее важным среди отношений в онтологиях является так называемое таксономическое отношение (также известное как отношение класс-подкласс, родовидовое отношение, is-a отношение).

Аксиомы (правила вывода) используются, чтобы записать высказывания, которые всегда истинны. Они могут быть включены в онтологию для разных целей, например, для определения комплексных ограничений на значения атрибутов, аргументы отношений, для проверки корректности информации, описанной в онтологии, или для вывода новой информации.

Видно, что термину «онтология» удовлетворяет широкий спектр структур, представляющих знания о той или иной предметной области. В качестве в разной степени формализованных онтологий разными авторами рассматривается множество различных компьютерных ресурсов (Хорошевский, 2008; Welty и др., 1999; Клещев, Шалфеева, 2005; Obrst, 2003), в том числе и известных задолго до начала исследований по онтологиям таких как словари, рубрикаторы, тезаурусы.

4.2. Виды онтологий

Рассмотрим некоторые из типов онтологии в порядке от менее формализованных ресурсов к более формализованным ресурсам (Lassilla, McGuinness, 2001).

Уже словарь с определениями, глоссарий может рассматриваться как онтология с пустым множеством отношений (Гаврилова, Хорошевский, 2000; Хорошевский, 2002).

Простейшая модель онтологии с отношениями строится обычно на основе отношений класс-подкласс. Такие модели часто называются таксономиями.

Возможно построение онтологии и на других типах отношений, например, на основе отношения Часть-целое. В таком случае такая онтология называется партономией.

Рубрикаторы представляют собой иерархически организованные онтологии. При этом отношения между рубриками не сводятся к одному и тому же типу отношений, смысл отношений между разными рубриками может различаться.

Информационно-поисковые тезаурусы также рассматриваются как онтологические ресурсы. Такие тезаурусы имеют обычно таксономические отношения, а также ряд дополнительных отношений. Как мы уже указывали, часто в тезаурусах происходит совмещение под одним именем отношения ВЫШЕ-НИЖЕ разного рода отношений, то есть отношения устанавливаются не всегда формальным образом.

Тезаурусы типа WordNet, особенно классификация существительных, также рассматриваются как ресурсы онтологического типа. Как мы уже указывали, структура Принстонского WordNet достаточно интенсивно обсуждалась с формальных онтологических позиций. Некоторые изменения, вносимые в следующие версии этого ресурса, вызваны именно такого рода обсуждением, как, например, выделение из отношений гипонимии-гиперонимии отношений класс-экземпляр.

Часто возникает вопрос, можно ли кратко сформулировать основные особенности тезаурусов как вида онтологических ресурсов. Рассмотренные виды тезаурусов (тезаурус Роже, информационно-поисковые тезаурусы, тезаурусы типа WordNet) позволяют выделить следующие отличительные особенности этого вида онтологических ресурсов:

единицы тезаурусов имеют тесную связь с естественным языком, обычно снабжаются вариантами их выражения на естественном языке;
тезаурусы не имеют внутренней структуры понятий, то есть представления свойств и атрибутов в виде фреймов. Знания о мире, предметной области представлены в виде отношений между понятиями;
аксиомы (правила вывода) сводятся к свойствам транзитивности и наследования.

Следующий тип онтологических моделей - это модели с некоторым широким набором отношений. Такие модели могут иметь или не иметь представление свойств и атрибутов понятий в виде фреймов. Для разных видов отношений может указываться кардинальность (соотношение количеств экземпляров связываемых сущностей) и модальность (возможность/ обязательность) связей.

Большей выразительностью обладают онтологии, включающие ограничения на область значений свойств. Значения свойств берутся из некоторого предопределенного множества (целые числа, символы алфавита) или из подмножества концептов онтологии (множество экземпляров данного класса, множество классов). Можно ввести дополнительные ограничения на то, что может заполнять свойство.

В целом, с необходимостью выразить больше информации, выразительные средства онтологии (и ее структура) усложняются. Например, может потребоваться заполнить значение какого-либо свойства экземпляра, используя математическое выражение основанное на значениях других свойств и даже других экземплярах. Многие онтологии позволяют объявлять два и более классов дизъюнктивными (непересекающимися). Это означает, что у данных классов не существует общих экземпляров.

Рис. 4.1. Классификация онтологий в (Lassilla, McGuinness, 2001).
Косая черта разделяет системы, представляющие
«машино-понятные» и «человеко-понятные» описания
Наиболее формализованные онтологии представляют собой логические теории, построенные на произвольных логических утверждениях о понятиях – аксиомах. Для описания таких формальных онтологий применяются различные логики (дескриптивные логики, модальные логики, логика предикатов первого порядка) и различные языки описания онтологий DAML+OIL, OWL, CycL, Ontolingua.

Онтологии такие как тезаурусы, рубрикаторы, понятия которых не определяются полностью в терминах формальных свойств и аксиом, иногда называются легкими онтологиями (lightweight ontologies) (Gomez-Perez и др., 2001). Дж. Сова (http://www.jfsowa.com/ontology/ontoshar.htm) называет такие онтологии терминологическими онтологиями.

Приверженцы формальных подходов считают такие легкие онтологии не настоящими онтологиями, а ресурсами онтологического типа.

Для отражения спектра онтологий по степени формальности представления, использованию тех или иных формальных элементов часто используется диаграмма типа изображенной на рис. 4.1. Каждая точка соответствует наличию некоторых ключевых структур в онтологии, отличающих ее от других точек на спектре. Косая черта условно отделяет онтологии от других ресурсов, имеющих онтологический характер.

4.3. Два основных подхода к построению онтологий

В проектировании онтологий условно можно выделить два направления. Первое связано с представлением онтологии как формальной системы, основанной на математически точных аксиомах. Этот подход тесно связан с различными логическими формализмами (предикатов первого порядка, дескриптивной, модальной логики и т.п.). Это направление онтологических исследований является продолжением работ в рамках классического искусственного интеллекта, изучающих способы представления знаний.

Второе направление связано с разработкой онтологий для компьютерной обработки текстов. Онтологии дают возможность использовать знания о мире, которые необходимы для выполнения многих этапов анализа текста. При этом, с одной стороны, формальность описания в таких онтологиях значительно ниже, чем в онтологиях, создаваемых в рамках первого подхода. С другой стороны, формальный логический вывод на основе онтологий при анализе текста часто является необходимым, поскольку в связном тексте значительный объем информации не указывается явно (Леонтьева, 1981; Леонтьева, 2006; Chavez и др., 2009).

При всей кажущейся важности развития онтологий в рамках первого подхода, именно в рамках второго подхода создаются сверхбольшие ресурсы, используемые в широких предметных областях, в то время как в рамках первого подхода создаются относительно небольшие ресурсы (ресурсы с относительно небольшим числом понятий – экземпляров может быть достаточно много). Так, большое количество широкоизвестных медицинских онтологических ресурсов представляет собой тезаурусы, не обладающие высокой степенью формализации своей структуры (Gene ontology, 2009).

Так, в работах (Hepp, 2007; Hovy, 2005) указывается, что исследователи написали очень много работ о потенциальных преимуществах использования формальных онтологий, о необходимости использования онтологий в качестве центральных блоков семантической сети и других семантических систем. Однако количество и качество «реальных», «неигрушечных» онтологий, имеющихся на сегодняшний день, чрезвычайно мало, то есть не построено практически полезных онтологий для большого количества предметных областей.

Здесь часто можно встретиться с мнением, что отсутствие формальных онтологий большой величины происходит из-за того, что это «недалекие» бизнесмены не хотят понять, какие преимущества несет с собой использование формальных онтологий.

Однако, на самом деле, на пути создания масштабных формальных онтологий существуют реальные технические и социальные проблемы.

В работе (Tsujii, Ananiadou, 2005) указывается, что тогда как небольшие онтологии могут быть построены методом сверху-вниз, разработка подробных онтологий для реальных приложений – нетривиальная задача. Более того, во многих предметных областях, знание, нужное для распространения и интеграции, содержится в основном в текстах. Из-за внутренних свойств человеческого языка, непростой задачей является связать знания, содержащиеся в текстах, с онтологиями, даже если бы они были построены для данной предметной области. То есть предполагается, что такие однозначные и последовательные концептуальные модели играют менее значительную роль в распространении знаний, чем предполагают сторонники формального онтологического подхода.

В работе (Hepp, 2007) описываются следующие существенные проблемы на пути развития формальных онтологий.

Во-первых, подавляющее число предметных областей продолжает развиваться, пополняться новыми понятиями, отношения между некоторыми понятиями меняются. Создаваемые онтологии будут всегда отставать от существующего понятийного аппарата предметной области. Чем более подробной является онтология (а для практической применимости она должна быть подробной), тем больше динамика ее изменений. Отсутствие новых понятий в онтологии не позволяет использовать семантические технологии для поиска по запросам, включающим новые понятия, или аннотирования документов.

Во-вторых, создание онтологий требует серьезных ресурсов. Для того, чтобы затраты были оправданы, требуется применимость созданных онтологий пользователями. Должны возникнуть реальные пользователи, которые должны поверить в полезность онтологии и начать ее применять, что достаточно сложно на первых этапах появления онтологии.

Третьей проблемой является проблема понятности онтологии для пользователей так, чтобы она могла правильно применяться и интерпретироваться (Fox, Gruningen, 1997). На основе спецификаций и документации онтологии пользователи должны правильно интерпретировать семантику всех ее элементов. Кроме того, как показывает практика, далеко не всякий специалист в предметной области может хорошо разбираться в формальных онтологических спецификациях. Чем больше степень формализованности онтологии, тем труднее ее понять пользователю.

Также и Джон Сова в онтологическом форуме (ontolog.cim3.net/forum/ontolog-forum/2008-12/msg00015.html) высказывается по поводу предполагаемой в проекте Семантическая сеть (Semantic Web) разметки сайтов семантическими тегами, для обеспечения более качественного поиска информации в Интернет и обращает внимание на следующий вопрос: если теги формально определены, как можно быть уверенным, что люди, которые используют эти теги, реально прочитали и поняли формальные определения?

Если пользователи будут проставлять теги несколько различным образом, то в условиях примения процедур формального вывода это может привести к противоречиям: «Если от 5.5 до 33% данных может оказаться неправильными, то утверждения о необходимости формальной точности в аксиомах и процедурах доказывания оказываются под вопросом» (там же).

В работе (Hepp, 2007) приводится следующий рисунок (см. рис. 4.2.), который показывает, что чем больше формальная выразительность онтологии, тем меньше потенциальный круг ее пользователей, поскольку пользователям трудно понять описания онтологии для того, чтобы применить ее в своей деятельности.

Таким образом, вопрос о создании и качественном применении больших строго формальзованных онтологий является достаточно сложным, что связано как со сложностью создания таких ресурсов, так и со сложностью их понимания, применения, описания с их помощью реальных материалов. Вышесказанное не означает, что можно пренебречь любой степенью формализации, поскольку неформализованный ресурс сложно использовать в автоматических режимах работы компьютерных приложений, а непоследовательность описаний сущностей ведет к нарушению процедур логического вывода. Осознавая описанные проблемы, каждый разработчик онтологий должен иметь в виду, что существует ряд противоречивых требований к онтологии (формальная строгость, практическая применимость, величина, понятность пользователям), и осознанно делать свой выбор.

Рис.4.2. Соотношение между степенью формальности онтологии и величиной сообщества, которая может ее использовать (Hepp, 2007).

4.4. Принцип независимости онтологии от естественного языка.
Лингвистические онтологии

Одним из важных вопросов формальной организации онтологий, является вопрос о связи единиц онтологии со значениями естественного языка. Часто заявляется, что формальные онтологии должны быть независимы от естественного языка.

Авторы работы (Mahesh, Nirenburg, 1995) считают, что онтология должна быть независима от конкретного естественного языка в двух аспектах:

она не содержит единиц, специфичных для того или иного языка, хотя названия понятий для удобства могут быть даны на естественном языке;
понятия онтологии не имеют взаимнооднозначного соответствия со значениями слов конкретных языков. Многие понятия онтологии не могут быть сопоставлены ни одному конкретному слову в языке, другие понятия могут соответствовать многим словам в языке и наоборот.

Doug Lenat (Lenat и др., 1995), руководитель известного проекта в области представления знаний Cyc, в рамках которого предполагалось формализовать знания здравого смысла (common sense) и использовать их, в частности, для обработки текстов на естественном языке, считает, что учет значений слов может только запутать ("words are often red herrings"), что значения слов делят мир неоднозначно, а линии деления происходят из самых различных причин: исторических, физиологических и т.п.

Однако в настоящее время некоторые исследователи (Brewster и др., 2005) указывают на следующий факт: «несмотря на то, что все авторы статей по онтологиям подчеркивают, что понятия являются кирпичиками любой онтологии, мы манипулируем понятиями посредством слов. Во всех онтологиях, которые известны, слова используются, чтобы представлять понятия. Следовательно, то множество явлений в мире, которые не вербализованы, не могут быть смоделированы. Мы можем описать это явление как Онтологическая гипотеза Сепира-Уорфа, то есть то, что не описывается словами, не может быть отражено в онтологии…».

Как было уже упомянуто, утверждая независимость онтологии от языка, разработчики для называния понятий и отношений онтологии могут использовать слова естественного языка. Это стандартная практика, которая использовалась еще в системах представления знаний, создаваемых в рамках работ в сфере искусственного интеллекта (McCarthy, Hayes, 1969). Несмотря на мнение Дага Лената о значениях слов, в CYC также названия многих сущностей носят явно языковой характер, например, понятие концепт #$Skin (кожа), #$FemaleAnimal (самка), #$mother (предикат мать) и многие другие.

Y.Wilks (Wilks, 2002) указывает, что предикаты в языках представления, которые выглядят как слова естественного языка, и есть слова естественного языка и странно, что этот факт так яростно отрицается. Таким образом, подчеркивает Y.Wilks, символы в языках представления фундаментально базируются на естественном языке, что язык представления - это средство человеческой коммуникации с присущим ему динамизмом, многозначностью и возможностью расширенного толкования. Так, ключевые предикаты длительного проекта CYC за годы развития проекта изменили свои значения (Wilks, 2008). Этот факт не учитывается в сообществах разрабочиков онтологий таких как Семантическая сеть, которые напрасно верят, что их онтологии достигнут точности в значениях терминов (понятий и т.п.) (Nirenburg, Wilks, 2001).

С учетом вышеприведенных мнений уже не таким парадоксальным оказывается понятие так называемой лингвистической онтологии, то есть онтологии, понятия которой в значительной мере связаны со значениями языковых единиц, терминов предметной области (Gomez-Perez и др., 2001; Magnini, Speranza, 2002).

Лингвистические онтологии охватывают большинство слов языка или предметной области, и одновременно имеют онтологическую структуру, проявляющуюся в отношениях между понятиями. Поэтому лингвистические онтологии могут рассматриваться как особый вид лексической базы данных и особый тип онтологии. При этом лингвистические онтологии являются относительно слабо формализованными, то есть являются «терминологическими» онтологиями по определению Дж. Совы.

Примерами лингвистических онтологий являются Принстонский WordNet и ворднеты других языков (см. главы 2, 3). Также примерами лингвистических онтологий являются информационно-поисковые тезаурусы, поскольку их единицы – дескрипторы - в подавляющем большинстве основываются на реальных терминах предметной области

4.5. Онтологии и автоматическая обработка текстов

Как уже указывалось, для того, чтобы сделать автоматическую обработку текстов более качественной и надежной, необходимо использовать знания и о языке, и об окружающем мире. Знания о мире могут быть представлены с помощью онтологий - систем понятий, для которых описаны отношения и заданы правила вывода (Нариньяни, 2001; Рубашкин, Лахути, 1998; Рубашкин, Лахути, 1999).

Чтобы применить онтологию для автоматической обработки текстов, в частности для решения задач информационного поиска, необходимо понятиям онтологии сопоставить набор языковых выражений (слов и словосочетаний), которыми понятия могут выражаться в тексте.

Процедура сопоставления понятий онтологий и языковых выражений может быть осуществлена различными способами:

Во-первых, онтология может быть сделана заранее, путем логической классификации, а затем к ее единицам могут быть приписаны языковые единицы (Gruber, 1993). При этом предлагается создавать онтологию путем логического анализа, «сверху-вниз». Имена вводимых понятий (желательно) должны отражать те признаки, которые заложены в основу деления. В результате получаются имена понятий достаточно громоздкие, неестественные, с ними трудно оперировать как разработчикам, так и возможным пользователям.

Другой проблемой такого подхода является то, что при приписывании языковых выражений к логически обоснованной системе понятий получается, что одно и то же слово может соответствовать слишком большому количеству таких «правильных» понятий в зависимости от контекста, возникает излишняя многозначность лексической единицы.

Поскольку в настоящее время существуют тезаурусы типа ворднет, содержащие большой объем лексической информации, то активно обсуждаются методы автоматического приписывания некоторой формальной онтологии языковых единиц из этих тезаурусов (Reed, Lenat, 2002; Pazienza, Stellato, 2006, Peter и др., 2006; Prevot и др., 2006).

Лингвистические онтологии отличаются от формальных онтологий по степени формализации. Поэтому второй путь предполагает, что разработчики такого рода ресурсов разрабатывают иерархию лексических значений естественного языка, а для более строгого описания знаний о мире необходимо снабдить эти ресурсы отношениями из формальных онтологий.

Так, содержанием одного из проектов является установление отношений между WordNet, c одной стороны, и формальной онтологией верхнего уровня SUMO – Standartized Upper Merged Ontology, с другой стороны (Niles, Pease, 2003). Проект состоит в том, чтобы установить соответствие между синсетами WordNet и понятиями онтологии, при котором каждый синсет WordNet либо напрямую сопоставляется с понятием онтологии, либо является гипонимом для некоторого понятия, либо примером понятия онтологии.

Участники другого проекта OntoWordNet (Gangemi и др., 2003) считают, что недостаточно провести формальную склейку ресурса типа WordNet и формальной онтологии, необходима значительная реструктуризация исходного лексического ресурса.

Третий путь – попытаться разработать единый ресурс, в котором были бы сбалансированы обе части: система понятий – и система лексических значений, что заключается в разумном разделении этих единиц в создаваемом ресурсе и аккуратном описании их взаимосвязей (Mahesh, Nirenburg, 1996, Nirenburg, Raskin, 2004, Hirst, 2003). При создании такого сбалансированного ресурса ввод понятий в онтологию требует непременного учета существующих лексических значений, то есть необходимо создавать сбалансированный ресурс, который должен являться лингвистической онтологией.

Таким образом, мы видим, что все обсуждаемые в настоящее время основные пути адаптации созданных формальных онтологий к приложениям автоматической обработки текстов включают в себя сопоставление этих онтологий с лингвистическими онтологиями.

В следующих разделах мы опишем лингвистические ресурсы MicroKosmos и FrameNet, которые также могут рассмариваться как лингвистические онтологии и которые понадобятся нам в дальнейшем рассмотрении.

4.5.1. Онтология Microkosmos

Онтология МикроКомос (более позднее название OntoSem) является одним из известнейших онтологических ресурсов. Эта онтология разрабатываются в рамках подхода, называемого «онтологическая семантика» (Nirenburg, Raskin, 2004). Онтология предназначается для использования в приложениях автоматической обработки текста и построению семантического, языково-независимого представения содержания предложений текста. Для поступающего текста производится предобработка, морфологический анализ, синтаксический анализ, семантический анализ, результаты которого представляются как Представление текст-смысл (Text-Meaning Representation -TMR).

Все сущности в онтологии Микрокосмос разделены на объекты, события и свойства. Объекты, события и свойства являются концептами (понятиями) онтологии, которые описываются фреймами. Фреймы – это наборы слотов с одним или более фасетов. Слоты в совокупности описывают понятия, определяя, как данное понятие соотносится с другими понятиями онтологии (посредством отношений) и буквенным и числовым ограничениям (посредством атрибутов). Лексикон системы описывает значения слов и словосочетаний, устанавливая ссылки от них на понятия онтологии.

Каждый слот – атрибут или отношение – определен как понятие в своей собственной иерархии.

Основными особенностями онтологии являются:

независимость от конкретного естественного языка;
независимость мотивации. Добавление понятий в онтологию не диктуется лексиконом языка. Развитие онтологии и пополнение лексикона системы - два равноправных взаимодействующих процесса, которые помогают друг другу и в то же время ограничивают друг друга;
хорошая структурированность;
последовательность и сочетаемость с лексиконом, семантическим анализатором и т.п.;
понятность и простота. Онтологию должно быть легко обходить и представлять. Например, онтология не использует And-Or деревья с дизъюнктивным наследованием, поскольку такое наследование достаточно трудно воспринимать.

Имена в онтологии могут выглядеть как английские слова или фразы, но их семантика отличается и выражается набором четко определенных отношений между понятиями.

Понятие языковой зависимости (независимости) значения демонстрируется на примере существования в немецком языке слова schimmel – белая лошадь. Авторы онтологии подчеркивают, что нет необходимости вводить отдельное понятие для отражения значения данного слова, для описания значения этого слова правильнее ввести словарную статью с ссылкой на понятие ЛОШАДЬ и с описанием значения свойства цвет - «белый».

Словарная статья языкового значения в онтологии может иметь простую структуру, представляя собой ссылку на понятие онтологии, и достаточно сложную структуру, содержащую и ссылку на понятие онтологии и особенности конкретной лексической единицы (Nirenburg и др., 2004: Nirenburg, Raskin, 2004).

Например, все глаголы изменения в онтологии приписаны одному и тому же понятию Change-event. Особенности слов описываются в словарной статье, например, для глагола увеличить (increase) указывается, что в семантической роли ТЕМА этого глагола должна выступать СКАЛЯРНАЯ_ВЕЛИЧИНА (например, цена или высота) и указывается, что значение этой величины меняется на большее.

Значение слова сионист представлено в словаре как POLITICAL ROLE (политическая роль), которая является агентом (AGENT_OF) a SUPPORT_EVENT, темой которого является Израиль. Значение слова асфальтировать описывается как COVER_event (событие покрывания), инструментом которого является понятие асфальт.

Авторы указывают, что нет необходимости иметь отдельные понятия для описания значений слов sibling (родные брат или сестра), brother (родной брат), sister (родная сестра). Вводится одно понятие SIBLING, и с помощью значений атрибута gender (мужской или женский пол) в словаре системы могут быть описаны значения слов sister и brother.

Поскольку авторами сделаны значительные усилия по ограничению величины онтологии, то размер онтологии МикроКосмос (OntoSem) составлет порядка 6 тысяч понятий, каждое из которых описывается в среднем 16 свойствами. Лексикон системы составляет несколько десятков тысяч слов и выражений.

Основные этапы разработки онтологии, по мнению разработчиков, должны состоять в следующем:

установление того, является ли значение слова достаточным основанием для введения нового понятия,
нахождение места понятия в онтологии, определение того, какие существующие понятия онтологии могут служить наилучшими родовыми понятиями для нового понятия;
описание свойств нового понятия, которые должны отличаться от свойств родовых понятий, видовых понятий, не только заполнением слотов, но и более содержательным образом, наличием других свойств.

Таким образом, провозглашаемая языковая независимость не должна вводить в заблуждение. По своей сути онтологии OntoSem и MikroKosmos являются, несомненно, лингвистическими онтологиями, поскольку основным принципом, обосновывающим введение новых понятий, является существование слов с таким значением в большом количестве языков.

При этом принцип языковой независимости этих онтологий подчеркивает, что при построении лингвистической онтологии необязательно жесткое следование системе значений конкретного языка. Лингвистическая онтология может учитывать систему значений конкретного языка или совокупности языков, и при этом следовать принципам введения понятий, провозглашаемых в формальных онтологиях (см. главу 5).

4.5.2. FrameNet как лингвистическая онтология

Одним из известных в настоящее время проектов в области описания лексической семантики является лингвистический ресурс FrameNet, который создавался под руководством известного лингвиста Чарльза Филмора (Fillmore, Atkins, 2000; Fillmore и др., 2003) в рамках концепции фреймовой семантики. Цель проекта – создать онлайновый лексический ресурс, основанный на фреймовой семантике, и обеспечить его базой в виде текстового корпуса. Проект направлен на описание семантической и синтаксической сочетаемости слов – валентностей – для каждого слова в каждом известном смысле.

В 2009 году ресурс содержал 960 иерархически организованных фреймов, с которыми ассоциировано более 11 тысяч лексических единиц.

Например, фрейм Apply_heat (Нагревание еды) описывает ситуацию, в состав которой входят такие слоты, как повар, еда, нагревательное оборудование. Данный фрейм вызывается такими словами как bake, blanch, boil, broil, brown, simmer, steam, etc. Слоты фрейма называются фреймовыми элементами FE, а вызывающие фрейм слова – лексическими единицами (LU) этого фрейма. В качестве корпусных данных для этих описаний размечено более 135 тысяч предложений

По сути FrameNet представляет собой онтологию ситуаций, представленных в виде фреймов и связанных между собой иерархическими отношениями. FrameNet – это, несомненно, лингвистическая онтология, поскольку для описания нового фрейма необходимым условием является существование лексических единиц, которые вызывают этот фрейм.

Основными иерархическими отношениями между фреймами являются следующие:

Отношение Is_A устанавливается в тех случаях, когда каждый фреймовый элемент родительского фрейма связан с соответствующим элементом нижестоящего фрейма. Например, фрейм МЕСТЬ (Revenge) является нижестоящим для фрейма Rewards_and_punishments (Награды и наказания).

Отношение Using указывается, если нижестоящий фрейм предполагает родительский фрейм как бэкграунд, например, фрейм Скорость предполагает фрейм Движения, однако не все фреймовые элементы родительского фрейма должны быть связаны с фреймовыми элементами нижестоящего фрейма.

Отношение Subframe описывает нижестоящий фрейм как подсобытие вышестоящего события, например, фрейм Криминальный процесс имеет подфреймы Арест, Суд, и Приговор.

Отношение Perspective on показывает, что нижестоящий фрейм описывает точку зрения вышестоящего, не ориентированного на определенные точки зрения фрейма. Например, фреймы Нанять_на_работу и Получить_работу являются такими подфреймами для фрейма Трудоустройство (Employment_start) с точки зрения нанимателя и работника соответственно.

Также используются отношения предшествования Precedes, отношение причины Causative_of.

4.5.3. От информационно-поисковых тезаурусов к
формальным онтологиям

Рассмотрим, какое влияние оказали современные онтологические исследования на концепцию разработки информационно-поисковых тезаурусов. Критика информационно-поисковых тезаурусов с позиции формальных онтологий в связи с тем, что в тезаурусах недостаточно хорошо структурированы отношения и отсутствует последовательность в их установлении, привели к постановке вопроса о возможности преобразования информационно-поискового тезауруса в более формальзованный онтологический ресурс (Wielinga и др., 2001).

Задача преобразования информационно-поисковых тезаурусов в формальные онтологии была поставлена разработчиками достаточно известных тезаурусов таких, как тезауруса в области сельского хозяйства AGROVOC и тезауруса в области образования ERIC (Soergel и др., 2004). Предполагается, что при таком преобразовании могут быть улучшены разнообразные функции использования информационно-поисковых тезаурусов, включая:

более качественное взаимодействие с пользователями, помощь в формулировании запросов;
интеллектуальное расширение запросов;
автоматизированная помощь индексаторам и база для систем автоматического индексирования и рубрицирования текстов,
поддержка для приложений, создаваемых в рамках искусственного интеллекта, и исследований в области Семантической сети.

Предлагается, прежде всего, преобразовать систему отношений тезауруса в более формализованный набор предикатов и описать правила вывода (аксиомы).

Так, например, в работе (Soergel и др., 2004) в качестве примеров модификации информационно-поискового тезауруса по сельскому хозяйству AGROVOC приводятся следующие словарные статьи (Agrovoc, 1999):

Исходные статьи тезаруса (NT – отношение НИЖЕ, BT - отношение ВЫШЕ):

milk

NT cow milk

NT milk fat

cow

NT cow milk

Сheddar cheese

BT cow milk

Указанные статьи действительно показывают смешение разных отношений, что не противоречило существующим стандартам в области разработки информационно-поисковых тезаурусов. Как мы видим, отношения между понятиями МОЛОКО- КОРОВЬЕ-МОЛОКО, МОЛОКО-МОЛОЧНЫЙ ЖИР, КОРОВА – КОРОВЬЕ МОЛОКО, МОЛОКО – СЫР ЧЕДДЕР, выражено одним и тем же отношением BT-NT.

Преобразованные словарные статьи должны более четко различать конкретное семантическое отношение, и, таким образом, один тип тезаурусных отношений преобразуется в четыре разных отношения:

milk

<includesSpecific> cow milk

<containsSubstance> milk fat

cow

<hasComponent> cow milk

Cheddar cheese

<madeFrom> cow milk
Тезаурусы обычно не содержат понятий с атрибутами, в проекте преобразования тезауруса AGROVOC в онтологию предполагается использовать атрибутную структуру для описания некоторых понятий, например, описывать, что понятие МАТЬ это РОДИТЕЛЬ с атрибутом женский.

На построенной системе отношений предполагалось ввести правила вывода, например:

Правило 1:

Part_X <mayContainSubstance> Substance_Y:

IF Animal_W <hasComponent> Part_X

AND Animal_W <ingests> Substance_Y
(Если животное W имеет в качестве компонента часть Х, и животное W съедает вещество Y, то часть X может содержать вещество Y).
Правило 2:

Food_Z <containsSubstance> Substance_Y:

IF Food_Z <madeFrom> Part_X

AND Part_X <containsSubstance> Substance_Y
(Если пища Z делается из части Х, и часть X содержит вещество Y, то пища Z содержит вещество Y).
Предполагается, что система, имея такие правила вывода, может автоматически получить, что сыр-чеддер содержит (containsSubstance) молочный жир, и, что если коровы на ферме съели корма, зараженные ртутью, то, сыр, сделанный из этого молока, также, возможно, будет заражен ртутью (Cheddar cheese <mayContainSubstance>mercury).

Другой пример преобразования информационно-поискового тезауруса в формализованную онтологию – это нововведения, предлагаемые для тезауруса в области образования ERIC (Thesaurus of ERIC, 1990).

Исходные статьи тезауруса:

Reading instruction
BT Instruction
RT Reading
RT Learning standards

Reading ability
BT Ability
RT Reading
RT Perception

Предполагается преобразовать в следующий набор отношений:

Reading instruction isa Instruction
Reading instruction has domain Reading
Reading instruction governed by Learning standards

Reading ability isa Ability
Reading ability has domain Reading
Reading ability supported by Perception

А также предполагается установить следующие правила вывода:

Правило 1

If X isa (type of) instruction and X has domain Z
and Y isa ability and Y has domain Z
Then X should consider Y

(Если X - это инструкция, и X имеет область Z, и Y – это способность, и Y имеет область Z, тогда инструкция X должна учитывать Y.

Правило 2:

If X should consider Y and Y is supported by W
Then X should consider W.

(Если X должно учитывать Y, и Y поддерживается W, то X должно учитывать W).

Проект преобразования тезауруса AGROVOC в онтологию действительно стал реализовываться (Liang и др., 2006). Речь идет об автоматизированном преобразовании исходного набора тезаурсных отношений в онтологические отношения. Всего предложено более 70 отношений между понятиями тезауруса (http://www.fao.org/aims/cs_relationships.htm).

Взаимосвязь между некоторыми отношениями вызывает вопросы и, например, отношение таксономии taxonomic relationships и отношение класс-подкласс hasSubclass указаны в списке как отдельные отношения. Как известно, большое количество отношений между сущностями, тем более плохо определенных, влечет дополнительные проблемы с последовательностью и субъективностью их установления. Про реализацию описания правил ввода и использование их в автоматических процедурах обработки текста пока ничего не известно.

Кроме того, на пути применения таких «информационно-поисковых онтологий» в реальных приложениях информационного поиска и автоматической обработки текстов в широких, плохо структурированных предметных областях (какими, собственно, и являются предметные области «Сельское хозяйство» и «Образование») имеются определенные трудности.

Действительно, чтобы правила логического вывода действительно работали, помимо изменений в описании понятий и терминов предметной области, нужно иметь автоматические средства обработки естественно-языковых текстов, позволяющие в неограниченном связном тексте точно и полно извлекать последовательности фактов, уметь прослеживать кореферентность, следить за временем извлекаемых фактов: в корма попала ртуть, эти корма принадлежат данной ферме, коровы этой фермы съели именно эти корма, изготовление сыра чеддер этой фермой произведено в период времени сразу после того, как эти коровы съели эти корма и т.п.

Кроме того, в тексте слова корма и ртуть могут оказаться в разных частях длинного предложения, или в разных предложениях текста, например, из-за использования эллиптической конструкции или местоимения и т.п., что значительно усложнит выявление этого факта.

Понятно, что в настоящее (и ближайшее) время ни одна из существующих систем автоматической обработки текстов, извлечения знаний из текстов не может обеспечить такой уровень точности и полноты получения информации из текстов, на которых надежно можно было обосновывать работу таких правил вывода.

Таким образом, по нашему мнению, значительные трудозатраты на такого рода формализацию информационно-поисковых тезаурусов могут и не привести к улучшению качества автоматической обработки текстов и созданию ресурсов, лучше приспособленных к автоматическим режимам работы, чем существующие информационно-поисковые тезаурусы.

Заключение к главе 4

Таким образом, современные исследования в области онтологий развиваются в нескольких направлениях, изучая как аксиоматические способы представления знаний о мире, так и менее формализованные методы.

Создание онтологий на строгих формальных принципах в настоящее время связано с проблемами масштабируемости описания, с проблемами понимания пользователями, с существованием других формальных точек зрения на ту же сферу понятий.

Создание массово используемых понятийных ресурсов связано пока с относительно слабой формальзованностью описаний понятий, с основанием понятий онтологии на существующих языковых значениях. Нестрогость таких онтологий может естественно привести к проблемам в логическом выводе, который считается важным следствием создания онтологических ресурсов.

Таким образом, решая конкретные прикладные задачи особенно в широких предметных областях, необходимо делать осознанный выбор уровня сложности формализма представления знаний о предметной области.