Тезаурусы в задачах информационного поиска


Скачать 6.4 Mb.
Название Тезаурусы в задачах информационного поиска
страница 8/45
Тип Задача
rykovodstvo.ru > Руководство эксплуатация > Задача
1   ...   4   5   6   7   8   9   10   11   ...   45

1.3. Основные принципы разработки тезаурусов


При разработке информационно-поисковых тезаурусов первой задачей является отбор терминов для включения в тезаурус. Существует несколько возможных источников терминов для разработки информационно-поисковых тезаурусов.

Прежде всего, должны быть изучены существующие тезаурусы в близких предметных областях. Они могут содержать значимое количество полезных терминов для нового тезауруса.

Термины - кандидаты для внесения в тезаурус могут быть предложены экспертами предметной области.

Кроме того, термины тезауруса могут быть получены из текстов предметной области применением автоматизированных методов или ручной обработки документов. При ручной обработке документов сначала некоторое время индексаторы индексируют поступающие документы наиболее релевантными ключевыми словами, которые затем сводятся в единый список, которые и может служить основой для тезауруса (Архангельская, Базарнова, 2001; Z39.19).

После того, как список терминов-кандидатов получен, из него исключаются слишком частотные термины, поскольку предполагается, что они являются малоинформативными для различения отдельных документов. Относительно малочастотные термины могут быть удалены из списка или представлены как аскрипторы более общих или более частотных понятий.

Слишком конкретные термины также могут быть исключены из списка терминов-кандидатов, поскольку считается, что если тезаурус содержит слишком много уровней иерархии, то им трудно управлять, возрастает субъективность индексирования, так как индексаторы могут использовать для индексирования документов дескрипторы разного уровня (Z39.19; Герд, 2005).

Если в списке обнаруживается несколько близких по смыслу терминов, то из них выделяется наиболее представительный термин, остальные термины могут быть частично исключены и переведены в аскрипторы (Архангельская, Базарнова, 2001).

Шемакин Ю.И. (Шемакин, 1974, стр. 41) подчеркивает, что из синонимических рядов тезауруса исключаются явные синонимичные термины, например, РАЗВЕДЫВАТЕЛЬНАЯ ИНФОРМАЦИЯ – РАЗВЕДЫВАТЕЛЬНЫЕ СВЕДЕНИЯ, НАВИГАЦИОННЫЕ СИСТЕМЫ – СИСТЕМЫ НАВИГАЦИИ. Такая рекомендация связана с тем, что эта информация очевидна для человека-индексатора, большое количество таких синонимических терминов в тезаурусе может затруднять работу человека-индексатора.

Разработчики тезауруса LIV Исследовательской службы Конгресса США (LIV, 1994) описывают правила включения терминов в тезаурус следующим образом:

  • термины тезауруса должны представлять понятия, которые реально упоминаются в литературе, и должны отбираться из соображений эффективности их использования в поиске документов;

  • важным фактором включения термина является частотность его упоминания в текстах, которую необходимо периодически проверять;

  • включение новых терминов в тезаурус должно происходить с учетом уже включенных тезаурусных терминов. Термины-кандидаты должны проверяться на предмет соответствия их общности/специфичности к другим терминам тезауруса. Также должно проверяться, представляет ли термин-кандидат отдельное понятие, которому нет соответствий среди существующих терминов тезауруса. Необходимо избегать включения терминов, чьи значения пересекаются со значениями уже существующих тезаурусных терминов настолько, что индексаторам и пользователям будет трудно различать между ними и др.

Таким образом, разработка хорошего информационно-поискового тезауруса представляет собой достаточно сложный, многоэтапный процесс, в котором необходимо найти «золотую середину». С одной стороны, набор дескрипторов тезауруса должно быть достаточен для описания произвольного документа предметной области, с другой стороны, дескрипторов не должно быть слишком много, поскольку слишком большая величина тезауруса повышает субъективность индексирования и затрудняет развитие и использование тезауруса.

Не случайно, значительная доля информационно-поисковых тезаурусов в самых широких областях включает не более 10 тысяч терминов и 6-7 тысяч дескрипторов. Широко известным исключением являются Тезаурус по архитектуре и искусству (Тезаурус AAT), содержащий более 30 тысяч дескрипторов, что, видимо, связано со спецификой соответствующей предметной области, когда нужно индексировать не столько документы, сколько конкретные музейные предметы.

Другим известным исключением, сверхбольшим тезаурусом является тезаурус по медицине MeSH, что связано с гетерогенностью области медицины, состоящей из множества подобластей с собственной терминологией.
1   ...   4   5   6   7   8   9   10   11   ...   45

Похожие:

Тезаурусы в задачах информационного поиска icon Тезаурусы в задачах информационного поиска
Правила индексирования документов дескрипторами информационно-поискового тезауруса 39
Тезаурусы в задачах информационного поиска icon Тезисы представленные на
Внимание! Для поиска своей фамилии или ключевого слова в тексте нажмите Ctrl+F и введите искомое слово в окно поиска!!
Тезаурусы в задачах информационного поиска icon Инструкция по заполнению документов на регистрацию информационного ресурса
Настоящая инструкция определяет порядок заполнения и представления документов для регистрации информационного ресурса в Реестре государственных...
Тезаурусы в задачах информационного поиска icon Конспект лекций по дисциплине «Информационные системы и технологии в науке и образовании»
Введение. Содержание дисциплины и порядок ее изучения. Фактографический поиск. Математические модели фактографического поиска. Информационная...
Тезаурусы в задачах информационного поиска icon Лекция №11
В этом разделе будет приведен обзор одних из первых систем поиска информации, насчитывающих к настоящему моменту времени многолетнюю...
Тезаурусы в задачах информационного поиска icon Инструкция по сверке Планов финансово-хозяйственной деятельности
В параметрах поиска в строке Наименование учреждения вводим инн, либо название учреждения. Нажать кнопку Найти. Внизу экрана загрузится...
Тезаурусы в задачах информационного поиска icon Алгоритмы поиска. Линейный поиск. Двоичный поиск
Также, линейный поиск часто используется в виде линейных алгоритмов поиска максимума/минимума
Тезаурусы в задачах информационного поиска icon Рабочая инструкция по настройке представлений в hp sm
Удалены не используемые номера рисунков. Добавлено описание создания представления из Поиска и описание требований для удаления Представления....
Тезаурусы в задачах информационного поиска icon Задачах на 2014 год Итоги работы Отдела социальной защиты населения г. Рошаль
Отдела социальной защиты населения г. Рошаль Министерства социальной защиты населения Московской области и подведомственных учреждений...
Тезаурусы в задачах информационного поиска icon Общая характеристика информационного ресурса
Целью оказания услуг является формирование и сопровождение картографического информационного ресурса «Шельфовые проекты» (далее ир...
Тезаурусы в задачах информационного поиска icon Инструкция по поиску и спасанию в зоне авиационно-космического поиска...
Организация поисково-спасательного обеспечения полетов в Южной зоне авиационно-космического поиска и спасания (акпс)
Тезаурусы в задачах информационного поиска icon Отчёт о результатах деятельности отдела загс администрации Лужского...
Во исполнение поручения главы администрации Лужского муниципального района Малащенко Олега Михайловича предоставляем отчет о результатах...
Тезаурусы в задачах информационного поиска icon Универсальный телевизионный пульт дистанционного управления
«умного» поиска и сохранения канала, что избавляет вас от необходимости поиска и сохранения каналов вручную. Своевременная замена...
Тезаурусы в задачах информационного поиска icon Инструкция по работе с программным комплексом единого информационного ресурса
При входе в программный комплекс единого информационного ресурса (далее – пк еир) пользователю необходимо пройти авторизацию в меню,...
Тезаурусы в задачах информационного поиска icon Регламент информационного взаимодействия
Настоящий Регламент информационного взаимодействия (далее Регламент) разработан в целях реализации требований следующих документов:...
Тезаурусы в задачах информационного поиска icon Приказ от 3 июня 2014 г. N 148 об утверждении требований к подготовке...
Федеральных авиационных правил поиска и спасания в Российской Федерации, утвержденных постановлением Правительства Российской Федерации...

Руководство, инструкция по применению




При копировании материала укажите ссылку © 2024
контакты
rykovodstvo.ru
Поиск