Скачать 6.4 Mb.
|
1.3. Основные принципы разработки тезаурусовПри разработке информационно-поисковых тезаурусов первой задачей является отбор терминов для включения в тезаурус. Существует несколько возможных источников терминов для разработки информационно-поисковых тезаурусов. Прежде всего, должны быть изучены существующие тезаурусы в близких предметных областях. Они могут содержать значимое количество полезных терминов для нового тезауруса. Термины - кандидаты для внесения в тезаурус могут быть предложены экспертами предметной области. Кроме того, термины тезауруса могут быть получены из текстов предметной области применением автоматизированных методов или ручной обработки документов. При ручной обработке документов сначала некоторое время индексаторы индексируют поступающие документы наиболее релевантными ключевыми словами, которые затем сводятся в единый список, которые и может служить основой для тезауруса (Архангельская, Базарнова, 2001; Z39.19). После того, как список терминов-кандидатов получен, из него исключаются слишком частотные термины, поскольку предполагается, что они являются малоинформативными для различения отдельных документов. Относительно малочастотные термины могут быть удалены из списка или представлены как аскрипторы более общих или более частотных понятий. Слишком конкретные термины также могут быть исключены из списка терминов-кандидатов, поскольку считается, что если тезаурус содержит слишком много уровней иерархии, то им трудно управлять, возрастает субъективность индексирования, так как индексаторы могут использовать для индексирования документов дескрипторы разного уровня (Z39.19; Герд, 2005). Если в списке обнаруживается несколько близких по смыслу терминов, то из них выделяется наиболее представительный термин, остальные термины могут быть частично исключены и переведены в аскрипторы (Архангельская, Базарнова, 2001). Шемакин Ю.И. (Шемакин, 1974, стр. 41) подчеркивает, что из синонимических рядов тезауруса исключаются явные синонимичные термины, например, РАЗВЕДЫВАТЕЛЬНАЯ ИНФОРМАЦИЯ – РАЗВЕДЫВАТЕЛЬНЫЕ СВЕДЕНИЯ, НАВИГАЦИОННЫЕ СИСТЕМЫ – СИСТЕМЫ НАВИГАЦИИ. Такая рекомендация связана с тем, что эта информация очевидна для человека-индексатора, большое количество таких синонимических терминов в тезаурусе может затруднять работу человека-индексатора. Разработчики тезауруса LIV Исследовательской службы Конгресса США (LIV, 1994) описывают правила включения терминов в тезаурус следующим образом:
Таким образом, разработка хорошего информационно-поискового тезауруса представляет собой достаточно сложный, многоэтапный процесс, в котором необходимо найти «золотую середину». С одной стороны, набор дескрипторов тезауруса должно быть достаточен для описания произвольного документа предметной области, с другой стороны, дескрипторов не должно быть слишком много, поскольку слишком большая величина тезауруса повышает субъективность индексирования и затрудняет развитие и использование тезауруса. Не случайно, значительная доля информационно-поисковых тезаурусов в самых широких областях включает не более 10 тысяч терминов и 6-7 тысяч дескрипторов. Широко известным исключением являются Тезаурус по архитектуре и искусству (Тезаурус AAT), содержащий более 30 тысяч дескрипторов, что, видимо, связано со спецификой соответствующей предметной области, когда нужно индексировать не столько документы, сколько конкретные музейные предметы. Другим известным исключением, сверхбольшим тезаурусом является тезаурус по медицине MeSH, что связано с гетерогенностью области медицины, состоящей из множества подобластей с собственной терминологией. |
Тезаурусы в задачах информационного поиска Правила индексирования документов дескрипторами информационно-поискового тезауруса 39 |
Тезисы представленные на Внимание! Для поиска своей фамилии или ключевого слова в тексте нажмите Ctrl+F и введите искомое слово в окно поиска!! |
||
Инструкция по заполнению документов на регистрацию информационного ресурса Настоящая инструкция определяет порядок заполнения и представления документов для регистрации информационного ресурса в Реестре государственных... |
Конспект лекций по дисциплине «Информационные системы и технологии в науке и образовании» Введение. Содержание дисциплины и порядок ее изучения. Фактографический поиск. Математические модели фактографического поиска. Информационная... |
||
Лекция №11 В этом разделе будет приведен обзор одних из первых систем поиска информации, насчитывающих к настоящему моменту времени многолетнюю... |
Инструкция по сверке Планов финансово-хозяйственной деятельности В параметрах поиска в строке Наименование учреждения вводим инн, либо название учреждения. Нажать кнопку Найти. Внизу экрана загрузится... |
||
Алгоритмы поиска. Линейный поиск. Двоичный поиск Также, линейный поиск часто используется в виде линейных алгоритмов поиска максимума/минимума |
Рабочая инструкция по настройке представлений в hp sm Удалены не используемые номера рисунков. Добавлено описание создания представления из Поиска и описание требований для удаления Представления.... |
||
Задачах на 2014 год Итоги работы Отдела социальной защиты населения г. Рошаль Отдела социальной защиты населения г. Рошаль Министерства социальной защиты населения Московской области и подведомственных учреждений... |
Общая характеристика информационного ресурса Целью оказания услуг является формирование и сопровождение картографического информационного ресурса «Шельфовые проекты» (далее ир... |
||
Инструкция по поиску и спасанию в зоне авиационно-космического поиска... Организация поисково-спасательного обеспечения полетов в Южной зоне авиационно-космического поиска и спасания (акпс) |
Отчёт о результатах деятельности отдела загс администрации Лужского... Во исполнение поручения главы администрации Лужского муниципального района Малащенко Олега Михайловича предоставляем отчет о результатах... |
||
Универсальный телевизионный пульт дистанционного управления «умного» поиска и сохранения канала, что избавляет вас от необходимости поиска и сохранения каналов вручную. Своевременная замена... |
Инструкция по работе с программным комплексом единого информационного ресурса При входе в программный комплекс единого информационного ресурса (далее – пк еир) пользователю необходимо пройти авторизацию в меню,... |
||
Регламент информационного взаимодействия Настоящий Регламент информационного взаимодействия (далее Регламент) разработан в целях реализации требований следующих документов:... |
Приказ от 3 июня 2014 г. N 148 об утверждении требований к подготовке... Федеральных авиационных правил поиска и спасания в Российской Федерации, утвержденных постановлением Правительства Российской Федерации... |
Поиск |