Скачать 0.74 Mb.
|
4. Программное обеспечение информационных технологий в лингвистике. Классификация программного обеспечения. Программные продукты можно классифицировать по различным признакам. Рассмотрим классификацию, в которой основополагающим признаком является сфера (область) использования программных продуктов. Для поддержки информационной технологии в этих областях выделим соответственно три класса программных продуктов: системное программное обеспечение; пакеты прикладных программ; инструментарий технологии программирования. Системное программное обеспечение (System Software) - совокупность программ и программных комплексов для обеспечения работы компьютера и сетей ЭВМ, направленное: на создание операционной среды функционирования других программ; обеспечение надежной и эффективной работы самого компьютера и вычислительной сети; проведение диагностики и профилактики аппаратуры компьютера и вычислительных сетей; выполнение вспомогательных технологических процессов (копирование, архивирование, восстановление файлов программ и баз данных и т. д.). Данный класс программных продуктов тесно связан с типом компьютера и является его неотъемлемой частью. Программные продукты ориентированы в основном на квалифицированных пользователей - профессионалов в компьютерной области: системных программистов, администраторов сети, прикладных программистов, операторов. Однако знание базовой технологии работы с этим классом программных продуктов требуется и конечным пользователям персонального компьютера, которые самостоятельно не только работают со своими программами, но и выполняют обслуживание компьютеров, программ и данных. Программные продукты данного класса носят общий характер применения независимо от специфики предметной области. К ним предъявляются высокие требования по надежности и технологичности работы, удобству и эффективности использования. Пакет прикладных программ (application program package) - это комплекс взаимосвязанных программ для решения задач определенного класса конкретной предметной области; служит программным инструментарием решения функциональных задач и является самым многочисленным классом программных продуктов, выполняющих обработку информации различных предметных областей. Установка программных продуктов на компьютер выполняется квалифицированными пользователями, а непосредственную их эксплуатацию осуществляют, как правило, конечные пользователи – потребители информации, деятельность которых во многих случаях весьма далека от компьютерной области. Данный класс программных продуктов может быть весьма специфичными для отдельных предметных областей. Инструментарий технологии программирования – совокупность программ и программных комплексов, обеспечивающих технологию разработки, отладки и внедрения создаваемых программных продуктов. Транслятор – это комплекс программ, обеспечивающих перевод программы, написанной на символическом языке, в совокупность машинных команд. В зависимости от функционального назначения транслятор может быть компилятором, интерпретатором, ассемблером или языковым процессором. Компилятор – это транслятор, выполняющий перевод программы, написанной на алгоритмическом языке, в совокупность машинных команд без ее выполнения на компьютере. Интерпретатор – транслятор, производящий перевод каждой конструкции алгоритмического языка в машинные команды и одновременное выполнение этих конструкций в компьютере. Ассемблер – транслятор, переводит программы, записанные на машинно-ориентированном языке ассемблера в машинные коды. Языковый процессор - это транслятор, объединяющий в себе функции компиляции, интерпретации и ассемблирования. К категории инструментальных средств относятся не только трансляторы с языков высокого уровня, но и загрузчики, отладчики, иные системные программы. Инструментарий технологии программирования обеспечивает процесс разработки программ и включает специализированные программные продукты, которые являются инструментальными средствами разработчика. Программные продукты данного класса поддерживают все технологические этапы процесса проектирования, программирования, отладки и тестирования программ. Пользователями технологии программирования являются системные и прикладные программисты. 5. Автоматизированное рабочее место лингвиста. Автоматизи́рованное рабо́чее ме́сто (АРМ) - программно-технический комплекс, предназначенный для автоматизации деятельности определенного вида. При разработке АРМ для управления технологическим оборудованием как правило используют SCADA-системы. АРМ объединяет программно-аппаратные средства, обеспечивающие взаимодействие человека с компьютером, предоставляет возможность ввода информации (через клавиатуру, компьютерную мышь, сканер и пр.) и её вывод на экран монитора, принтер, графопостроитель, звуковую карту - динамики или иные устройства вывода. Как правило, АРМ является частью АСУ (Автоматизированная система управления). SCADA (аббр. от англ. supervisory control and data acquisition, диспетчерское управление и сбор данных) - программный пакет, предназначенный для разработки или обеспечения работы в реальном времени систем сбора, обработки, отображения и архивирования информации об объекте мониторинга или управления. SCADA может являться частью АСУ ТП (Автоматизированная система управления технологическим процессом), АСКУЭ, системы экологического мониторинга, научного эксперимента, автоматизации здания и т. д. SCADA-системы используются во всех отраслях хозяйства, где требуется обеспечивать операторский контроль за технологическими процессами в реальном времени. Данное программное обеспечение устанавливается на компьютеры и, для связи с объектом, использует драйверы ввода-вывода или OPC/DDE серверы. Программный код может быть, как написан на языке программирования (например на C++), так и сгенерирован в среде проектирования. Иногда SCADA-системы комплектуются дополнительным ПО для программирования промышленных контроллеров. Такие SCADA-системы называются интегрированными и к ним добавляют термин SoftLogic. Термин «SCADA» имеет двоякое толкование. Наиболее широко распространено понимание SCADA как приложения, то есть программного комплекса, обеспечивающего выполнение указанных функций, а также инструментальных средств для разработки этого программного обеспечения. Однако, часто под SCADA-системой подразумевают программно-аппаратный комплекс. Подобное понимание термина SCADA более характерно для раздела телеметрия. Значение термина SCADA претерпело изменения вместе с развитием технологий автоматизации и управления технологическими процессами. В 80-е годы под SCADA-системами чаще понимали программно-аппаратные комплексы сбора данных реального времени. С 90-х годов термин SCADA больше используется для обозначения только программной части человеко-машинного интерфейса АСУ ТП. SCADA-системы решают следующие задачи: 1) Обмен данными с «устройствами связи с объектом» (то есть с промышленными контроллерами и платами ввода/вывода) в реальном времени через драйверы. 2) Обработка информации в реальном времени. 3) Логическое управление. 4) Отображение информации на экране монитора в удобной и понятной для человека форме. 5) Ведение базы данных реального времени с технологической информацией. 6) Аварийная сигнализация и управление тревожными сообщениями. 7) Подготовка и генерирование отчетов о ходе технологического процесса. 8) Осуществление сетевого взаимодействия между SCADA ПК. 9) Обеспечение связи с внешними приложениями (СУБД, электронные таблицы, текстовые процессоры и т.д.). В системе управления предприятием такими приложениями чаще всего являются приложения, относимые к уровню MES. MES (от англ. Manufacturing Execution System, система управления производственными процессами) - специализированное прикладное программное обеспечение, предназначенное для решения задач синхронизации, координации, анализа и оптимизации выпуска продукции в рамках какого-либо производства. MES-системы относятся к классу систем управления уровня цеха. SCADA-системы позволяют разрабатывать АСУ ТП в клиент-серверной или в распределённой архитектуре. ОБЛАСТИ ПРИМЕНЕНИЯ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ В ЛИНГВИСТИКЕ. 6. Автоматический анализ и синтез звучащей речи. Синтез речи - это технология, которая дает возможность прочитать текст (документ, письмо, смс) голосом, приближенном к естественному. Чтобы синтезированная речь звучала натурально, необходимо решить целый комплекс задач, связанных как с обеспечением естественности голоса на уровне тембра, плавности звучания и интонации, так и с правильной расстановкой ударений, расшифровкой сокращений, чисел, аббревиатур и специальных знаков. Методы синтеза речи. Сегодня наиболее динамично развивающимися и обеспечивающие наибольшую естественность речи являются два основных направления синтеза: компилятивный синтез с использованием технологии Unit Selection (выбор звуковых элементов из речевой базы), пришедший на смену аллофонному и дифонному синтезу, и синтез, генерирующий звуковой сигнал по предсказанным на основе скрытых марковских моделей (hidden Markov models) параметрам, – HMM-синтез. Но каждый из них в отдельности имеет свои недостатки: Unit Selection - естественность тембра речи высока и в синтезированный голос сохраняет тембровую окраску голоса диктора-донора. Однако интонационное оформление может быть несколько неестественным и однообразным. HMM-синтез - интонационное оформление, высота и тембр как бы «клонируются» с естественного голоса диктора, но генерируемая речь звучит несколько механически и «роботизировано». Технология гибридного синтеза речи от ЦРТ. Специалистами компании «Центр речевых технологий» разработана новая технология гибридного синтеза речи, объединившая в себе достоинства подхода Unit Selection и HMM-синтеза и практически исключившая их недостатки. Синтез речи VitalVoice использует сложные лингвистические алгоритмы анализа текста и обработки выходного сигнала, что позволяет достичь максимального приближения к реальной речи. В словаре VitalVoice содержится более 300 фразеологизмов, с помощью которых синтезатор понимает, что, например, выражение «ни пуха ни пера» - это единая смысловая конструкция с особой интонацией. Особое внимание уделяется интонации и паузации синтетической речи, ведь именно эти параметры во многом обеспечивают естественность голоса. Блок лингвистической обработки позволяет автоматически расшифровывать множество вариантов сокращений, используемых в текстах на русском языке. Основные характеристики системы. Морфо-грамматический словарь - 182649 лемм. Словарь частотных аббревиатур - 787 единиц. Словарь частотных иноязычных аббревиатур - 329 единиц. Словарь частотных иноязычных слов - 2781 единица. Словарь сокращений - 285 единиц. 2 мужских и 5 женских голосов + возможность изменения темпа чтения, высоты и тембра голоса. Поддержка основных тегов стандарта SSML: с помощью тегов можно задавать паузу, повышать и понижать частоту основного тона, изменять произношение слова и т. п. Возможность задать нужное ударение в слове через пользовательский словарь. Поддержка ОС Windows, Apple iOS и Linux. 7. Пословный и пофонемный анализ речи. Интеллектуализация человеко-машинного интерфейса предполагает использование системы автоматического синтеза речевых сообщений. В настоящее время разработан целый ряд методов синтеза речи. Выбор того или иного метода определяется различными факторами. Существуют четыре основных вида факторов, от которых зависит выбор метода синтеза. Область применения. Если необходимо произносить ограниченное число фраз, а их произнесение линейно не меняется, то необходимый речевой материал просто записывается на цифровой носитель. С другой стороны, если задача состоит в стимулировании познавательного процесса при чтении вслух, используется совершенно другой ряд методик. Голосовой аппарат человека. Все системы синтеза речи должны производить на выходе определённую речевую волну, но это не произвольный сигнал. Чтобы получить речевую волну заданного качества, сигнал должен пройти путь от источника в речевом тракте, возбуждающего действие артикуляторных органов, которые функционируют как изменяющиеся во времени фильтры. Артикуляторные органы также накладывают ограничения на скорость изменения сигнала. Они также имеют функцию сглаживания: гладкого сцепления отдельных базовых фонетических единиц в сложный речевой поток. Структура языка. Ряд возможных звуковых сочетаний определяется природой той или иной языковой структуры. Было обнаружено, что единицы и структуры, используемые лингвистами для описания и объяснения языка, могут также использоваться для характеристики и построения речевой волны. Таким образом, при построении выходной речевой волны используются основные фонологические законы, правила ударения, морфологические и синтаксические структуры. Технология. Возможности успешно моделировать и создавать устройства для синтеза речи существенно зависят от состояния научно-технических разработок в этой области. Из обзора современных публикаций следует, что речевая наука сделала большой шаг вперед благодаря появлению различных технологий, в том числе: рентгенографии, теории фильтров, спектрального и вейвлет-анализа, а также теории цифровой обработки сигналов. С приходом интегральных сетевых технологий с постоянно возрастающими возможностями стало возможно построение мощных, компактных, недорогих устройств, действующих в реальном времени. Этот факт, вместе с расширением фронта исследований в области синтеза речи, стимулировал дальнейшее развитие систем синтеза речи и их широкое практическое использование. Основываясь на рассмотренных факторах, можно выделить три основных подхода к синтезу речи: а) параметрический синтез; б) конкатенативный, или компиляционный (компилятивный) синтез; в) синтез по правилам. Параметрический синтез речи является конечной операцией в вокодерных системах, где речевой сигнал представляется набором небольшого числа непрерывно изменяющихся параметров. Параметрический синтез целесообразно применять в тех случаях, когда набор сообщений ограничен и изменяется не слишком часто. Достоинством такого способа является возможность записать речь для любого языка и любого диктора. Качество параметрического синтеза может быть очень высоким (в зависимости от степени сжатия информации в параметрическом представлении). Однако параметрический синтез не может применяться для произвольных, заранее не заданных сообщений. Компиляционный синтез сводится к составлению сообщения из предварительно записанного словаря исходных элементов синтеза. Размер элементов синтеза не меньше слова. Очевидно, что содержание синтезируемых сообщений фиксируется объёмом словаря. Как правило, число единиц словаря не превышает нескольких сотен слов. Основная проблема в компилятивном синтезе - объёмы памяти для хранения словаря. В этой связи используются разнообразные методы сжатия/кодирования речевого сигнала. Компилятивный синтез имеет широкое практическое применение. За рубежом разнообразные устройства (от военных самолётов до бытовых приборов) оснащаются системами речевого ответа. В нашей стране системы речевого ответа до недавнего времени использовались в основном в области военной техники, сейчас они находят всё большее применение в повседневной жизни, например, в справочных службах операторов сотовой связи при получении информации о состоянии счета абонента. Полный синтез речи по правилам (или синтез по произвольному тексту) обеспечивает управление всеми параметрами речевого сигнала и, таким образом, может генерировать речь по заранее неизвестному тексту. В этом случае параметры, полученные при анализе речевого сигнала, сохраняются в памяти так же, как и правила соединения звуков в слова и фразы. Синтез реализуется путем моделирования речевого тракта с применением аналоговой или цифровой техники. Причём в процессе синтеза значения параметров и правила соединения фонем вводят последовательно через определённый временной интервал, например 5-10 мс. Метод синтеза речи по произвольному тексту базируется на определении акустических и лингвистических правил и не использует непосредственно элементов человеческой речи. В системах, основанных на этом способе синтеза, выделяется два подхода. Первый подход направлен на построение модели речепроизводящей системы человека и известен под названием артикуляторного синтеза. Второй подход - формантный синтез по правилам. Разборчивость и натуральность звучания таких синтезаторов может быть доведена до уровня, сравнимого с характеристиками естественной речи. Синтез речи по правилам с использованием предварительно запомненных отрезков естественного языка - это разновидность синтеза речи по правилам, которая получила распространение в связи с появлением возможностей манипулирования речевым сигналом в оцифрованной форме. В зависимости от размера исходных элементов синтеза выделяются следующие его виды: микросегментный (микроволновый), аллофонический, дифонный, полуслоговый, слоговый, синтез из единиц произвольного размера. Однако технологии синтеза речи далеки от совершенства и имеют весьма существенные недостатки, такие как: а) искусственность речи; б) отсутствие эмоциональной нагрузки; в) низкая помехоустойчивость синтезированной речи. В основе технологии синтеза речи используется заранее записанная фонетическая база и слова формируются с помощью статистического расчёта по принципу максимального правдоподобия фонетической сочетаемости, а пробелы и недочеты заполняет человеческий мозг. Т.е. достаточно качественный синтезатор с хорошо подобранной фонетической базой будет прекрасно восприниматься на слух в течение 15 - 20 минут, но потом абсолютное большинство людей перестаёт воспринимать смысл того, что произносится. Следующей проблемой является отсутствие эмоциональной нагрузки - личного восприятия произносимого текста читателем. Самые передовые современных программ пытаются имитировать интонацию путем модуляции тембра, длительности фонем и пауз. Для решения этой задачи требуются методы из области теории искусственного интеллекта для "извлечения смысла" из воспроизводимого текста. Поэтому такие синтезаторы должны строиться с учётом результатов междисциплинарных исследований Третья проблема - низкая помехоустойчивость синтезированной речи. Как показали и показывают эксперименты, достаточно лишь небольшого шума, чтобы слушатель перестал воспринимать смысл текста, произносимого синтезатором. Эффект помех существенно ограничивает возможности применения синтезатора в реальных условиях техногенных и природных шумов. 8. Программы обработки звучащей речи и голосового управления компьютером. Под речевыми технологиями в компьютерном мире подразумевают целый конгломерат программных и аппаратных средств, позволяющих осуществлять прежде всего синтез и распознавание человеческой речи (о нечеловеческой речи говорить пока рано), а также разрабатывать средства, позволяющие создавать системы обработки речи (т.е. инструментарий разработчика). Синтез речи, в аспекте адаптации незрячих и слабовидящих пользователей компьютеров, является наиболее важной из всех задач обработки речи. За долгие годы четко определились области, в которых наиболее сильны позиции профессиональных лингвистов. Это лексико-грамматический анализ предложения, синтаксический анализ предложения, нахождение имен собственных в тексте и автоматическое реферирование. Задача лексико-грамматического анализа - автоматически распознать, какой части речи принадлежит каждое слово тексте. Под синтезом речи следует понимать такое звуковое представление какой-либо информации, которое воспринимается человеком как речь. Для людей, у которых речь является основным каналом получения информации, очень важны качественные характеристики синтезируемой речи. Синтезатор с неудовлетворительным качеством речи (например, чересчур механический голос, отсутствие интонационных пауз, ошибки в распознавании омонимов) может вызывать утомление, влиять на работоспособность, снижать внимание и качество восприятия информации. Под распознаванием речи, как правило, понимают задачу преобразования устной речи в письменный ее эквивалент, т.е. в текст. Текстовая информация более доступна для компьютерной обработки. Однако в более широком смысле распознавание речи подразумевает определение ее смыслового содержания (не стоит путать распознавание речи с задачей идентификации личности по голосу, так как это различные задачи, хотя и имеющие некоторые точки соприкосновения). С распознаванием речи тесно связана задача управления техническими средствами при помощи голоса (голосовой набор телефонного номера, включение и выключение бытовых электроприборов, голосовое управление компьютером). У распознавания речи тоже весьма большой потенциал в плане адаптационных возможностей, которые могут быть предоставлены людям с ограничением здоровья. Общий принцип организации программ экранного доступа предполагает, что одним из элементов такой программы будет модуль синтеза речи, на который и возлагается основная работа по информированию пользователя о том, что происходит на экране монитора. По большому счету, модуль синтеза речи является неотъемлемым элементом любой программы, осуществляющей взаимодействие с незрячим или слабовидящим пользователем. На сегодняшний день одним из популярнейших программных продуктов, позволяющих снабдить приложения необходимыми средствами речевого ввода и вывода является Microsoft Speech Api. Microsoft SAPI™ SDK Microsoft SAPI™ - это программный продукт, созданный фирмой Microsoft специально для работы с речью. SAPI - это сокращение английского словосочетания speech application programming interface, которое подразумевает, что указанный программный продукт предоставляет интерфейсные функции (в данном случае для речевого ввода и вывода) другим приложениям. Microsoft, оформила SAPI в виде набора COM интерфейсов. Однако наличие на компьютере одного только Microsoft SAPI™ (в операционную систему Microsoft Windows Xp этот компонент входит как элемент операционной системы) является необходимым, но недостаточным условием того, чтобы компьютер начал синтезировать или распознавать речь. Системы, взаимодействующие с человеком при помощи речи, считаются весьма перспективным направлением компьютерной индустрии, а само это направление является престижным. Программа для голосового управления компьютером для голосового управления компьютером распознавания речи «Горыныч ПРОФ 5.0», совместимая с новейшими версиями операционных систем. Разработанная российской компанией VoiceLock, эта программа объединила в себе последние достижения в области обработки звучащей речи и успешно справляется с задачей перевода устной речи в текстовые редакторы. Программа использует оригинальное ядро, полностью основанное на российских разработках. Вывод текста может производиться в любые текстовые редакторы, а также в иные программы, независимо от их производителя. Кроме этого, имеется возможность управлять голосом отдельными функциями операционных систем Microsoft Windows 2000/XP. Программа распознает русскую и английскую речь. С помощью программы можно голосом задавать команды компьютеру, а также диктовать текстовые документы, которые с помощью данной преобразуются в текстовый вид, пригодный для ввода в любой редактор под Windows. После настройки микрофона и небольшой тренировке компьютер способен вводить тексты со скоростью от 600 до 1000 знаков в минуту, что в несколько раз превосходит скорость любой профессиональной машинистки. При этом в ваших текстах исключены орфографические ошибки, что практически недостижимо при использовании машинистки. Программа также может использоваться для речевого ввода команд (например, открытия и закрытия файла, копирования и т.д.). Особенности продукта. Совместимость с самыми новыми версиями операционных систем. Простой и удобный интерфейс. Быстрая и легкая настройка микрофона. Возможность пополнения словаря. Тренировка слов непосредственно в процессе диктовки 9. Автоматическое распознавание текста. Ввод печатного текста в компьютер. Достаточно отсканировать его или сфотографировать, и обработать специальной программой - распознавателем текста. Системы распознавания текста или OCR - системы (Optical Character Recognition) предназначены для автоматического ввода документов в компьютер. OCR-системы распознают текст и различные его элементы (картинки, таблицы) с электронного изображения. Изображение получается обычно путем сканирования документа и реже - его фотографированием. Алгоритм OCR-программы: выделяются области текста, изображений, таблиц, отделяется мусор от нужных данных. На следующем этапе каждый символ сравнивается со специальным словарем символов, и если находится соответствие, то этот символ считается распознанным. Современные OCR-системы представляют собой достаточно сложные программные решения. Кроме того, современные OCR-системы позволяют также получить копию печатного документа в электронном виде с сохранением форматирования, стилей, размеров текста и видов шрифтов и т.д. Система распознавания текста ABBYY FineReader - это многофункциональная программа для перевода бумажных документов, pdf-файлов, фотографий в редактируемые форматы. Эта версия известной программы для распознавания текста специально предназначена для домашнего пользователя, простая и удобная в использовании. В ней отсутствуют лишние функции и сложные настройки, а интерфейс рассчитан даже на неподготовленного пользователя. 10. Автоматическое аннотирование и реферирование текста. Понятие автоматического аннотирования и реферирования текста. Виды рефератов. Примеры систем автоматического аннотирования. Реферат - связный текст, кратко выражающий не только центральную тему документа, но и цель, методы, основные результаты описанного исследования или разработки. Аннотация - краткое изложение содержания документа с общим представлением о его теме. Машинный реферат - последовательность предложений исходного текста либо таблица, в ячейках которой ключевые слова или словосочетания (первый машинный реферат был сделан в 1958 году). Этапы построения реферата человеком. 1) Подготовительный (чтение текста и осмысление документа в целом); 2) Аналитический (референт выделяет основные смысловые единицы (предложения, слова, словосочетания), строит план реферата); 3) Этап непосредственного построения реферата (выделенные ранее единицы располагаются в единый вторичный текст в соответствии с планом). В качестве смысловых единиц реферата могут быть. 1) Полное (без изменений) ключевое предложение исходного текста; 2) Перефразированное ключевое предложение; 3) Предложение из ключевых слов и словосочетаний; 4) Предложение, обобщающее несколько предложений исходного текста. Смысловые единицы аннотации: 1) Ключевые слова или словосочетания исходного текста с предшествующими им специальными словами - реляторами («тема состоит в том, что» и проч.); 2) Специальные предложения исходного текста, содержащие элементы («рассматривается важная проблема» и проч.) ПК должен уметь. 1) Находить в тексте ключевые слова, словосочетания, предложения; 2) Находить в тексте менее значимые единицы; 3) Составлять из текстовых единиц смысловые единицы реферата \аннотации. Методы автоматического реферирования. 1) Статистический: в данном методе ключевое слово - это знаменательное слово текста, которое с учётом синонимов встретилось в тексте наибольшее число раз. А) Составить алгоритм, позволяющий получить: - аннотацию текста в виде слов-реляторов со следующими за ними ключевыми словосочетаниями текста - ключевыми существительными со стоящими перед ними определениями, выраженными прилагательными или причастиями; - словесный реферат текста в виде последовательной цепочки ключевых предложений - предложений, содержащих три и более ключевых слова; - словоупотребление - цепочка символов, заключённых между двумя пробелами; - словоформа - словоупотребление вне текста. Несколько словоформ, имеющих одно и то же лексическое значение, образуют слово. Б) Алгоритм решения задачи: - ПК по каждому абзацу составляет алфавитно-частотный словарь словоформ; - все словари объединяются в единый распределительный алфавитно-частотный словарь всего текста. Система «чистит» словарь, сжимая его до словаря потенциальных ключевых слов: удаляется служебная и общепринятая лексика; объединяются грамматические формы одного и того же слова; объединяются синонимы; удаляются слова, встреченные только в одном абзаце. Словарь потенциальных опорных слов делится (с помощью Кважн) на словарь главных опорных слов; словарь второстепенных опорных слов. Строится аннотация, составленная из слов-реляторов со следующими за ними ключевыми словосочетаниями, состоящими из главного опорного слова и определения. 2) Позиционные: основным критерием этих методов является место или позиция предложения в тексте: а) метод заглавия (основное содержание текста выражается текстом заголовка) - составляет словарь ключевых слов на основе заголовков\подзаголовков; б) метод локализации (работает на текстах узкой тематики) - идея в том, что в таких текстах предложения о цели и результатах занимают фиксированное место. 3) Логико-семантические: исследуют структуру и семантику текста: а) ключевое предложение - предложение с наибольшей функцией весомости влияют различные факторы: связь с левым и правым окружением; наличие в предложении семантически значимых слов; выделение текста шрифтом и т.д. Каждый метод имеет достоинства и недостатки, используются комбинированно. Данные методы относятся к направлению квазиреферирования, основаны на выделении из текстов наиболее информативных предложений, передающих основной смысл документа. Текст, полученный путём соединения отрывочных фрагментов, лишён гладкости. Сегодня появились методы второго направления на выделение из текстов наиболее информативной информации и создания с помощью неё новых текстов. Такое реферирование приближается к интеллектуальному реферированию. Данные системы работают сразу с несколькими источниками, а также способны работать с видео. 11. Автоматический анализ и синтез текста. Графематический анализ (ГрафАн) – это программа начального анализа естественного текста, представленного в виде цепочки ASCII символов, вырабатывающая информацию, необходимую для дальнейшей обработки Морфологическим и Синтаксическим процессорами. В задачу графематического анализа входят: разделение входного текста на слова, разделители и т.д.; сборка слов, написанных в разрядку; выделение устойчивых оборотов, не имеющих словоизменительных вариантов; выделение ФИО (фамилия, имя, отчество), когда имя и отчество написаны инициалами; выделение электронных адресов и имен файлов; выделение предложений из входного текста; выделение абзацев, заголовков, примечаний. Понятие токенизации, парсера. Лексер (токенизатор, сегментатор) - это часть анализатора текста на естественном языке. В более широком смысле лексер также участвует в анализе устной речи. Задача лексера - выделить в письменной или устрой речи основные структурные единицы - лексемы и распознать их, сопоставив со словарными формами или другими морфологическими образцами. Письменная речь может быть представлена печатным текстом (цепочки символов) или графически (отсканированный текст). Лексер разработан для обработки реальных текстов, содержащих различные грамматические ошибки и опечатки. Поэтому кроме пассивного распознавания слов в исходной цепочке лексер может также активно модифицировать исходную цепочку, сливая и расщепляя лексемы, а также добавляя новые - см. подробнее об этом в разделах о правилах переписывания токенов и коррекции ошибок. В результате работы лексера получается сложная структура данных - граф токенизации, который мы в подробностях рассмотрим далее. Граф токенизации является исходным материалом для работы синтаксического парсера. Лексер может использоваться прикладным пользовательским кодом либо явно с помощью вызова функции sol_Tokenize в процедурном API или неявно, при вызове полнотекстового анализа, например sol_MorphologyAnalysis. Обратите внимание, что при вызове лексера через функцию sol_Tokenize результаты отдаются в упрощенном виде, как одна из цепочек токенов в графе, обычно самая короткая. Лексер появляется в системе обработки текста в результате декомпозиции задачи парсинга. Он упрощает реализацию морфологического и синтаксического анализаторов, так как позволяет им работать с более крупными единицами - лексемами. Вводимое таким способом упрощение неявно ограничивает общность всей системы, так как сама по себе идея разбивки текста на независимые лексемы сочетается не со всеми языками. Более того, даже для языков с естественным выделением слов на письме в звуковом представлении появляются сложные эффекты слияния слов в более крупные единицы. В языках типа французского это даже находит свое отражение на письме в виде слияния артиклей и предлогов с другими словами. Формальная грамматика. Формальная грамматика или просто грамматика в теории формальных языков - способ описания формального языка, то есть выделения некоторого подмножества из множества всех слов некоторого конечного алфавита. Различают порождающие и распознающие (или аналитические) грамматики - первые задают правила, с помощью которых можно построить любое слово языка, а вторые позволяют по данному слову определить, входит оно в язык или нет. Машинная основа, машинное окончание. Автоматический синтез текста. Автоматический синтез текста (АС), операция, в которой по заданной грамматической и семантической информации строится содержащий эту информацию текст на естественном языке; операция выполняется по некоторому алгоритму в соответствии с заранее разработанным описанием данного языка. Обратная операция называется автоматическим анализом текста. АС подразделяется на три этапа: 1) семантический - переход от смысловой записи фразы к её синтаксической структуре; 2) синтаксический - переход от синтаксической структуры фразы к представляющей фразу цепочке лексико-грамматических характеристик словоформ; 3) лексико-морфологический - переход от лексико-грамматической характеристики к реальной словоформе. АС - необходимый этап в разных видах автоматической обработки текстов, в частности при машинном переводе. АС следует отличать от автоматического порождения текстов, при котором строятся произвольные правильные тексты безотносительно к какому бы то ни было предварительному смысловому заданию ПРИКЛАДНЫЕ РАЗДЕЛЫ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ 12. Корпусная лингвистика. Ко́рпусная лингви́стика – раздел языкознания, занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов. Термин введён в употребление в 60-х годах XX века в связи с развитием практики создания корпусов, которому начиная с 80-х способствовало развитие вычислительной техники. Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов). Целесообразность создания текстовых корпусов объясняется: представлением лингвистических данных в реальном контексте; достаточно большой представительностью данных (при большом объёме корпуса); возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач, таких, как например, реализация графематического и лексико-грамматического анализа текста и др. Первым большим компьютерным корпусом считается Брауновский корпус (БК, англ. Brown Corpus, BC), который был создан в 1960-е годы в Университете Брауна и содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году. В результате он задал стандарт в 1 млн. словоупотреблений для создания представительных корпусов на других языках. По модели близкой к БК в 1970-е годы был создан частотный словарь русского языка Засориной, построенный на основе корпуса текстов объёмом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в 1980-е годы в Университете Уппсалы, Швеция. Размер в один миллион слов достаточен для лексикографического описания только самых частотных слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий). Так, каждое из таких обыденных слов, как англ. Polite (вежливый) или англ. Sunshine (солнечный свет) встречается в БК всего 7 раз, выражение англ. polite letter лишь один раз, а такие устойчивые выражения как англ. polite conversation, smile, request ни разу. По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими объёмами текстов, в 1980-е годы в мире было предпринято несколько попыток создать корпуса большего размера. В Великобритании такими проектами были Банк Английского (Bank of English) в Бирмингемском Университете и Британский Национальный Корпус (British National Corpus, BNC). В СССР таким проектом был Машинный фонд русского языка, создававшийся по инициативе А.П. Ершова. 13. Компьютерная лексикография. Понятие компьютерной лексикографии. Электронный словарь. Состав словарной статьи. Компью́терная лексикогра́фия - прикладная научная дисциплина в языкознании, которая изучает методы использования компьютерной техники для составления словарей. Это - временная дисциплина периода перехода от ручной и рукописной лексикографической практики к новым безбумажным информационным технологиям. В рамках компьютерной лексикографии разрабатываются компьютерные технологии составления и эксплуатации словарей. Специальные программы - базы данных, компьютерные картотеки, программы обработки текста - позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать её. Множество различных компьютерных лексикографических программ разделяются на две больших группы: программы поддержки лексикографических работ и автоматические словари различных типов, включающие лексикографические базы данных. Словарная статья - основная структурная единица любого словаря. Словарная статья состоит из: заглавной единицы; текста, разъясняющего заголовочную единицу и описывающего её основные характеристики. 14. Электронный словарь. Электронные словари (ЭС) - аналоги традиционных «книжных» версий, электронные информационные ресурсы, которые являются программными продуктами. Электронные словари включают текстовые базы данных (общая лексика, отрасли знаний, перевод) и медиаобъекты (графика, видео, анимация, музыка). Классификация электронных словарей строится на основе следующих критериев - принадлежность к операционной системе. Простые ЭС (с одной базой данных) работают под управлением операционной системы МS-DOS 2.21, MS-DOS 3.30, используются на IBM-совместимых ПК. К этому типу словарей относится программная утилита DIC, которая имеет одну базу данных. Сложные ЭС (с двумя и более базами данных) работают под управлением операционных систем Windows, Unix, Linux, эксплуатируются на ПК класса мощности AT-486 DX и более. В данную группу словарей включены программные продукты LINGVO, ECTACO, Context, Мультилекс и т.п. Механизм загрузки. Нерезидентные ЭС имеют программную организацию с подстрочной структурой. Режим работы осуществляется в собственной среде. Данные из других программных оболочек (пакет MS-Office, Outlook, WordPad, блокнот) передаются в ЭС в виде «пакетов» информации. Резидентные ЭС работают по типу фонового присутствия в оперативной памяти ПК. Программа ЭС включается до начала работы в любом из приложений MS-Office и вызывается при наведении курсора на слово или комбинацией «горячих клавиш». Режим перевода. Автоматические пакетные ЭС предназначены для работы с текстовыми файлами и группами файлов, которые копируются пользователем и загружаются в программу. В результате прямого официального перевода ЭС выводит иностранные слова с указанием в скобках русскоязычного варианта или знака «?» для языковых конструкций, не имеющихся в базе данных. Время работы программы определяется объемом текстового файла. Интерактивные ЭС работают с фрагментами текстовых файлов или единичными словами. Пользователь выделяет иностранные/русскоязычные слова в любом из приложений MS-Office и нажимает комбинацию «горячих клавиш». Исходное словосочетание или фрагмент текста меняется на официальный перевод в рабочем окне Windows. Время работы программы составляет миллисекунды. 15. Компьютерная терминография. Понятие компьютерной терминографии - Это наука о составлении словарей терминов. Современные компьютерные технологии позволяют разработать терминологические банки данных. Это понятие более высокого порядка, чем базы данных. Существуют следующие типы терминологических банков/баз данных: - переводческие, т.е. ориентированные на перевод научно-технической терминологии; - информационно-нормативные, т.е. определяющие стандарты использования научно-технической терминологии. В России крупнейшие ТБД находятся во Всероссийском научно-исследовательском институте комплексной информации по стандартизации и качеству; в мире - у фирмы Siemens (более 2,5 млн. терминологических записей на 8 языках мира). Терминологические банки данных - это автоматизированная система инвентаризации и машинного представления терминологической лексики и ее семантизации в системах машинного и человеко-машинного речевого общения. Это единая служба с удобным доступом, описывающая все сведения о термине и ликвидирующая неравномерность описания терминологии. Научные задачи: моделирование терминологической системы РЯ как системы подсистем; построение общенаучных и общетеоретических тезаурусов; исследование русской терминологии. Типы традиционного использования ТБД: справочно-информационное обслуживание специалистов различных областей знания; обеспечение традиционного перевода научно-технической литературы; обеспечение АСОТ, включая системы машинного перевода; лингвистическое обеспечение автоматических систем информации; обеспечение работ по упорядочению терминологии; подготовка и издание терминологических словарей; унификация определенных терминов; подготовка научных отчетов о составе РЯ. |
Учебно-методический комплекс дисциплина: квантитативная лингвистика... Программа дисциплины «квантитативная лингвистика и новые информационные технологии» 4 |
Учебно-методический комплекс дисциплины «информационные технологии управления» Учебно-методический комплекс составлен в соответствии с требованиями государственного стандарта высшего профессионального образования... |
||
Учебно-методический комплекс дисциплины «информационные технологии... Учебно-методический комплекс составлен в соответствии с требованиями государственного образовательного стандарта высшего профессионального... |
Учебно-методический комплекс дисциплины «Информационные технологии... Учебно-методический комплекс составлен в соответствии с требованиями федерального государственного образовательного стандарта высшего... |
||
Учебно-методический комплекс дисциплины «Информационные технологии... Учебно-методический комплекс составлен в соответствии с требованиями федерального государственного образовательного стандарта высшего... |
Учебно-методический комплекс дисциплины «Информационные технологии... Учебно-методический комплекс составлен в соответствии с требованиями федерального государственного образовательного стандарта высшего... |
||
Учебно-методический комплекс по дисциплине сд. 08 Информационные... Учебно-методический комплекс по дисциплине «Информационные технологии в профессиональной деятельности» составлен в соответствии с... |
Учебно-методический комплекс дисциплины «информационные технологии рынка ценных бумаг» Учебно-методический комплекс составлен в соответствии с требованиями Государственного образовательного стандарта высшего профессионального... |
||
Учебно-методический комплекс дисциплины «информационные системы в экономике» Учебно-методический комплекс составлен в соответствии с требованиями государственного образовательного стандарта высшего профессионального... |
Учебно-методический комплекс составлен на основании требований государственного... Учебно-методический комплекс дисциплины обсуждена на заседании кафедры Информационные системы управления «29» июня 2011 г |
||
Учебно-методический комплекс дисциплины «Информационные технологии» Контрольный экземпляр находится на кафедре бизнес-информатики и экономико-математических методов |
«информационные технологии в профессиональной деятельности: учебно-методический комплекс» Государственное автономное профессиональное образовательное учреждение чистопольский сельскохозяйственный техникум |
||
Учебно-методический комплекс специальные технологии для специальности:... О 26 Специальные технологии: учебно-методический комплекс / Л. К. Обухова. – Елабуга: Изд-во егпу, 2009. – 51 с |
Учебно-методический комплекс дисциплины «компьютерные технологии в науке и технике» Учебно-методический комплекс составлен на основании требований федерального государственного образовательного стандарта высшего профессионального... |
||
Учебно-методический комплекс дисциплины «Компьютерные технологии» Учебно-методический комплекс составлен в соответствии с требованиями федерального государственного стандарта высшего профессионального... |
Учебно-методический комплекс дисциплины опд. Ф. 7 Информационные... ... |
Поиск |