Скачать 0.71 Mb.
|
Санкт-Петербургский государственный университет Кафедра математической лингвистики Направление: «Лингвистика» Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования Выпускная квалификационная работа соискателя на степень магистра филологии Букия Григория Теймуразовича Научный руководитель к.ф.н., доц. Митрофанова О.А. Рецензент: Тарелкин А.В., руководитель группы инструментов оценки качества, «Яндекс» Санкт-Петербург 2016 ВведениеВ последние годы электронные корпуса становятся всё объемнее и разнообразнее, а количество информации в интернете увеличивается в геометрической прогрессии. Такой объем данных зачастую не поддается ручной обработке. Возникает естественная задача автоматически упорядочить коллекцию, объединяя в одну группу тематически близкие документы. Стандартные методы кластеризации, решающие данную задачу, не позволяют, однако же, определить тему той или иной группы. Если определять тему вручную, можно столкнуться с рядом проблем. Во-первых, для этого потребуется прочитать несколько документов из каждой группы – это далеко не всегда удобно. Во-вторых, очень часто автоматическая классификация, учитывающая внутренние свойства документов, не вполне согласуется с классификацией, выполненной человеком. Поэтому в качестве меток для каждого класса удобно использовать ключевые слова или выражения, характерные именно для соответствующего класса. Цель данной работы – решение задачи автоматической кластеризации новостных документов и расстановка списка тематических меток для каждого класса. В качестве тематических меток выделяются не только ключевые слова, но и биграммные конструкции, при этом учитывается степень связи элементов каждой биграммы. Традиционные методы выделения тематических меток словам, отвечающим сразу нескольким классам ставят меньший вес, чем словам, характерным исключительно для данного класса. Для новостных документов это не вполне отвечает интуитивному представлению иерархии ключевых слов: такие темы, как война в Сирии, должны, как нам кажется, иметь больший вес, поскольку задают контекст всего документа или кластера. Поэтому в работе предлагается новый, двухэтапный подход к составлению списка тематических меток. Работа состоит из трех глав в соответствии с решаемыми задачами. Первая глава посвящена кластеризации. В ней определяются понятия классификации и кластеризации, описываются наиболее используемые методы кластерного анализа и предлагаются различные метрики для оценки качества кластеризации. В последнем разделе дается общий обзор применения методов кластеризации в лингвистических задачах. Вторая глава описывает лингвистический контекст нашего исследования – грамматику конструкций. Это молодая отрасль науки, изучающая сложным образом организованные объекты языка, функционирующие как единое целое, и возникающие в ходе взаимодействия и взаимопроникновения явлений морфологического, синтаксического, семантического и других уровней языка. Теория, развитая в работах А. Стефановича и Ст. Гриса, используется в данной работе при извлечении осмысленных биграммых меток. В следующих разделах главы обозреваются научные работы в области проставления тематических меток и выделения ключевых слов. Третья глава содержит эксперимент, соответствующий поставленной цели. Эксперимент проводится в несколько этапов. На первом этапе производится разделение документов на два кластера. На втором этапе выделяются ключевые слова, характерные для каждого кластера. На третьем этапе полученные списки ключевых слов расширяются биграммными конструкциями, и полученные конструкции оцениваются по степени тематической направленности. На четвертом этапе после повторной кластеризации небольшим группам документов проставляются тематические метки. Для кластеризации документов используются методы, реализованные в библиотеке Scikit-learn языка Python. В ходе работы была написана программа, реализующая описанные эксперименты. Мы использовали наиболее популярные статистические критерии, необходимые для выделения ключевых слов и конструкций, описанные в монографии А.И. Кобзаря «Прикладная и математическая статистика». Результаты, полученные в ходе выполнения данной работы, могут найти свое применение при разработке новостных порталов. Главная идея и отличительная особенность данной работы – двухэтапная кластеризация для выделения ключевых слов – основывается на идее условного разделения документов на два класса: «серьезные» и «несерьезные», лексика которых существенно отличается. Такое условие характерно именно для новостных корпусов. Приступая к решению поставленных задач, отметим неоценимую помощь, оказанную доцентом кафедры математической лингвистики О.А. Митрофановой, при подготовке данной работы. |
Образовательная программа: «Прикладная и экспериментальная лингвистика»... Задачи и методы их решения, общие для корпусной лингвистики, машинного перевода и компьютерной лексикографии 8 |
Программа дисциплины «Корпусная лингвистика и компьютерные инструменты»... Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 45. 03. 03 «Фундаментальная... |
||
Программа дисциплины является частью основной образовательной программы... «Лингвистика» профиль 45. 03. 02. 02 «Перевод и переводоведение» в соответствии с фгос впо по направлению подготовки 45. 03. 02 «Лингвистика»... |
Программа дисциплины Теоретическая и прикладная лексикография для... Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и бакалавров направления подготовки 035800.... |
||
Правительство Российской Федерации Нижегородский филиал Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 45. 03. 03 «Фундаментальная... |
Образовательная программа "Прикладная лингвистика" Современные тенденции изменения датской произносительной нормы на примере гласного «шва» |
||
Учебно-методический комплекс дисциплина: квантитативная лингвистика... Программа дисциплины «квантитативная лингвистика и новые информационные технологии» 4 |
Паспорт программы дисциплины Область применения программы рабочая... Лингвистика профиль (45. 03. 02. 02 Перевод и переводоведение) в соответствии с фгос впо по направлению подготовки 45. 03. 02 лингвистика... |
||
Программа дисциплины «Литература стран изучаемого языка» для направления... Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов, обучающихся по направлению... |
Программа научно-исследовательской практики (2 курс) Направление... |
||
Программа практики (производственной) по направлению 031100. 62 «Лингвистика» Программа практики (производственной), для студентов, обучающихся по направлению 031100. 62 «Лингвистика». М.: Ноу впо мгта, 2012.... |
Программа дисциплины «Компьютерные инструменты лингвистических исследований» Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и бакалавров направления подготовки 035800.... |
||
Программа практики учебно-производственная практика направление подготовки 035700 «Лингвистика» Профиль подготовки «Теория и методика преподавания иностранных языков и культур» и «Перевод и переводоведение» |
В. П. Захаров Корпусная лингвистика Оно включает также программу учебной дисциплины «Корпусная лингвистика», которая изучается студентами отделения структурной и прикладной... |
||
Основная образовательная программа магистратуры по направлению подготовки... Федеральное государственное бюджетное образовательное учреждение высшего образования |
Основная образовательная программа бакалавриата по направлению подготовки... Федеральное государственное бюджетное образовательное учреждение высшего образования |
Поиск |