Скачать 251.01 Kb.
|
Правительство Российской Федерации Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Национальный исследовательский университет «Высшая школа экономики» Факультет БИЗНЕС-ИНФОРМАТИКИ Отделение ПРИКЛАДНОЙ МАТЕМАТИКИ И ИНФОРМАТИКИ Программа дисциплины Системы разработки данных и машинного обучения для направления 010500.62 «Прикладная математика и информатика» подготовки бакалавров Автор Игнатов Д.И. (dignatov@hse.ru)
Москва Тематический план учебной дисциплины
--------------------------------------------------------------------------------------------------------------------------------------------------------- Базовый учебник (и) или ридер (ы) Барсегян, А. А., Куприянов М.С., Степаненко В.В., Холод А.А., Методы и модели анализа данных: OLAP и Data Mining. БХВ-Петербург, 2004. - 336 с. --------------------------------------------------------------------------------------------------------------------------------------------------------- Формы контроля:
Перед выполнением лабораторной работы студент отвечает на вопросы и выполняет задания допуска к практикуму (простые модельные расчеты, выполняемые вручную). Итоговая оценка, выставляемая по 10 балльной шкале, складывается из нескольких компонент: 1) ответ студента во время допуска к работе – 10%; 2) учебно-аналитический отчет о выполнении работы студентом, содержащий, как минимум, три нетривиальных вывода и подробный протокол проведения экспериментов – 40%; 3) контрольная работа – 20% 4) защита студентом выполненной лабораторной работы на зачете – 30%. Для пункта 1) оценивается уровень понимания студентом выбранной модели или метода, правильность расчетов для учебного примера вручную. В пункте 2) оценивается соблюдений формальных требований к отчету, правильность выполнения работы (обработка данных, спецификация модели, оценка качества результатов и т.п.), адекватность и значимость выводов, приемлемость предлагаемой интерпретации результатов (пункт 2 не требует непосредственного взаимодействия со студентом). Для пункта 4) характерна проверка знаний студентов по материалам предоставленных ими отчетов с учетом замечаний и ошибок, выявленных преподавателем ранее. Вопросы для пункта 4 приближены по уровню к устному экзамену. Содержание программы Тема 1. Введение в разработку данных и машинное обучение. Вопросы лекционной части курса Машинное обучение и разработка данных: основные задачи и методы, история возникновения. Основная литература
Дополнительная литература
Тема 2. Исследование объектно-признаковых данных с помощью программных средств анализа формальных понятий (АФП) Вопросы лекционной части курса Частичные порядки и решетки. Диаграммы порядка. Объектно-признаковые данные и формальные контексты. Операторы Галуа. Решетки формальных понятий. Признаковые импликации. Вопросы практической части курса Concept Explorer – программная система анализа данных на основе АФП. Основная литература
Дополнительная литература
Тема 3. Поиск ассоциативных правил и частых (замкнутых) множеств признаков Вопросы лекционной части курса Задача анализа данных о покупках и её роль в разработке данных. Частые (замкнутые) множества признаков (ЧМП). Ассоциативные правила (АП). Меры «интересности» АП: поддержка и достоверность. Алгоритм Априори. Связь ЧЗМП с решетками формальных понятий. Импликации в АФП как ассоциативные правила. Вопросы практической части курса Coron – система поиска частых множеств признаков и ассоциативных правил. Основная литература
Тема 4. Деревья решений. Вопросы лекционной части курса Задача классификации в контексте машинного обучения. Деревья решений. Информационная энтропия и прирост информации. Алгоритмы ID3 и С4.5. Критерии остановки и отсечения. Меры и методы оценки качества обучения (скользящий контроль). Вопросы практической части курса Системы машинного обучения WEKA и Orange и ее средства для работы с деревьями решений. Средства оценки качества классификации в этих системах. Основная литература
Дополнительная литература
Тема 5. Задачи кластеризации Вопросы лекционной части курса Задача кластеризации. Определение меры расстояния между объектами (Евклидова, Минковского, Махаланобиса). Иерархические агломеративные методы группировки («ближнего соседа», «дальнего соседа», средней связи, центроидный). Метод k-средних. Спектральная кластеризация. Индексы качества кластеризации. Вопросы практической части курса Методы кластеризации в системах Weka и Orange. Спектральная кластеризация средствами пакета MatLab и библиотеки NumPy для языка Python. Основная литература
Дополнительная литература
Тема 6. Неточные множества Вопросы лекционной части курса Понятие информационной системы и отношения неразличимости. Приближенные множества: верхнее и нижнее приближение, граничная область. Неточные множества (Rough Sets). Редукты и таблицы решений. Признаковые зависимости. Вопросы практической части курса Rough Set Exploration System (RSES) – программная система для исследования объектно-признаковых данных на основе неточных множеств. Основная литература
Дополнительная литература
Тема 7. ДСМ-метод в системе QUDA Вопросы лекционной части курса Метод сходств и различий по Дж. С. Миллю. ДСМ-метод как индуктивный метод машинного обучения. ДСМ-метод в терминах решеток формальных понятий. Вопросы практической части курса QUDA – система разработки данных и машинного обучения. ДСМ-метод в системе QUDA. Основная литература
Дополнительная литература
Тема 8. Наивная байесовская классификация (Naive Bayes Classifier) Вопросы лекционной части курса Условная вероятность и формула Байеса. Наивная байесовская классификация. Задачи фильтрации спама и классификации (категоризации) текстов. Вопросы практической части курса Наивная байесовская классификация в системе Orange. Реализация наивная байесовской классификации на языке Python.. Основная литература
Дополнительная литература
--------------------------------------------------------------------------------------------------------------------------------------------------------- Тематика заданий по различным формам текущего контроля: Лабораторные работы по курсу Лабораторная работа №1. Исследование объектно-признаковых данных с помощью программных средств Анализа Формальных Понятий. Лабораторная работа №2. Поиск ассоциативных правил и частых (замкнутых) множеств признаков. Лабораторная работа №3. Деревья решений. Лабораторная работа №4. Задачи кластеризации: иерархическая кластеризация; метод k-средних; спектральная кластеризация. Лабораторная работа №5. Неточные множества (Rough Sets). Лабораторная работа №6. ДСМ-метод в системе QuDa. Лабораторная работа №7. Наивная байесовская классификация (Naive Bayes Classifier). --------------------------------------------------------------------------------------------------------------------------------------------------------- Вопросы для оценки качества освоения дисциплины Примеры вопросов и расчетных задач для допуска к выполнению лабораторных работ. Задачи
а) найдите множество формальных понятий; б) постройте диаграмму решётки формальных понятий; в) приведите примеры трех нетривиальных импликаций.
B1 = {«Температура», «Влажность»} B2 = {« Облачность», «Ветер»}
Вопросы
Примеры заданий для контрольной работы.
Вопросы к зачету
--------------------------------------------------------------------------------------------------------------------------------------------------------- Автор программы: _____________________________/ Игнатов Дмитрий Игоревич/ Приложение 1 Методические материалы преподавателю и студентам: Практическая часть курса организована в виде лабораторного практикума, состоящего из 7 лабораторных работ. Каждая лабораторная работа имеет типовую структуру. Лабораторная работа №1 Исследование объектно-признаковых данных с помощью программных средств Анализа Формальных Понятий Цель работы: Необходимое программное обеспечение: Теоретические сведения Краткое описание ПО Вопросы для допуска к работе Задания для модельных расчетов Задания для выполнения работы Требования к отчету Контрольные вопросы Основная литература Дополнительная литература Успешное выполнение лабораторной работы предполагает написание студентом типового отчета. Отчет обязан содержать следующие элементы: 1. Титульный лист с указанием ФИО и номера группы, номера лабораторной работы. 2. Цель работы. 3. Ход работы с описанием выполнения лабораторной работы по заданиям. Необходимо включать таблицы результатов, промежуточные выводы и графики. 4. Выводы. Как минимум работа должна содержать три нетривиальных вывода. Отчет о выполнении лабораторной работы проверяется преподавателем и предполагает его защиту в устной или письменной форме с выставлением оценки по 10 балльной шкале. Оценки затем суммируются и усредняются по всем запланированным к выполнению лабораторным работам. Необходимое для выполнения работ программное обеспечение, как правило, находится в свободном доступе и его можно загрузить в сети Интернет или скопировать с диска, прилагающегося к курсу. В лабораторных работах курса используются следующие открытые программные системы:
Дополнительно к каждой из тем прилагаются слайды лекций, изложение которых адаптировано с учетом используемых программных пакетов. |
Программа дисциплины «Сценарный трейдинг» Правительство Российской... Федеральное государственное автономное образовательное учреждение высшего профессионального образования |
Правительство Российской Федерации Федеральное государственное автономное... Федеральное государственное автономное образовательное учреждение высшего профессионального образования |
||
Правительство Российской Федерации Федеральное государственное автономное... Федеральное государственное автономное образовательное учреждение высшего профессионального образования |
Правительство Российской Федерации Федеральное государственное автономное... Федеральное государственное автономное образовательное учреждение высшего профессионального образования |
||
Правительство Российской Федерации Федеральное государственное автономное... Федеральное государственное автономное образовательное учреждение высшего профессионального образования |
Правительство Российской Федерации Федеральное государственное автономное... Федеральное государственное автономное образовательное учреждение высшего профессионального образования |
||
Правительство Российской Федерации Федеральное государственное автономное... Федеральное государственное автономное образовательное учреждение высшего профессионального образования |
Правительство Российской Федерации Федеральное государственное автономное... Федеральное государственное автономное образовательное учреждение высшего профессионального образования |
||
Правительство Российской Федерации Федеральное государственное автономное... Федеральное государственное автономное образовательное учреждение высшего профессионального образования |
Правительство Российской Федерации Федеральное государственное автономное... Федеральное государственное автономное образовательное учреждение высшего профессионального образования |
||
Правительство Российской Федерации Федеральное государственное автономное... Федеральное государственное автономное образовательное учреждение высшего профессионального образования |
Правительство Российской Федерации Федеральное государственное автономное... Федеральное государственное автономное образовательное учреждение высшего профессионального образования |
||
Правительство Российской Федерации Федеральное государственное автономное... Федеральное государственное автономное образовательное учреждение высшего профессионального образования |
Правительство Российской Федерации Федеральное государственное автономное... Федеральное государственное автономное образовательное учреждение высшего профессионального образования |
||
Правительство Российской Федерации Федеральное государственное автономное... Федеральное государственное автономное образовательное учреждение высшего профессионального образования |
Правительство Российской Федерации Федеральное государственное автономное... Федеральное государственное автономное образовательное учреждение высшего профессионального образования |
Поиск |