Направление — 230700.68, Прикладная информатика
Форма подготовки очная
Школа естественных наук
Кафедра Компьютерные системы
курс 2 семестр 3
лекции 8 час.
практические занятия 0 час.
семинарские занятия - час.
лабораторные работы 46 час.
консультации
всего часов аудиторной нагрузки 54 (час.)
самостоятельная работа 54 (час.)
реферативные работы (количество) нет
контрольные работы (количество) нет
зачет 3 семестр
экзамен - семестр
Рабочая программа составлена в соответствии с требованиями федерального государственного образовательного стандарта высшего профессионального образования (утв. приказом Минобрнауки РФ от 21.12.2009 г., № 762), образовательного стандарта ДВФУ.
Рабочая программа обсуждена на заседании кафедры компьютерных систем « 03 » октября 2012 г.
Составитель (ли): А.М. Фролов, к.ф.-м.н., доцент
I. Рабочая программа пересмотрена на заседании кафедры:
Протокол от «_____» _________________ 20___ г. № ______
Заведующий кафедрой _______________________ Е.Л. Кулешов
(подпись) (И.О. Фамилия)
II. Рабочая программа пересмотрена на заседании кафедры:
Протокол от «_____» _________________ 20___ г. № ______
Заведующий кафедрой _______________________ Е.Л. Кулешов
(подпись) (И.О. Фамилия)
Аннотация
Учебная дисциплина разработана для студентов 2 курса направление «230700.68, Прикладная информатика» в соответствии с требованиями ФГОС по данному направлению.
Дисциплина «Интеллектуальный анализ на основе хранилищ данных» является вариативной дисциплиной и входит в цикл общенаучных дисциплин для магистерской программы «Системы корпоративного управления».
Цель изучения дисциплины формирование у студентов теоретических знаний, практических умений и навыков по применению современных методов интеллектуального анализа данных в различных сферах человеческой деятельности.
Задачи изучения дисциплины:
изучение существующих технологий подготовки данных к анализу;
изучение основных методов поиска закономерностей, связей, правил в табулированных массивах данных большого объема; иллюстрированного их применения в различных областях деятельности;
овладение практическими умениями и навыками реализации технологий интеллектуального анализа данных, формирования и проверки гипотез о их природе и структуре, варьирования применяемыми моделями;
формирование умений и навыков применения универсальных программных пакетов и аналитических платформ для анализа данных.
В результате изучения дисциплины студент должен:
Знать:
основные методы консолидации, трансформации, визуализации, оценки качества, очистки и предобработки данных;
принципы построения и структурную организацию хранилищ данных;
алгоритмы поиска ассоциативных правил и кластерного анализа;
статистические и машинные методы классификации и регрессии;
методики анализа и прогнозирования временных рядов;
технологию построения ансамблей и сравнения моделей;
возможности отечественных и зарубежных универсальных программных средств и аналитических платформ, применяемых для анализа данных;
проблемные вопросы внедрения аналитических программных продуктов и технологий в профессиональную деятельность организаций и учреждений.
Уметь:
практически применять методы консолидации, трансформации, визуализации, оценки качества, очистки и предобработки данных для качественной подготовки данных к анализу;
создавать хранилища данных, выполнять их загрузку, извлекать данные из хранилищ;
применять технологии интеллектуального анализа электронных массивов данных для решения конкретных практических проблем;
использовать возможности отечественных и зарубежных универсальных программных средств и аналитических платформ для поиска закономерностей, связей, правил, знаний в электронных массивах данных;
свободно ориентироваться на современном динамичном рынке аналитических программных продуктов.
Владеть современным инструментарием интеллектуального анализа данных.
Дисциплина направлена на формирование общекультурных и профессиональных компетенций (ОК, ПК) выпускника:
способен совершенствовать и развивать свой интеллектуальный и общекультурный уровень, самостоятельно обучаться новым методам исследования (ОК-1);
способен свободно пользоваться русским языком и одним из иностранных языков, как средством делового общения (ОК-2);
способен приобретать и использовать на практике знания, умения и навыки в организации исследовательских и проектных работ, в управлении коллективом (ОК-3);
способен проявлять инициативу, брать на себя ответственность в условиях риска и принимать нестандартные решения в проблемных ситуациях (ОК-4);
способен использовать углублённые знания правовых и этических норм при оценке последствий своей профессиональной деятельности, при разработке и осуществлении социально значимых проектов (ОК-5);
способен управлять знаниями в условиях формирования и развития информационного общества: анализировать, синтезировать и критически резюмировать и представлять информацию (ОК-6);
способен исследовать современные проблемы и методы прикладной информатики и научно-технического развития информационно-коммуникационных технологий (ПК-1);
способен исследовать закономерности становления и развития информационного общества в конкретной прикладной области (ПК-2);
способен на практике применять новые научные принципы и методы исследований (ПК-3);
способен к профессиональной эксплуатации современного электронного оборудования в соответствии с целями магистерской программы (ПК-4);
способен использовать и развивать методы научных исследований и инструментария в области проектирования и управления информационными системами в прикладных областях (ПК-5);
способен формализовывать задачи прикладной области, при решении которых возникает необходимость использования количественных и качественных оценок (ПК-6);
способен ставить и решать прикладные задачи в условиях неопределенности и определять методы и средства их эффективного решения (ПК-7);
способен проводить научные эксперименты, оценивать результаты исследований (ПК-8);
способен исследовать применение различных научных подходов к автоматизации информационных процессов и информатизации предприятий и организаций (ПК-9);
способен проводить анализ экономической эффективности ИС, оценивать проектные затраты и риски (ПК-10);
способен анализировать данные и оценивать требуемые знания для решения нестандартных задач с использованием математических методов и методов компьютерного моделирования (ПК-12);
способен анализировать и оптимизировать прикладные и информационные процессы (ПК-13);
способен проводить маркетинговый анализ ИКТ и вычислительного оборудования для рационального выбора инструментария автоматизации и информатизации прикладных задач (ПК-14);
способен применять современные методы и инструментальные средства прикладной информатики для автоматизированного решения прикладных задач различных классов и создания ИС (ПК-15);
способен проектировать архитектуру и сервисы информационных систем предприятий в прикладной области (ПК-16);
способен проектировать информационные процессы и системы с использованием инновационных инструментальных средств, адаптировать современные ИКТ к задачам прикладных ИС (ПК-17);
способен принимать эффективные проектные решения в условиях неопределенности и риска (ПК-18);
способен формировать стратегию информатизации прикладных процессов и создания прикладных ИС в соответствии со стратегией развития предприятий (ПК-19);
способен организовывать работы по моделированию прикладных ИС и реинжинирингу прикладных и информационных процессов предприятия (ПК-20).
содержание теоретической части курса
Раздел 1. Технологии обеспечения качественного анализа данных (4 час.)
Тема 1. Технологии анализа данных, с использованием методов интерактивного/активного обучения - дискуссия (1 час.)
Аналитический и информационный походы к моделированию. Формы представления, типы и виды анализируемых данных. Источники данных для анализа. Технология KDD (Knowledge Discovery in Databases). Введение в технологию Data Mining. Программный инструментарий анализа данных.
Тема 2. Консолидация данных, с использованием методов интерактивного/активного обучения - дискуссия (1 час.)
Введение в консолидацию данных. Общая характеристика OLTP-систем. Предпосылки появления систем поддержки принятия решений (DSS – Decision Support System). Введение в хранилища данных (DW – Data Warehouse). Реляционные хранилища данных (ROLAP – Relational OLAP). Многомерные хранилища данных (MOLAP – Multidimensional OLAP). Гибридные хранилища данных (HOLAP – Hybrid OLAP). Виртуальные хранилища данных. Введение в процесс ETL (Extraction, Transformation, Loading). Извлечение данных в ETL. Преобразование данных в ETL. Загрузка данных в хранилище. Особенности загрузки данных из локальных источников. Обогащение данных.
Тема 3. Трансформация данных. Визуализация данных (1 час.)
Введение в трансформацию данных. Особенности трансформации временных рядов. Группировка и разгруппировка данных. Слияние данных. Квантование. Нормализация и кодирование данных.
Введение в визуализацию данных. Визуализаторы общего назначения. OLAP-анализ. Визуализаторы, применяемые для оценки качества моделей. Визуализаторы, применяемые для интерпретации результатов анализа.
Тема 4. Оценка качества, очистка и предобработка данных (1 час.)
Введение в оценку качества данных (ADQ – Assessment Data Quality). Технологии и методы оценки качества данных. Очистка и предобработка данных. Фильтрация данных. Обработка дубликатов и противоречий. Выявление аномальных значений. Восстановление пропущенных значений. Введение в сокращение размерности. Сокращение числа признаков. Сокращение числа значений признаков и записей. Сэмплинг.
Раздел 2. Инструменты Data mining (4 час.)
Тема 5. Поиск ассоциативных правил. Кластеризация (1 час.)
Введение в аффинитивный анализ (affinity analysis). Алгоритм a priori. Иерархические ассоциативные правила.
Введение в кластеризацию. Классификация методов кластеризации. Алгоритм кластеризации k-means. Сети Кохонена (KCN – Kohonen network). Карты Кохонена (SOM – self organizing map). Проблемы алгоритмов кластеризации
Тема 6. Классификация и регрессия. Статистические методы (1 час.)
Введение в классификацию и регрессию. Простая линейная регрессия. Оценка соответствия простой линейной регрессии реальным данным. Простая регрессионная модель. Множественная линейная регрессия. Модель множественной линейной регрессии. Регрессия с категориальными входными переменными. Методы отбора переменных в регрессионные модели. Ограничения применимости регрессионных моделей. Основы логистической регрессии. Интерпретация модели логистической регрессии. Множественная логистическая регрессия.
Тема 7. Классификация и регрессия. Машинное обучение (1 час.)
Введение в деревья решений. Алгоритмы построения деревьев решений. Алгоритмы IDЗ и С4.5. Алгоритм CART. Упрощение деревьев решений. Введение в нейронные сети. Искусственный нейрон. Принципы построения нейронных сетей. Алгоритмы обучения нейронных сетей. Алгоритм обратного распространения ошибки.
Тема 8. Анализ и прогнозирование временных рядов. Ансамбли моделей. Сравнение моделей (1 час.)
Временной ряд и его компоненты. Модели прогнозирования. Прогнозирование в торговле и логистике.
Введение в ансамбли моделей. Бэггинг. Бустинг. Альтернативные методы построения ансамблей.
Оценка эффективности и сравнение моделей. Оценка ошибки модели. Издержки ошибочной классификации. Lift- и Profit-кривые. ROC-анализ.
содержание практической части курса
Лабораторные работы (46 час.)
Лабораторный практикум по разделу 1 (26 час.)
Лабораторная работа № 1 «Основы работы с аналитической платформой Deductor studio» (2 час.)
Программно-аппаратное обеспечение: ПЭВМ IBM PC (операционная система Windows XP), аналитическая платформа Deductor Studio.
Лабораторная работа № 2 «Трансформация данных в Deductor Studio» (4 час.)
Программно-аппаратное обеспечение: ПЭВМ IBM PC (операционная система Windows XP), аналитическая платформа Deductor Studio.
Лабораторная работа № 3 «Создание, заполнение и использование хранилища данных Deductor Warehouse на базе Firebird» (4 час.)
Программно-аппаратное обеспечение: ПЭВМ IBM PC (операционная система Windows XP), аналитическая платформа Deductor Studio Academic.
Лабораторная работа № 5 «Определение представления источника данных в проекте служб Analysis Services» (4 час.)
Программно-аппаратное обеспечение: ПЭВМ IBM PC (операционная система Windows XP Professional), SQL Server 2008 Developer.
Лабораторная работа № 6 «Определение и развертывание куба» (4 час.)
Место проведения: специализированный компьютерный класс.
Программно-аппаратное обеспечение: ПЭВМ IBM PC (операционная система Windows XP Professional), SQL Server 2008 Developer.
Лабораторная работа № 7 «Изменение мер, атрибутов и иерархий» (4 час.)
Программно-аппаратное обеспечение: ПЭВМ IBM PC (операционная система Windows XP Professional), SQL Server 2008 Developer.
Лабораторный практикум по разделу 2 (20 час.)
Лабораторная работа № 6. «Ассоциативные правила» (4 час.)
Лабораторная работа № 7. «Основы работы с пакетом STATISTICА» (4 час.)
Лабораторная работа № 8. «Кластерный анализ» (4 час.)
Лабораторная работа № 9. «Регрессионный анализ» (4 час.)
Лабораторная работа № 10. «Искусственные нейронные сети» (4 час.)
контроль достижения целей курса
Методы контроля:
обсуждение теоретических концепций;
представление отчетов по работам в электронной форме;
обсуждение промежуточных результатов по программам работ;
презентация, защита отчетов по лабораторным работам.
Интерактивные/активные формы проведения занятий:
компьютерное моделирование;
выполнение лабораторных работ (проектно-исследовательских работ).
Вопросы к зачету
Модели и их свойства. Аналитический и информационный походы к моделированию.
Формы представления, типы и виды анализируемых данных.
Обучение моделей «с учителем» и «без учителя». Обучающее и тестовое множество. Ошибки обучения. Эффект переобучения.
Общая схема анализа данных. Требования к алгоритмам анализа данных.
Основные принципы сбора (формализации) данных. Требования к объемам анализируемых данных.
Характеристика этапов технологии KDD.
Data Mining. Характеристика классов задач, решаемых методами Data Mining.
Программный инструментарий для выполнения анализа данных.
Цели, задачи и основное содержание консолидации данных. Обобщенная схема процесса консолидации.
Характеристика OLTP-систем.
Предпосылки появления систем поддержки принятия решений DSS. Понятие ESS, EIS и GDSS.
Основные положения концепции хранилищ данных (DW).
Реляционные хранилища данных (ROLAP).
Технология OLAP. Сущность многомерного представления данных.
Структура многомерного куба. Работа с измерениями.
Многомерные хранилища данных (MOLAP).
Гибридные хранилища данных (HOLAP).
Виртуальные хранилища данных.
Цели, задачи и основное содержание процесса ETL.
Основные виды проблем в данных, из-за которых они нуждаются в очистке.
Организация процесса загрузки данных в хранилище. Постзагрузочные операции.
Причины отказа от использования хранилищ данных. Особенности загрузки данных из локальных источников.
Обогащение данных.
Цели, задачи и основное содержание трансформации данных. Трансформация данных на разных этапах аналитического процесса. Типичные средства трансформации.
Особенности трансформации временных рядов. Скользящее окно. Преобразование даты и времени.
Группировка и разгруппировка данных.
Способы слияния данных.
Квантование данных.
Нормализация и кодирование данных.
Цели, задачи и основное содержание визуализации данных. Группы методов визуализации.
Визуализаторы общего назначения. OLAP-анализ.
Манипуляции с измерениями OLAP-куба.
Визуализаторы, применяемые для оценки качества моделей.
Визуализаторы, применяемые для интерпретации результатов анализа.
Технологии и методы оценки качества данных. Профайлинг.
Очистка и предобработка данных.
Типичный набор инструментов предобработки данных в аналитическом приложении.
Фильтрация данных. Обработка дубликатов и противоречий.
Выявление аномальных и восстановление пропущенных значений.
Алгоритмы и методы сокращения числа признаков.
Учебно-методическое обеспечение дисциплины
Основная литература
Паклин Н.Б., Орешков В. И. Бизнес-аналитика: от данных к знаниям. – СПб. : Питер, 2009
Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. 2-е изд. – СПб. : БХВ – Петербург, 2008
Кацко И.А., Н.Б. Паклин. Практикум по анализу данных на компьютере. – М. : КолосС, 2009.
Дополнительная литература
Темы 1 - 12
Дюк В.А., Самойленко А.П. Data Mining: учебный курс. – СПб. : Питер, 2001.
Хайкин С. Нейронные сети: полный курс. 2-е. изд. / Пер. с англ. – М. : Издат. дом «Вильямс», 2006.
Ханк Д.Э., Уичерн Д.У., Райте А.Дж. Бизнес-прогнозирование. 7-е изд. / Пер. с англ. – М.: Издат. дом «Вильямс», 2003
Дубров А. М., Мхитарян В. С., Трошин Л. И. Многомерные статистические методы : учебник. – М. : Финансы и статистика, 2000.
Нейронные сети. STATISTICA Neural Network: Методология и технологии современного анализа данных. / Под ред. В.П. Боровикова. – М. : Горячая линия-Телеком, 2008
Халафян А.А. STATISTICA 6. Статистический анализ данных : учебник. / - 3-е изд. – М. : Бином-Пресс, 2007.
Андрейчиков А.В., Андрейчикова О.Н. Интеллектуальные информационные системы. – М. : ФиС, 2004.
Кравченко Т.К., Перминов Г.И. Информационная технология процесса принятия экономических решений. - М. : ГУ-ВШЭ, 2005.
Наследов А.Д. SPSS: Компьютерный анализ данных в психологии и социальных науках. / - 2-е изд. – СПб. : Питер, 2007.
Интернет-ресурсы
Барсегян, А. Анализ данных и процессов. / А. Барсегян, М. Куприянов, И. Холод, М. Тесс, С. Елизаров. 3-е изд. - СПб. : БХВ-Петербург, 2010. - 512 с. - Электронное издание. - Доступно из URL : http://ibooks.ru/reading.php?productid=18456.
Абдикеев, Н.М. Информационный менеджмент. / Н.М. Абдикеев. - М. : ИНФРА-М, 2009. - 400 с. - Электронное издание. - Доступно из URL : http://ibooks.ru/reading.php?productid=24489
Когаловский, М.Р. Перспективные технологии информационных систем. / М.Р. Когаловский. - М. : ДМК Пресс, 2010. - 288 с. - Электронное издание. - Доступно из URL : http://ibooks.ru/reading.php?productid=22430
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное образовательное учреждение
высшего профессионального образования
«Дальневосточный федеральный университет»
(ДВФУ)
ШКОЛА ЕСТЕСТВЕННЫХ НАУК
Конспекты лекций
по дисциплине
«Интеллектуальный анализ на основе хранилищ данных»
|