Направление — 230700.68, Прикладная информатика
г. Владивосток
2012
ТЕСТЫ ДЛЯ ИТОГОВОЙ АТТЕСТАЦИИ
Укажите номер правильного ответа
модели представления знаний
семантические сети
логические подходы
когнитивные карты
Примером интеллектуальной задачи является
расчет % по кредиту
выбор партнера по бизнесу
расчет годового баланса
Информационное хранилище предназначено для
обработки больших объемов информации
обеспечения управляющего персонала аналитическими данными для принятия решений
обработки больших объемов информации и обеспечения управляющего персонала аналитическими данными для принятия решений
В отличие от интеллектуальной базы данных информационное хранилище представляет собой самообучающую ИИС, которая
в качестве единиц знаний хранит примеры решений и позволяет по запросу подбирать и адаптировать наиболее похожие решения
позволяет извлекать знания из баз данных и создавать специально-организованные базы знаний
на основе обучения по примерам реальной практики строит ассоциативную сеть понятий (нейронов) для параллельного поиска на ней решений
КОНТРОЛЬНЫЕ ВОПРОСЫ
Модели и их свойства. Аналитический и информационный походы к моделированию.
Формы представления, типы и виды анализируемых данных.
Обучение моделей «с учителем» и «без учителя». Обучающее и тестовое множество. Ошибки обучения. Эффект переобучения.
Общая схема анализа данных. Требования к алгоритмам анализа данных.
Основные принципы сбора (формализации) данных. Требования к объемам анализируемых данных.
Характеристика этапов технологии KDD.
Data Mining. Характеристика классов задач, решаемых методами Data Mining.
Программный инструментарий для выполнения анализа данных.
Цели, задачи и основное содержание консолидации данных. Обобщенная схема процесса консолидации.
Характеристика OLTP-систем.
Предпосылки появления систем поддержки принятия решений DSS. Понятие ESS, EIS и GDSS.
Основные положения концепции хранилищ данных (DW).
Реляционные хранилища данных (ROLAP).
Технология OLAP. Сущность многомерного представления данных.
Структура многомерного куба. Работа с измерениями.
Многомерные хранилища данных (MOLAP).
Гибридные хранилища данных (HOLAP).
Виртуальные хранилища данных.
Цели, задачи и основное содержание процесса ETL.
Основные виды проблем в данных, из-за которых они нуждаются в очистке.
Организация процесса загрузки данных в хранилище. Постзагрузочные операции.
Причины отказа от использования хранилищ данных. Особенности загрузки данных из локальных источников.
Обогащение данных.
Цели, задачи и основное содержание трансформации данных. Трансформация данных на разных этапах аналитического процесса. Типичные средства трансформации.
Особенности трансформации временных рядов. Скользящее окно. Преобразование даты и времени.
Группировка и разгруппировка данных.
Способы слияния данных.
Квантование данных.
Нормализация и кодирование данных.
Цели, задачи и основное содержание визуализации данных. Группы методов визуализации.
Визуализаторы общего назначения. OLAP-анализ.
Манипуляции с измерениями OLAP-куба.
Визуализаторы, применяемые для оценки качества моделей.
Визуализаторы, применяемые для интерпретации результатов анализа.
Технологии и методы оценки качества данных. Профайлинг.
Очистка и предобработка данных.
Типичный набор инструментов предобработки данных в аналитическом приложении.
Фильтрация данных. Обработка дубликатов и противоречий.
Выявление аномальных и восстановление пропущенных значений.
Алгоритмы и методы сокращения числа признаков.
Примерные вопросы к экзамену по дисциплине
Цели и задачи аффинитивного анализа. Поддержка и достоверность ассоциативных правил. Лифт и левередж.
Сферы применения ассоциативных правил.
Иерархические ассоциативные правила.
Цели, задачи и основное содержание кластерного анализа. Классификация методов кластеризации.
Способы определения меры расстояния между кластерами.
Характеристика методов связи для процедуры кластеризации (одиночная, полная, средняя).
Алгоритм кластеризации k-means.
Сети Кохонена (KCN).
Карты Кохонена (SOM).
Проблемы алгоритмов кластеризации.
Цели, задачи и отличительные особенности классификации и регрессии.
Сферы применения методов классификации и регрессии.
Простая линейная регрессия.
Оценка соответствия простой линейной регрессии реальным данным.
Простая регрессионная модель.
Оценка значимости простой регрессионной модели (t-критерий и F-критерий).
Множественная линейная регрессия.
Модель множественной линейной регрессии.
Оценка значимости множественной регрессионной модели.
Регрессия с категориальными входными переменными.
Методы отбора переменных в регрессионные модели.
Ограничения применимости регрессионных моделей.
Логистическая регрессия. Интерпретация модели логистической регрессии.
Множественная логистическая регрессия.
Цели, задачи и принципы построения деревьев решений. Общая характеристика алгоритмов построения деревьев решений.
Сферы применения деревьев решений.
Алгоритмы IDЗ и С4.5.
Алгоритм CART.
Упрощение деревьев решений.
Цели, задачи и принципы работы нейронных сетей.
Принципы функционирования многослойного персептрона.
Алгоритмы обучения нейронных сетей.
Алгоритм обратного распространения ошибки.
Общая характеристика временных рядов и их компонентов. Цели и задачи анализа временных рядов.
Цели, задачи и принципы прогнозирования. Модели прогнозирования. Обобщенная модель прогноза.
Ансамбли моделей. Бэггинг. Бустинг.
Альтернативные методы построения ансамблей.
Оценка эффективности и сравнение моделей.
Lift- и Profit-кривые.
ROC-анализ.
4.4. Примерные темы курсовых работ
Анализ данных с использованием алгоритмов кластеризации.
Кластеризация данных с помощью нечетких отношений.
Практическое применение методов классификации и регрессии.
Метрики, применяемые в Data mining.
Практическое применение иерархических и неиерархических методов кластерного анализа данных.
Основные стандарты Data mining.
Направления использования эволюционных алгоритмов анализа данных.
Анализ данных с использованием генетических алгоритмов.
Применение методов Data mining для решения практических задач.
Технология Knowledge Discovery in Databases (KDD).
Характеристики промышленных инструментальных средств Data mining.
Практическое применение OLTP-систем и систем поддержки принятия решений (СППР).
Использование реляционной модели построения хранилищ данных (ROLAP).
Использование многомерного подхода в построении хранилищ данных (MOLAP).
Использование гибридных (HOLAP) и виртуальных хранилищ данных.
Извлечение и преобразование данных в ходе ETL-процесса.
Технологии и методы оценки качества, очистки и предобработки анализируемых данных.
Алгоритмы и методы сокращения размерности исходного множества анализируемых данных.
Технология практического применения сэмплинга (sampling).
Сущность и направления использования аффинитивного анализа данных.
Подходы к решению задач поиска ассоциативных правил.
Применение методики поиска ассоциативных правил в торговле, медицине и управлении.
Анализ данных с использованием сети Кохонена (Kohonen network).
Анализ данных с использованием самоорганизующихся карт Кохонена (Self organizing map).
Технология анализа данных с применением регрессионных моделей.
Технология построение и оценка значимости простой регрессионной модели.
Подходы к оценке соответствия простой линейной регрессии реальным данным.
Построение и оценка значимости множественной регрессионной модели.
Характеристика алгоритмов построения деревьев решений.
Подготовка управленческих решений на основе метода деревьев решений.
Принципы построения и направления практического применения нейросетевых моделей.
Оценка полезности, эффективности и точности моделей, применяемых для анализа данных.
Подходы к анализу данных на базе ансамблей моделей.
Формализованные, эвристические и комплексные методы прогнозирования.
Применение моделей анализа временных рядов.
Решение проблемы переобучения моделей.
Технологии обогащения данных.
Применение алгоритмов построения деревьев решений ID3 и С4.5.
Технологии упрощения деревьев решений.
Алгоритмы обучения нейронных сетей.
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное образовательное учреждение
высшего профессионального образования
«Дальневосточный федеральный университет»
(ДВФУ)
ШКОЛА ЕСТЕСТВЕННЫХ НАУК
Список литературы
по дисциплине
«Интеллектуальный анализ на основе хранилищ данных»
|