Лекция Введение в курс «Компьютерные технологии в науке и образовании»

Скачать 2.16 Mb.

Название	Лекция Введение в курс «Компьютерные технологии в науке и образовании»
страница	42/42
Тип	Лекция

rykovodstvo.ru > Руководство эксплуатация > Лекция

1 ... 34 35 36 37 38 39 40 41 42

18.2. Корреляционно-регрессионный анализ

Воспроизведем схемы одномерно-одномерного (рис. 12, а), одномерно$многомерного (рис. 12, б) и многомерно$одномерного (рис. 12, в) объектов исследований.

Рис. 12. Схемы объектов исследований

В случае одномерно-одномерного объекта исследований (рис. 12, а) при наличии статистически достоверной связи между x и y может быть получено уравнение y = f(x), описывающее эту связь. Такое уравнение, называемое уравнением однофакторной регрессии или просто регрессии, дает возможность рассчитывать (прогнозировать) значения выходного параметра y по известным значениям входного фактора x, не прибегая к помощи каких$либо расчетных графиков.

В случае одномерно-многомерного объекта исследований (рис. 12, б) статистически достоверная связь между какими$либо выходными параметрами yi позволяет сократить их число, и тем самым, сократить затраты времени и средств на исследовательский процесс. Так, например, при наличии статистически достоверной связи между y1 и y2, можно определять (измерять) только один из этих параметров. Как правило, оставляют тот из параметров, который проще и точнее измеряется.

В случае многомерно-одномерного объекта исследований (рис. 12, в), являющегося частным случаем многомерно$многомерного объекта, при наличии связи между входными факторами, например между x1 и x2, возникают некоторые закономерности:

появляется возможность одновременного контроля того и другого фактора по одному из них;
наличие связи между выходным параметром y и всеми входными факторами xi дает возможность получить многофакторное уравнение регрессии или так называемую математиче- скую модель процесса, позволяющую оптимизировать этот процесс и прогнозировать значения выходного параметра при любых сочетаниях значений входных факторов.

Наличие, форма и сила (степень тесноты) связи между СВ, имеющими нормальное распределение, устанавливаются с помощью корреляционного анализа.
Различают:

парную корреляцию (связь между двумя случайными величинами);
множественную корреляцию (связь между тремя и большим числом случайных величин).

18.2.1. Парная корреляция

Предварительную характеристику корреляционной связи между случайными величинами x и y можно найти путем построения так называемого корреляционного поля, т. е. графика зависимости y = f(x) с нанесением на него всех экспериментальных точек.

В качестве примера приведем ряд корреляционных полей различной формы.

О наличии связи между двумя случайными величинами можно судить по тесноте группирования точек на корреляционном поле вокруг условной прямой или кривой линии.

Так, из рис. 13, а, в, г видно, что между х и у определенная связь существует, а вот по данным, приведенным на рис. 13, б, связь между х и у отсутствует.

По форме корреляционного поля можно судить и о предполагаемой форме связи между двумя случайными величинами, которая может быть:

линейной (рис. 13, а, в);
нелинейной (рис. 13, г);
прямой (рис. 13, а);
обратной (рис. 13, в).

Рис.13. Корреляционные поля различной конфигурации

Кроме этого степень разбросанности точек на корреляционном поле в определенной мере свидетельствует и о силе связи между х и у. Так, очевидно, что для данных, приведенных на рис. 13, а, связь между х и у слабая, тогда как для данных, показанных на рис. 13, в и г, связь между х и у достаточно сильная. Но такая визуальная и качественная оценка, хотя и дает определенную информацию, не может заменить количественной оценки существования связи между х и у, а также оценки формы и силы этой связи. Сила связи между двумя случайными величинами оценивается величиной коэффициента парной корреляции или просто коэффициента корреляции, определяемого по следующей формуле:

где n – число пар наблюдений (измерений); ͞x, ͞y – средние арифметические значения х и у; _х, _у – среднеквадратические отклонения х и у, рассчитываемые по формулам (25) и (11).
Значения коэффициента корреляции ryx изменяются в пределах от –1 до +1, т. е.

–1  r_yx  +1. (38)

Если с ростом значения х значение у растёт, то rух будет иметь знак плюс (положительная или прямая связь), а если уменьшается, то – знак минус (отрицательная или обратная связь). Чем ближе абсолютное значение rух к 1, тем сильнее значения одной случайной величины зависят от того, какие значения принимает другая случайная величина, т. е. тем сильнее связь между ними.

Тесноту связи между х и у обычно считают:

удовлетворительной при r_ух  |0,5|;
хорошей при rух = |0,8  0,85|.

Следует помнить о том, что rух является случайной величиной, т. е. может принимать различные значения при повторных измерениях. Кроме этого, величина r_ух зависит от числа пар наблюдений. С их уменьшением и достоверность выводов, формулируемых после определения r_ух, снижается.

При r_ух = ±1 – две случайных величины связаны линейной, функциональной связью, т. е. каждому конкретному значению х соответствует только одно, строго определенное, значение у.

При r_ух = 0 случайные величины называют некоррелированными (независимыми). Однако обратное утверждение, что случайные величины независимы, если r_ух = 0, несправедливо, так как r_ух как мера тесноты связи имеет четкий математический смысл только при линейной зависимости между случайными величинами и при нормальном их распределении. Поэтому значение r_ух может быть равным нулю, когда случайные величины связаны нелинейной связью, а следовательно, зависимы друг от друга.

Достоверность коэффициента корреляции оценивают критерием надежности:

Где

При Qr > 2,6 с доверительной вероятностью равной 0,95 можно утверждать о значимости найденного коэффициента корреляции r_ух, т.е. о существовании между х и у линейной связи.

По известным значениям величин r_ух, _х и _у несложно определить линейное уравнение регрессии, описывающее связь между х и у, т. е.

После нахождения линейной математической модели, следует оценить возможность улучшения описания связи между х и у, путём перехода к нелинейной модели. Вначале эту нелинейную модель изучают. После этого необходимо вычислить корреляционное отношение по следующей формуле:

i
где y~ – значение выходного параметра в i-м опыте, рассчитанное по найденной нелинейной модели, y_i – фактическое значение параметра в i-м опыте.

Корреляционное отношение _у характеризует силу (степень тесноты) связи между двумя случайными величинами при отсутствии между ними линейной зависимости, т. е. связанными не линейно. Значения _у могут находиться в пределах от 0 до 1. Для некоррелированных (независимых) случайных величин _у = 0, а в случае функциональной зависимости между ними _у = 1. Если связь между двумя случайными величинами линейна, то корреляционное отношение равно абсолютному значению коэффициента корреляции, т.е.

_y | r_yx | .
Следует отметить, что значимое различие значений у и rух проявляется только при достаточно большом числе пар измерений.

Достоверность корреляционного отношения оценивается по критерию его надежности.

При r > 2,6 с доверительной вероятностью равной 0,95 можно утверждать, что найденное корреляционное отношение значимо.

По известным значениям у и rух оценивают степень нелинейности:

2
Если n0 < (12/n), то переход к нелинейной модели не улучшит связи между х и у, а в противном случае – может привести к лучшим результатам.
18.2.1.1. Применение корреляционного анализа для уменьшения числа параметров (факторов)

Очевидно, что если две случайные величины являются коррелированными, т. е. зависимыми друг от друга, о чем свидетельствует значимость коэффициента корреляции r_ух, то любая из них (х или у) может быть исключена из рассмотрения.

Для сокращения числа параметров, в случае одномерно-многомерного объекта исследований, или числа факторов, в случае многомерно-одномерного объекта исследований, рассчитывают значения коэффициента корреляции между всеми возможными парами параметров (факторов), а также, в зависимости от схемы объекта исследований, между выходными параметрами и входным фактором, или входными факторами и выходным параметром.

На основе расчетов составляют так называемую нормированную корреляционную матрицу.

Таблица 3

Корреляционная матрица

Параметры	Значения коэффициента корреляции
Параметры	х	у₁	у₂	у₃	у₄
х	1	r_y1x *	r_y2x *	r_y3x *	r_y4x *
у1		1	r_y2y1 *	r_y3y1 *	r_y4y1 *
у2			1	r_y_3y2 *	r_y4y2
у3				1	r_y_4y3 *
у4					1

В матрице значимые значения коэффициента корреляции принято обозначать звездочками (обозначено для примера).

Из приведенной корреляционной матрицы следует, что незначимым является лишь коэффициент корреляции между у2 и у4.

Отсюда следует, что при исследовании влияния фактора х на параметры у1, у2, у3, у4, вместо четырех параметров можно ограничиться двумя – у2 и у4.

18.3. Однофакторная регрессия

Ранее нами была рассмотрена процедура определения значений коэффициентов а и b линейного уравнения регрессии y = ax + b по данным корреляционного анализа.

Между тем существуют и другие приёмы и методы нахождения значений этих коэффициентов, причем не только для линейной зависимости, но и для различного вида нелинейных зависимостей.

Эмпирическая связь между двумя случайными величинами может быть описана одной из наиболее распространённых зависимостей:

линейной y = ax + b;
логарифмической y = alnx + b;
экспоненциальной (показательной) y = beax;
степенной y = axb;
дробно-линейной y = x/(ax + b);
гиперболической y = a/x +b;
дробно-рациональной y = 1/(ax + b);
квадратичной (параболической) y = ax2 + bx + c.

18.3.1. Метод наименьших квадратов

Суть метода заключается в том, что вид зависимости и значения ее коэффициентов должны обеспечивать минимальную сумму квадратов отклонений (S) ординат экспериментальных точек от ординат этой зависимости:

(47)

Для линейного уравнения y = ax + b требование (47) запишется следующим образом:

Для того чтобы найти минимальную сумму квадратов отклонений S, необходимо приравнять к нулю частные производные этой суммы по коэффициентам b и а:

Для определения коэффициентов а и b линейного уравнения будем иметь систему линейных уравнений:

Решение системы уравнений относительно а и b дает следующие формулы для их расчета:

Рассмотренный нами на примере линейной зависимости метод нахождения коэффициентов а и b называется методом наименьших квадратов (МНК), который был предложен К. Гауссом.

Аналогичным образом, с помощью этого метода были получены формулы для расчета коэффициентов и нелинейных зависимостей 2–8 (см. выше).
Источник:

Квеско Н.Г. Методы и средства исследований: учебное пособие / Н.Г. Квеско, П.С. Чубик; Национальный исследовательский Томский политехнический университет. – Томск: Изд-во Томского политехнического университета, 2010. – 112 с.

1 ... 34 35 36 37 38 39 40 41 42

Похожие:

	Учебно-методический комплекс дисциплины «Компьютерные технологии в науке и образовании»		Учебно-методический комплекс по дисциплине компьютерные технологии в образовании и науке
	Курс лекций Ставрополь, 2015 содержание стр. Введение лекция Введение... Лекция 5: Приборы и приспособления для обнаружения и регистрации ионизирующих излучений		Конспект лекций по дисциплине «Информационные системы и технологии в науке и образовании» Введение. Содержание дисциплины и порядок ее изучения. Фактографический поиск. Математические модели фактографического поиска. Информационная...
	Отчет по лабораторной работе №1 по дисциплине: «Компьютерные технологии в науке и производстве» Целью лабораторной работы является изучение основ языка гипертекстовой разметки html		Секция: «Информационные системы и технологии в науке, технике и образовании» проектно Для любого человека актуально обеспечение безопасности помещения, являющегося его собственностью
	Учебно-методический комплекс дисциплины «компьютерные технологии в науке и технике» Учебно-методический комплекс составлен на основании требований федерального государственного образовательного стандарта высшего профессионального...		Российской Федерации Тольяттинский государственный университет Кафедра... Курс лекций дисциплины «Компьютерные технологии и сапр» для студентов специальностей 120500, 120507, 120700 очной
	Компьютерные информационные технологии курс лекций Именно этим определяется актуальность и необходимость освоения основ компьютерных информационных технологий. Знание компьютерных...		Компьютерные информационные технологии курс лекций Именно этим определяется актуальность и необходимость освоения основ компьютерных информационных технологий. Знание компьютерных...
	Отчет по практике «Информационные компьютерные системы и технологии... «Информационные компьютерные системы и технологии в ресторанно-гостиничном бизнесе»		Лекция I и проблема языка и сознания лекция II 31 слово и его семантическое... Монография представляет собой изложение курса лекций, про* читанных автором на факультете психологии Московского государственного...
	Лекция I и проблема языка и сознания лекция II 31 слово и его семантическое... Монография представляет собой изложение курса лекций, про* читанных автором на факультете психологии Московского государственного...		Содержание Введение Лекция Базы данных и файловые системы Файловые системы 1 Структуры файлов Лекция Ранние подходы к организации бд. Системы, основанные на инвертированных списках, иерархические и сетевые субд. Примеры. Сильные...
	Лекция 1 Введение в cals-технологии Концепция cals сначала Computer... Целью cals-технологий является повышение эффективности производства посредством применения компьютерных информационных технологий...		Лекция 1 Введение в cals-технологии Концепция cals сначала Computer... Целью cals-технологий является повышение эффективности производства посредством применения компьютерных информационных технологий...

Руководство, инструкция по применению