Цели:
закрепить навыки самостоятельной работы над проектом, умения самостоятельно решать поставленные практические задачи.
закрепить практические навыки самостоятельного сбора первичного статистического материала на основе применения форм, методов и способов статистического наблюдения;
закрепить практические навыки наглядного представления статистического материала путем построения диаграмм;
освоить практические навыки обработки данных методами корреляционно-регрессионного анализа;
научиться давать самостоятельную характеристику взаимосвязей социально-экономических процессов и явлений путем построения уравнений регрессии, расчета показателей тесноты корреляционных связей;
научиться самостоятельно формулировать проблемы и пути их решения на основе анализа исчисленных показателей и дополнительной статистической информации о состоянии исследуемого вопроса из интернет-источников;
применять знания, умения и навыки в области информационных технологий к поиску, обработке и анализу статистических данных, а также к оформлению готовых проектов.
Исходные данные:
Информация о двух взаимосвязанных явлениях, имеющих количественное выражение, взятых за определенный интервал времени из статистических сборников, представленных на официальном сайте Росстата, или иных ресурсов.
Информация о характеристиках исследуемых взаимосвязанных явлений в Нижегородской области, РФ, других странах с сайтов статистических органов и других сайтов (для заключения).
Формулировка задания:
На основе реальных актуальных данных выбрать значения факторного и результативного признака (х и у). Дать ссылку на источник информации (интернет-ресурс, статья в журнале и т.п.). У каждого студента должна быть своя выборка (n > 30).
Графическим методом показать связь между х и у.
Выбрать и построить уравнение регрессии (найти параметры регрессии) 2-мя способами:
- расчетным путем (самостоятельно по формулам);
- с помощью таблиц «Excel».
По построенному уравнению регрессии рассчитать теоретические значения результативного признака у, определить значимость уравнения регрессии с помощью таблиц «Excel».
Расчетным путем и с помощью таблиц «Excel» определить тесноту корреляционной связи. Сделать выводы.
Срок сдачи работы. Через две недели после получения задания.
5.2. Теоретические основы темы «Сущность и виды взаимосвязей»
Научные исследования природы и общества предполагают анализ взаимосвязей наблюдаемых объектов или явлений. Категория «взаимосвязь» отражает тот факт, что все объекты и явления в процессе познания и изменения материального мира находятся в бесчисленных связях между собой.
Экономические связи как элемент социальных связей распространены между производством, распределением и потреблением продукции и услуг, между отраслями народного хозяйства, регионами, предприятиями и физическими лицами. Экономические связи возникают и развиваются в производственной, финансовой, страховой и других сферах, на рынке труда, при взаимодействии предприятий и государства, на международной арене и т.д. Если в качестве примера взять только финансовую деятельность отдельного предприятия, то финансовые связи будут охватывать различные взаимодействия данного предприятия с самыми разными группами предприятий и физических лиц, а также с государством, образуя тем самым систему связей этого предприятия или систему его финансовых отношений.
Современная наука располагает обширной типологией связей, характеризующихся различным состоянием двух ключевых характеристик взаимосвязей: факторного и результативного признака. Факторный признак – это один из взаимосвязанных признаков, который влияет на изменение другого признака. Иначе говоря, факторный признак – это влияющий признак или независимая переменная. Результат этого влияния отражается на результативном признаке (зависимая переменная). Так, доходы человека влияют на его потребление, поэтому доход – это факторный признак, а потребление – результативный признак. Количество внесенных удобрений влияет на урожайность, стаж – на производительность труда, объем фондов – на прибыль, инвестиции – на ВВП и т.д.
Если с увеличением факторного признака зависимая переменная растет, то связь называется прямой, а если падает, то связь называется обратной. Такие связи можно также назвать, соответственно, положительными и отрицательными. Относительно своей аналитической формы связи бывают линейными и нелинейными. В первом случае между признаками проявляются линейные соотношения, т.е. они могут описываться уравнением прямой линии. Нелинейная взаимосвязь выражается нелинейным уравнением, а переменные связаны между собой в среднем нелинейно. Если анализируется связь двух признаков, то ее принято называть парной, а если изучаются более чем две переменные – множественной. По силе различаются слабые и сильные связи. Эта формальная характеристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи для конкретных показателей.
Самым важным и самым общим делением связей считается разделение их на два типа: функциональную и стохастическую. Связь между двумя признаками x и y считается функциональной, если определенному значению переменной x строго соответствует одно или несколько значений другой переменной y, и с изменением значения x значение y меняется строго определенно. Так, функциональную динамическую связь для нескольких переменных можно выразить в следующем виде:
где – значение признака в момент времени t, – переменные факторы. В математическом смысле параметры – это независимые переменные (факторные признаки), а у – зависимая переменная (результативный признак).
Функциональные связи часто встречаются в естественных и математических науках, редко – в гуманитарных науках. Например, из математики известно, что площадь квадрата равна квадрату его стороны (S = a2). Это соотношение характерно для каждого единичного случая (квадрата), это так называемая жестко детерминированная связь. Вместе с тем функциональные связи можно встретить и в экономической сфере. Например, в налоговой практике связь между суммой налога, например НДС (y), и налоговой базой (x), облагаемой по фиксированной ставке 18%, легко можно выразить формулой y = 0,18х.
Функциональные связи крайне редко встречаются в социально-экономической сфере. В реальности преобладают иного рода связи, где взаимно действуют многие факторы, комбинация которых приводит к вариации значений результативного признака при одинаковом значении факторного признака. Например, при изучении зависимости величины таможенных платежей (результативный признак), поступающих в федеральный бюджет, от количества товаров, перемещаемых через таможенную границу государства (факторный признак) очевидно, что между этими показателями нет жестко детерминированной связи. Действительно, при одном и том же количестве перемещенных через таможенную границу товаров величина таможенных платежей, перечисленных разными таможнями, будет различной, поскольку кроме количества товаров, перемещаемых через таможенную границу государства, на величину таможенных платежей влияет много других факторов. К этим факторам относятся такие, как различная номенклатура товаров, для которых применяются разные таможенные пошлины, различные таможенные режимы перемещения товаров через таможенную границу и т.д. Комбинация всех этих факторов вызывает вариацию величины таможенных платежей.
Подобные примеры можно распространить на самые разные экономические ситуации. Поэтому в самом общем случае принято говорить о стохастических связях, т.е. связях, основанных на случайных взаимодействиях признаков. Считается, что переменная (признак) y находится в стохастической связи с переменной х, если при изменении значения х переменная у сохраняет характер случайной переменной, т.е. способной принимать различные значения с определенной степенью вероятности.
Частным случаем стохастической связи является корреляционная связь. Ее суть заключается в том, что с изменением значения признака х закономерным образом изменяется значение признака у, в то время как в каждом отдельном случае значение признака у может принимать множество различных значений. Другими словами, для того, чтобы стохастическая связь считалась корреляционной, необходимо существование закона распределения вероятностей. Корреляционная связь (иногда ее называют неполной или статистической) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной.
Причина существования корреляционных связей в природе и обществе – это сложность взаимосвязей между анализируемыми переменными, на взаимодействие которых влияют неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. Для нашего «таможенного» примера этой «массой» является вся совокупность таможенных постов, через которые проходят разные товары. Но для каждого поста одно и то же количество товаров вызовет разный прирост таможенных платежей, так как во взаимодействии находится еще целый ряд факторов (таможенный режим, квалификация таможенников, уровень коррупции и т.д.), которые и формируют конечный результат. Однако в среднем такая связь наблюдается – увеличение количества ввозимых или вывозимых товаров ведет к росту таможенных платежей.
Различают три пути возникновения корреляционных связей:
один из признаков (х) является причиной вариации другого признака (у);
оба фактора являются следствием общей причины, т.е. происходит параллельное изменение значений признаков, но ни один из них не является причиной вариации другого (такие связи называют связями соответствия);
между признаками, каждый из которых является и причиной, и следствием, т.е. каждый признак может выступать и в роли независимой переменной х, и в качестве зависимой переменной у.
5.3. Теоретические основы темы «Особенности, этапы и методы корреляционно-регрессионного анализа»
Корреляционно-регрессионный анализ имеет двоякую сущность. Во-первых, он заключается в оценке тесноты связи между факторным и результативным признаками, в определении неизвестных причинных связей и в оценке факторов, оказывающих наибольшее влияние на результативный признак (корреляционный анализ). Во-вторых, он заключается в установлении формы зависимости между факторным и результативным признаками путем определения функции (уравнения) регрессии, а также в использовании данного уравнения для оценки неизвестных значении зависимой переменной (регрессионный анализ).
При проведении корреляционно-регрессионного анализа должны выполняться следующие требования (условия).
1. Наличие исходной информации по достаточно большой совокупности социально-экономических процессов, объектов или явлений. Анализ единичных объектов или явлений не позволяет раскрыть статистические закономерности, которые проявляются лишь при наличии множества явлений. Должны учитываться требования закона больших чисел, общий смысл которого заключается в том, что совместное действие большого числа случайных факторов приводит к результату, почти не зависящему от случая. Этот закон обеспечивает надежное взаимопогашение действия случайных факторов при изучении взаимосвязей. Поэтому в практических расчетах количество единиц случайной совокупности должно быть максимально большим, т.е. выборка должна быть представительной. В конкретных расчетах значимости (существенности) отдельных показателей существует даже разграничение способов проверки этой значимости в зависимости от объема выборки n. Если n > 30, то используется один способ, если n < 30, то используется другой способ.
2. Обеспечение качественной однородности изучаемой совокупности. Так, при изучении зависимостей между экономическими показателями предприятия необходимо отбирать не только предприятия одной отрасли или сферы деятельности, но и предприятия, выпускающие однородную продукцию или оказывающие однотипные услуги. Некорректно, например, изучать корреляционную связь между спросом и ценой на все товары и услуги, входящие в потребительскую корзину. Необходимо выделить, как минимум, три однородные группы: продовольственные товары, непродовольственные товары, услуги. Каждая группа в зависимости от целей исследования может быть дезагрегирована на более мелкие однородные подгруппы, например, на конкретные товары и услуги.
3. Наличие именно корреляционной (стохастической), а не функциональной связи. Теоретически возможно применение методов корреляционно-регрессионного анализа и в случае жестко-детерминированной связи, что может позволить более полно измерить роль каждого фактора в формировании значения результативного признака. Но в целом считается, что если связь функциональная, то ее исследование следует осуществлять с помощью других экономических и экономико-статистических методов (например, метода цепных подстановок или индексного метода), поскольку корреляционный анализ не будет иметь смысла.
4. Наличие нормального распределения единиц совокупности по рассматриваемым признакам. Это условие связано с тем, что все положения корреляционно-регрессионного анализа разработаны из предположения о нормальном характере распределения факторного и результативного признаков. Однако нормальное распределение вероятностных значений тех или иных признаков в экономической и социальной сфере встречается довольно редко. Поэтому для оценки соответствия фактического распределения нормальному существует ряд простых количественных показателей, которые целесообразно рассчитывать до начала осуществления корреляционно-регрессионного анализа.
5. Наличие требований к факторным признакам. Включаемые в анализ признаки-факторы должны быть основными или значимыми, т.е. оказывающими решающее влияние на уровень результативного признака, а также независимыми друг от друга. Например, при рассмотрении влияния доходов (х) на потребление домашних хозяйств (у) неверно в качестве факторных признаков брать номинальные доходы (х1), располагаемые доходы (х2), реальные доходы (х3). Все эти группы доходов определяются друг через друга и поэтому являются зависимыми показателями. В многофакторную корреляционную модель целесообразно включить какой-либо один из показателей доходов (например, реальный, т.е. скорректированный на инфляцию, среднемесячный доход семьи – х1) и дополнить ее другими независимыми признаками (например, численность домохозяйства – х2, доля иждивенцев – х3, площадь недвижимости – х4 и т.д.).
Следует отметить также, что факторы должны характеризовать одну и ту же единицу совокупности, т.е. они должны относиться только к рассматриваемому объекту или процессу. Так, к факторам, определяющим уровень расходов домохозяйств, нецелесообразно относить такие факторы, как прибыль предприятия, на котором работает член домохозяйства или размер доходов бюджета города, в котором живет член домохозяйства. Эти факторы относятся к другим объектам и не должны включаться в модель.
При осуществлении корреляционно-регрессионного анализа выделяют следующие этапы:
выявление корреляционной связи между признаками, включая отбор факторного (в случае множественной регрессии – факторных) и результативного признаков;
выбор формы уравнения регрессии;
построение регрессии (определение параметров уравнения регрессии);
определение показателей тесноты связи;
оценка достоверности полученных результатов.
Первые два этапа предполагают преимущественно качественный подход при осуществлении корреляционно-регрессионного анализа, а последние три этапа – количественные расчеты разной степени сложности в зависимости от содержания модели.
Выявление корреляционной связи осуществляется с помощью различных статистических методов. Кратко рассмотрим основные из них.
Метод параллельных рядов. Данный метод используется при отсутствии ярко выраженной связи между факторным и результативным признаками. Его суть заключается в том, что на основе двух рядов признаков (факторного и результативного), которые находятся в определенной взаимосвязи, визуально определяют характер этой взаимосвязи. Для этого факторный признак располагают в монотонно убывающем или возрастающем порядке, и в соответствии с этим перемещают результативный признак.
Наличие и характер связи определяется по степени согласованности вариации данных рядов. В тех случаях, когда возрастание факторного признака влечет за собой возрастание результативного признака, возможно наличие прямой корреляционной связи. Если же с увеличением факторного признака величина результативного признака имеет тенденцию к снижению, то можно предполагать обратную связь между этими признаками.
Метод параллельных рядов обычно используется для установления характера связи при относительно небольшом объеме исходной информации. Однако при наличии большого числа значений признаков, когда одному и тому же значению факторного признака, как правило, соответствует несколько различных значений результативного признака, восприятие и анализ параллельных рядов сильно затрудняется. В этих случаях целесообразно использовать метод построения корреляционных таблиц.
Метод построения корреляционных таблиц. Данный метод предполагает построение группировочной таблицы, где в подлежащем указывается факторный признак, а в сказуемом – результативный признак. При этом в самой корреляционной таблице представлено распределение частот, т.е. показывается, сколько раз данная величина одного признака повторяется в сочетании с соответствующей величиной другого признака. Если частоты в таблице расположены на «главной» диагонали (из левого верхнего угла в правый нижний угол), то возможно наличие прямой корреляционной зависимости между признаками. Если же частоты расположены по «вспомогательной» диагонали, то связь предположительно обратная.
Следует отметить, что при использовании метода построения корреляционной таблицы необходимо установить расположение основной части частот. Возможна ситуация, когда все клетки корреляционной таблицы окажутся заполненными. Однако это еще не означает, что корреляционная связь между признаками отсутствует. Если основная масса частот расположена по той или иной диагонали, то корреляционная связь между признаками существует.
Корреляционная таблица позволяет и достаточно просто обнаружить корреляционную связь. Однако данный метод, также как и метод параллельных рядов, полностью базируется на сопоставлении индивидуальных значений изучаемых признаков. Но индивидуальные значения формируются под влиянием как основных, так и случайных факторов. При этом корреляционная связь обнаруживается более четко, если влияние случайных факторов удается нивелировать. Это можно сделать при применении метода аналитической группировки и исчисления групповых средних.
Метод аналитической группировки и исчисления групповых средних. Данный метод основан на использовании метода статистических группировок. В качестве группировочного признака берется факторный признак, исходные данные разбиваются на группы и для каждой группы вычисляется средняя величина результативного признака. Кроме того, эта средняя может быть рассчитана по данным корреляционной таблицы. Сравнивая значения факторного признака и средние значения результативного признака можно говорить о наличии или отсутствии корреляционной связи между признаками. Корреляционная зависимость будет тем отчетливее обнаруживаться, чем сильнее будут отличаться друг от друга групповые средние. Если бы связь между факторным и результативным признаком отсутствовала, то все групповые средние результативного признака были бы приблизительно одинаковыми по величине.
Графический метод. Данный метод используется для предварительного выявления наличия корреляционной связи и визуального определения уравнения регрессии. Для этого в прямоугольной системе координат на горизонтальной оси (оси абсцисс) откладываются значения факторного признака, а на вертикальной оси (оси ординат) – результативного признака. Используя индивидуальные данные, строится точечный график. Каждая точка имеет соответствующие друг другу координаты.
5.4. Теоретические основы темы «Методы однофакторного регрессионного анализа»
Основным этапом корреляционно-регрессионного анализа является выбор конкретной математической формы взаимосвязи. Эта форма называется уравнением регрессии.
Уравнение регрессии – это математическая модель, в которой среднее значение результативного признака рассматривается как функция одной или нескольких (в случае множественной регрессии) переменных – факторных признаков.
Экономико-математический смысл уравнения регрессии заключается в том, что с его помощью можно установить, каким будет среднее значение результативного признака у при том или ином значении факторного признака х, если остальные факторы, влияющие на у и не связанные с х, не учитывать. Другими словами, уравнение регрессии отображает зависимость у(х) при условии полного взаимопогашения всех случайных по отношению к фактору x причин. Уравнение регрессии можно рассматривать как вероятностную гипотетическую функциональную связь величины результативного признака со значениями факторного признака.
Следует отличать понятия «теоретическая линия регрессии» и «эмпирическая линия регрессии» Уравнение регрессии по своей сути и является теоретической линией регрессии. Рассчитанные по уравнению регрессии значения результативного признака называются теоретическими. Они обычно обозначаются как . Эта запись читается как «игрек, выровненный по х» и рассматривается как функция от х, т.е. . Эмпирическая линия регрессии – это исходные (эмпирические) статистические данные (статистическая выборка) факторного и результативного признаков, на основании которых выбирается уравнение регрессии. Другими словами, эмпирическая линия – это то, что изображено на корреляционном поле, и с помощью чего можно построить теоретическую линию регрессии.
Поиск в каждом конкретном случае того типа функции, с помощью которого можно наиболее адекватно отразить ту или иную эмпирическую зависимость между признаками х и у, – главная задача регрессионного анализа. Выбор теоретической линии регрессии обусловлен формой эмпирической линии регрессии; теоретическая линия как бы сглаживает ее изломы.
Рассмотрим чаще всего используемые уравнения регрессии в наиболее простом случае – при анализе взаимосвязи между двумя признаками х и у. Такой анализ называется однофакторным корреляционно-регрессионным анализом.
1. Если с увеличением факторного признака результативный признак равномерно возрастает или убывает, то зависимость является линейной и описывается уравнением прямой:
где а0 – свободный член уравнения регрессии, а1 – коэффициент регрессии, отражающий вариацию результативного признака, приходящуюся на единицу вариации факторного признака (это показатель силы связи). Например, если при анализе связи между среднемесячным доходом и потреблением какого-либо продукта питания (например, молока) а1 = 0,75, то это означает, что при росте дохода на 1 тыс. руб., потребление молока увеличится на 0,75 литра.
2. Если связь между признаками нелинейная, причем с возрастанием факторного признака происходит ускоренное возрастание или убывание результативного признака, то используется уравнение параболы второго порядка:
3. Если результативный признак с увеличением факторного признака возрастает или убывает не бесконечно, а стремится к какому-то пределу, то связь описывается уравнением гиперболы:
4. Если связь нелинейная и слабая, то связь между признаками описывается уравнением степенной функции:
5. Если при увеличении значений факторного признака в арифметической прогрессии значения результативного признака изменяются в геометрической прогрессии, то связь может быть описана уравнением показательной функции:
Выбор той или иной функции в качестве уравнения регрессии может осуществляться на основании графического изображения эмпирических данных. Однако визуально однозначно проследить характер взаимодействия между признаками чаще всего не представляется возможным. Поэтому целесообразно определять параметры уравнений регрессии разных видов. Затем с помощью различных критериев нужно отобрать ту форму уравнения, которая наиболее точно отражает реально существующую зависимость. Одним из таких критериев является средний коэффициент аппроксимации. Он дает обобщенную количественную характеристику относительных размеров отклонения эмпирических значений результативного признака (у) от теоретических значений, полученных по построенному уравнению регрессии:
Коэффициент аппроксимации определяет среднюю величину относительного отклонения эмпирического значения от расчетного значения. Если ≤ 6-8%, то это свидетельствует о высокой степени приближения расчетных значений к эмпирическим значениям, т.е. выбранная форма уравнения связи и состав отобранных факторов достаточно точно отражают реальные взаимосвязи. Если 9% ≤ ≤15%, то можно говорить о средней степени приближения расчетных значений к эмпирическим значениям и о среднем качестве избранной формы связи. Если ≥ 16-20%, то считается, что уравнение регрессии не адекватно описывает реальную взаимосвязь.
Количественный анализ требует определения по эмпирическим данным параметров уравнения регрессии, силы (тесноты) связи, а также достоверности (существенности) самой регрессионной модели и отдельных коэффициентов.
Что касается параметров уравнения регрессии, то они должны быть такими, при которых рассчитанные по уравнению теоретические значения результативного признака были бы максимально близки к эмпирическим данным. Существуют различные методы нахождения этих параметров. Чаще всего используется метод наименьших квадратов. Его суть заключается в следующем требовании: искомые теоретические значения результативного признака должны быть такими, при которых бы обеспечивалась минимальная сумма квадратов их отклонений от эмпирических значений, т.е. должна быть минимизирована функция вида:
.
Поставив данное условие, легко определить, при каких значениях a0, a1 и т.д. для каждой аналитической кривой эта сумма квадратов отклонений будет минимальной.
Используя метод наименьших квадратов для нахождения параметров a0 и a1 для линейной формы связи, получим систему уравнений:
Выразив из первого уравнения данной системы a0, получим:
Подставив полученное значение а0 во второе уравнение нашей системы и разделив обе его части на n, получим:
Применяя три раза формулу средней арифметической величины, получим:
Раскрыв скобки и перенеся члены без a1 в правую часть уравнения, выразим a1:
Расчет ошибок параметров уравнения регрессии основан на использовании остаточной дисперсии (среднего квадратического отклонения) (), характеризующей расхождение (отклонение) между эмпирическими и теоретическими значениями результативного признака. Для линейного уравнения регрессии средние ошибки параметров a0 и a1 определяются по следующим формулам:
Значимость любого параметра регрессии проверяется путем сопоставления его значения со средней ошибкой. Обозначим это соотношение как t:
При большом числе наблюдений (n > 30) параметр ai считается значимым, если . Если выборка малая (n < 30), то значимость параметра проверяется путем сравнения фактического (расчетного) значения t с табличным значением t-критерия Стьюдента. При этом учитывается число степеней свободы ν=n-k-1 (k – число параметров, включенных в уравнение регрессии) и уровень значимости α. Последний показатель характеризует вероятность (P) того, что будет отвергнута правильная гипотеза (в корреляционно-регрессионном анализе – гипотеза о форме уравнения регрессии). В статистических исследованиях в зависимости от важности решаемых задач используется преимущественно три уровня значимости:
α = 0,10, тогда P = 0,90;
α = 0,05, тогда P = 0,95;
α = 0,01, тогда P = 0,99.
Так, α = 0,05 означает, что в 5 случаях из 100 может быть отвергнута правильная гипотеза.
Рассчитанные параметры аi уравнения регрессии признаются значимыми (типичными), если t фактическое больше t табличного.
Наряду с проверкой значимости отдельных параметров осуществляется проверка значимости уравнения регрессии в целом, т.е. проверка адекватности модели с помощью расчетного критерия Фишера:
Сравнение расчетного и теоретического значений критерия Фишера также ведется при заданном уровне значимости и с учетом степеней свободы: ν1 = k – 1 и ν2 = n – k. При условии Fр > FТ считается, что выбранная математическая модель уравнения регрессии адекватно отражает реальную ситуацию.
На практике расчеты параметров уравнения регрессии и оценку его значимости целесообразно проводить с помощью специальных компьютерных программ, в частности, Excel, EViews, Statgraphics, Statistica и т.д. Так, в Microsoft Office Excel предусмотрены средства статистического анализа данных (так называемый пакет анализа), предназначенные для решения статистических и инженерных задач, включая и задачи корреляционно-регрессионного анализа. Во многих учебниках по статистике подробно раскрывается элементарная техника работы с Excel.
5.5. Теоретические основы темы «Статистические методы определения тесноты корреляционной связи»
Обобщающими показателями корреляции числовых значений признаков являются теоретическое корреляционное отношение, коэффициент детерминации и индекс корреляции. Они применяются для оценки тесноты связи между признаками как для линейных, так и нелинейных форм предполагаемых зависимостей – в этом заключается универсальность данных показателей.
Прежде чем записать математические формулы необходимо уяснить экономико-статистический смысл этих показателей. Идея корреляционного отношения и связанных с ним показателей очень проста. Данный коэффициент характеризует степень приближения корреляционной зависимости к функциональной. Главным посылом при построении корреляционного отношения для однофакторной модели является предположение, что на результативный признак у влияет фактор х и прочие неизвестные (неучтенные) факторы. При функциональной связи фактор х целиком бы определял у. Вариация результативного признака на 100% была бы обусловлена вариацией факторного признака. Однако, если же связь не функциональная, то какая-то доля вариации результативного признака обусловлена вариацией все того же факторного признака, но другая доля – влиянием неучтенных факторов. Так, не только доходы человека влияют на его потребление, но и другие факторы: состав семьи, склонность к сбережению, уровень инфляции и т.д. По эмпирическим данным доходов и потребления корреляционное отношение покажет тесную связь между ними, но она будет не 100%-я, т.к. иные факторы оказались неучтенными.
Влияние прочих (неучтенных) факторов отражается в таком статистическом показателе, как остаточная дисперсия. Она характеризует вариацию эмпирических значений результативного признака относительно теоретических (выровненных) значений. Вариация результативного признака под влиянием только одного факторного признака отражается в так называемой факторной дисперсии, а под влиянием всех факторов (учтенного и неучтенных) – общей дисперсии. Все эти дисперсии рассчитываются по следующим формулам:
остаточная, факторная и общая дисперсии.
Теоретическое корреляционное отношение (), коэффициент детерминации (D) и индекс корреляции (R) определяются на основе соотношения дисперсий по формулам:
Использование данных формул предполагает знание формы корреляционной связи, т.е. необходимо сначала рассчитать параметры уравнения регрессии, теоретические значения результативного признака и лишь затем полученные результаты подставлять в формулы дисперсий. Отметим также, что следует отличать теоретическое и эмпирическое корреляционные отношения. Последний показатель применяется при определении тесноты связи по сгруппированным данным, а не по индивидуальным значениям факторного и результативного признаков, как это делается в случае теоретического корреляционного отношения. Группировка осуществляется по факторному признаку и на основе правила сложения дисперсий определяется эмпирическое корреляционное отношение (эмп):
где межгрупповая дисперсия результативного признака, определяемая по формуле:
где среднее значение результативного признака по i-й группе.
Теоретическое корреляционное отношение и индекс корреляции характеризуют степень тесноты связи между факторным и результативным признаками и меняются в диапазоне от 0 до 1. При этом направление связи с помощью этих коэффициентов определить не представляется возможным. Чем ближе значение показателей к 1, тем сильнее связь между признаками. На практике применяется шкала Чэддока, показывающая характер связи в зависимости от численного значения теоретического корреляционного отношения:
η = 0 – связь отсутствует;
0 < η < 0,2 – связь очень слабая;
0,2 ≤ η < 0,3 – связь слабая;
0,3 ≤ η < 0,5 – связь умеренная;
0,5 ≤ η < 0,7 – связь заметная;
0,7 ≤ η < 0,9 –связь сильная;
0,9 ≤ η < 1 – связь весьма сильная;
η = 1 – связь функциональная.
Коэффициент детерминации характеризует долю вариации результативного признака под влиянием факторного признака. Например, если при изучении связи между доходами и потреблением D = 0,86, то это означает, что вариация потребления какого-то продукта или услуги на 86% происходит под влиянием фактора дохода, а на 14% она обусловлена влиянием иных неучтенных факторов.
Частным случаем индекса корреляции является линейный коэффициент корреляции (r), применение которого возможно только в случае предполагаемой линейной связи. Данный коэффициент представляет собой среднюю величину из произведений нормированных отклонений для факторного и результативного признаков, т.е.
Несложные математические преобразования позволяют привести формулу коэффициента вариации к виду, наиболее удобному для практических расчетов:
Линейный коэффициент корреляции может принимать значения от –1 до +1, причем знак определяется в ходе решения. Это означает, что коэффициент отражает не только тесноту, но и направление связи. Если r принимает положительное значение, то это характеризует прямую связь между признаками, в противном случае (r < 0) – обратную связь. Также как и в случае с теоретическим корреляционным отношением всякое промежуточное значение r от 0 до 1 характеризует степень приближения корреляционной связи к функциональной. Для линейного коэффициента корреляции также справедлива шкала Чэддока.
Таким образом, любые коэффициенты корреляции служат как мерой тесноты связи, так и показателями, характеризующими степень приближения корреляционной зависимости между признаками к функциональной. При этом близость значения линейного коэффициента к нулю в одних случаях может означать отсутствие связи между факторным и результативным признаками, а в других свидетельствовать о том, что зависимость нелинейная.
5.6. Методические указания по выполнению задания
Связи между общественными явлениями многообразны и сложны. В экономической сфере они распространены между производством, распределением и потреблением продукции и услуг, между отраслями народного хозяйства, регионами, предприятиями и физическими лицами.
Существуют различные классификации взаимосвязей, одна из которых предполагает их деление на два типа: функциональную и стохастическую связь. В первом случае предполагается детерминированная связь между двумя переменными (факторным и результативным признаками): с изменением значения факторного признака значение результативного признака меняется строго определенно. Во втором случае предполагается случайное взаимодействие признаков. Частным случаем стохастической связи является корреляционная связь, которая проявляется в среднем, для массовых наблюдений, когда признаки подчинены нормальному закону распределения вероятностей. В социально-экономической сфере преобладают корреляционные связи между явлениями.
Статистический анализ взаимосвязей использует две группы методов: методы оценки тесноты связи между факторным и результативным признаками (методы корреляционного анализа) и методы установления формы зависимости между этими признаками (методы регрессионного анализа). Проведение корреляционно-регрессионного анализа включает в себя пять этапов и предполагает соблюдение определенных условий (большой объем исходной информации, качественная однородность рассматриваемых совокупностей и т.д.).
Выявление наличия корреляционной связи осуществляется с помощью таких методов, как метод параллельных рядов, метод корреляционных таблиц, метод аналитической группировки и графический метод. Математическая форма связи устанавливается на основе уравнения регрессии – математической модели, в которой среднее значение результативного признака рассматривается как функция одной или нескольких переменных – факторных признаков. Главная задача регрессионного анализа заключается в поиске того типа функции, с помощью которого можно наиболее точно отразить ту или иную эмпирическую зависимость между факторным и результативным признаками.
Обобщающим показателем тесноты связей является теоретическое корреляционное отношение, характеризующее степень приближения корреляционной зависимости к функциональной.
Прежде чем выполнять задание необходимо повторить уже пройденный материал, изучить новый теоретический материал и ответить на ряд вопросов:
что представляет собой взаимосвязь и какие существуют виды связей между социально-экономическими явлениями?
чем отличаются друг от друга функциональные и корреляционные связи?
в чем заключается сущность корреляционно-регрессионного анализа, и какие требования предъявляет статистика к его проведению?
какие этапы включает в себя корреляционно-регрессионный анализ?
с помощью каких методов можно выявить форму корреляционной связи?
что такое уравнение регрессии, каков его экономический смысл?
какие формы может принимать уравнение регрессии и как определяются его параметры?
каким образом можно проверить адекватность регрессионной модели и ее параметров?
какими показателями располагает статистика при определении тесноты связи между количественными признаками?
в чем заключается экономико-статистический смысл теоретического корреляционного отношения, коэффициента детерминации и линейного коэффициента корреляции?
Знание ответов на эти вопросы весьма важно, поскольку они дают теоретическую основу для проведения статистических исследований, направленных на выявление и количественную оценку взаимосвязей социально-экономических процессов.
Содержание проекта должно включать следующие пункты:
введение (пишется в последнюю очередь);
обоснование выбора взаимосвязанных показателей;
построение уравнения регрессии, оценка адекватности модели;
расчет показателей тесноты корреляционной связи;
заключение.
Во введении необходимо:
сформулировать тему статистического исследования: «Анализ взаимосвязи между курсом рубля к доллару и ценами на нефть».
сформулировать цель исследования (какие результаты необходимо получить в процессе исследования);
раскрыть актуальность темы исследования (почему она важна в настоящее время?);
указать предмет исследования (какое явление исследуется?);
указать объект исследования (в отношении чего, кого или где исследуется);
задать методологию исследования (перечень методов, приемов и способов сбора исходных данных и их обработки).
По результатам работы и сделанным в ее процессе выводам делается общее заключение (общее творческое самостоятельное размышление по теме исследования, содержащее личное отношение к исследуемой проблеме и сделанным выводам). При написании заключения следует обратиться к официальным статистическим сайтам, отражающим состояние исследуемых проблем в Нижнем Новгороде, Нижегородской области, других субъектах Российской Федерации и в других странах.
Выполнение индивидуального творческого задания закрепит уже приобретенные и выработает новые навыки, самостоятельного поиска и систематизации информации, необходимой для исследования. В результате выполнения задания приобретается умение корректно использовать методы исследования взаимосвязей социально-экономических процессов и явлений.
6. Указания по оформлению работ
6.1. Требования к содержанию работы
Целью самостоятельной творческой работы является развитие исследовательских умений, способностей применять теоретические знания для оценки и анализа современного состояния и тенденций социально-экономического развития, выявлять проблемы и намечать пути их решения. В процессе выполнения задания студент осуществляет:
выбор области, предмета и объекта исследования, формулировку его темы;
поиск информации в соответствии с поставленной целью проекта;
систематизацию исходных данных;
выбор методов и методик обобщающей количественной оценки исследуемых объектов, явлений, процессов;
расчеты обобщающих показателей;
графическую и табличную интерпретацию результатов;
выводы по каждому исчисленному показателю;
обобщение результатов исследования, формулировку выявленных проблем и возможных путей их решения;
оформление проекта;
подготовку презентации;
презентацию.
Формулировка темы – исходная и важная часть индивидуального проектирования. Основные требования – индивидуальность, актуальность и четкая формулировка темы с указанием предмета, объекта, временного периода и методов исследования. Например, тема может быть сформулирована следующим образом: «Статистическое исследование занятых в экономике Российской Федерации по возрасту в 2016 г. на основе рядов распределения и средних»; «Статистическое исследование износа основных фондов организаций Нижегородской области в 2012-2016 гг. на основе анализа временных рядов»; «Анализ динамики цен по потребительской корзине домохозяйства на основе индексного метода»; «Оценка связи суммы активов и величины собственного капитала коммерческих банков Нижнего Новгорода в 2016 г. методами корреляционно-регрессионного анализа» и т.д.
Информация, на основе которой выполняется творческое задание, также индивидуальна. Поиск ее осуществляется на официальных федеральных, региональных и муниципальных сайтах, в первую очередь на сайтах Росстата, Центрального банка России, Федеральной налоговой службы и др.
Дальнейшая систематизация и обработка данных производится на компьютере с использованием программных продуктов Excel и Statistica. Однако обязательное условие – отразить в проекте используемые методы, включая формулы, и методики, подробные расчеты и выводы по каждому исчисленному показателю и проекту в целом.
В заключительном выводе по работе излагаются суждения студента по современному состоянию изучаемого социально-экономического явления, перспективам его развития.
6.2. Требования к оформлению работы
Наличие титульного листа.
Компьютерный набор.
Формат А4.
Наличие формул расчета (набираются в Word), подстановки исходных данных в формулу, названий таблиц, рисунков, единиц измерения абсолютных величин.
Наличие ссылок на источники использованных данных.
Задание представляется в сброшюрованном распечатанном виде в файле или папке.
Литература
Основная литература
Едронова В.Н., Овчаров А.О. Статистическая методология в системе научных методов финансовых и экономических исследований. – М.: Магистр: ИНФРА-М, 2017. – 464 с.
Теория статистики [Электронный ресурс]: учебник / под ред. Г.Л. Громыко. – 3-e изд., перераб. и доп. – М.: НИЦ Инфра-М, 2015. – 476 с. – (Высшее образование: Бакалавриат). – Режим доступа: http://znanium.com
Едронова В.Н., Овчаров А.О., Бурова М.С. Статистика: Учебно-методическое пособие. Режим доступа: http://www.unn.ru/books/resources.html
Статистика: учеб.для студентов вузов, обучающихся по специальности «Статистика» и др. экон. специальностям / Харченко Л. П., Ионин В. Г., Глинский В. В., Долженкова В. Г., Серга Л. К. - М.: ИНФРА-М, 2016. – 445 с.
Дополнительная литература
Иода Е.В. Статистика [Электронный ресурс]: учеб.пособие / Е.В. Иода. – М.: Вузовский учебник : НИЦ Инфра-М, 2016. – 303 с. – Режим доступа: http://znanium.com
Шумак О.А. Статистика [Электронный ресурс] : учеб.пособие / О.А. Шумак, А.В. Гераськин. – М.: ИЦ РИОР: НИЦ Инфра-М, 2014. – 311 с. – (Высшее образование : Бакалавриат). – Режим доступа: http://znanium.com
Мелкумов Я.С. Социально-экономическая статистика [Электронный ресурс]: учеб.пособие / Я. С. Мелкумов. – 2-e изд. – М.: НИЦ Инфра-М, 2015. – 186 с. – (Высшее образование : Бакалавриат). – Режим доступа: http://znanium.com
Экономическая статистика [Электронный ресурс] : учебник / под ред. Ю.Н. Иванова. – 4 изд., перераб. и доп. – М.: ИНФРА-М, 2016. – 668 с. – (Высшее образование ).– Режим доступа: http://znanium.com
Валентина Николаевна Едронова
Антон Олегович Овчаров
СТАТИСТИКА
Учебно-методическое пособие
Федеральное государственное автономное
образовательное учреждение высшего образования
«Национальный исследовательский Нижегородский государственный университет им. Н.И. Лобачевского».
603950, Нижний Новгород, пр. Гагарина, 23.
|