Реферат Множинна регресія та кореляція

>Множественная регресія і кореляція

Нехай потрібно побудувати лінійну модель залежності деякого вихідного економічного показника , званогообъясняемой перемінної від набору вхідних показників , званих що пояснюють перемінними. Основний метод побудови таких моделей є метод найменших квадратів, зміст якого у цьому, щоб підібрати параметри моделі, що мінімізують суми квадратів відхилень модельних значеньобъясняемой перемінної від істинних значень. Метод найменших квадратів реалізований переважають у всіх статистичних пакетах програм, соціальній та засобах статистичного пакетаАнализа даних Microsoft Excel.

Нехай - спостереженьобъясняемой перемінної, а - спостережень пояснюють змінних. Завдання полягає у побудові з цієї вибірці лінійної моделі залежностіобъясняемой перемінної від вектора пояснюють змінних.

.

Тут – коефіцієнти моделі, що треба визначити, а - помилка виміру моделі.

Для адекватної роботи методу найменших квадратів слід дотримуватися наступних гіпотез:

1. . (специфікація моделі).

2. -детермінований величини, причому у матриці


стовпчики лінійно незалежні, тобто. ранг цієї матриці дорівнює .

3. - випадкова величина, яка задовольнить умовам

За. , математичне очікування помилки одно нулю;

>3b. , дисперсія помилки залежить від номери спостереження;

>3с. , тобто. помилки різних спостережень не залежать друг від друга.

>Справедлива теоремаГаусса-Маркова, що з умовах метод найменших квадратів дає найкращу у сенсі модель. Якщо що з умов вони не виконуються, то доводиться використовувати складніші методи.

Через війну застосування методу найменших квадратів перебувають оцінки коефіцієнтів моделі . За цією оцінкам і з значенням пояснюють змінних будуються модельні значенняобъясняемой перемінної . Означимо через відхилення істинного значенняобъясняемой перемінної від модельного для -го спостереження (). Якість моделі оцінюється через суму квадратів відхилень моделі

.


 (errorsum ofsquares) називається сумою квадратів помилок.

Метод найменших квадратів у тому, що серед усіх можливих наборів коефіцієнтів моделі перебуває набір, здатний мінімізувати .

Якщо всі коефіцієнти моделі, крім константи , рівні нулю, то - середньому значеннямобъясняемой перемінної. Тоді сума квадратів відхилень дорівнює

.

 

 (totalsum ofsquares) називається на суму квадратів.

за рахунок те, що в повному обсязі коефіцієнти моделі рівні нулю, сума квадратів відхилень зменшується. Відповідно до цим величина

означаєобъясненную суму квадратів (>regressionsum ofsquares).

Після набуття оцінок необхідно визначити, всі з них значимо від нуля, оскільки, якщо коефіцієнт нульовий, це, що відповідна пояснює змінна не бере участь у моделі. Коефіцієнт значущий, якщо гіпотезу його рівності нулю треба відкинути. Відповідно значимістю коефіцієнта називається можливість, що його знак збігається з знаком її оцінювання.

Для отриманої моделі треба вміти визначати, чи можна відкинути кілька входять до неї пояснюють змінних чи додати перемінні, які входять у модель. Для цього він, проводять тест визначення яка модель краще – «довга» чи «коротка». Слід також перевіряти однорідність моделі до різних наборів змінних. І тому призначений тест Чоу. Для оцінки адекватності моделі треба перевіряти тести виконання умов теоремиГаусса-Маркова.

Тест вплинув на вибір «довгою» чи «короткій» регресії

Цей тест використовується для відбору найістотніших пояснюють змінних. Наприклад, перехід від значної частини вихідних показників стану аналізованої системи до меншому числу найбільш інформативних змінних то, можливо обумовлений дублюванням інформації, доставленої сильно взаємопов'язаними ознаками чинеинформативностью ознак, мало мінливих під час переходу від однієї об'єкта до іншого. Тож якщо дві будь-які в яких розтлумачувалося перемінні сильнокоррелировани з результуючим показником  і один з одним, то це часто буває досить включення до модель а такою, а додатковим внеском від включення інший можна знехтувати.

Нехай . Припустимо, що модель залежить від останніх  пояснюють змінних і можна вилучити з моделі. Це відповідає гіпотезі

,

тобто. останні  коефіцієнтів рівні .

Тест з перевірки даної гіпотези ось у чому:

1. Побудувати поМНК «довгу» (>unrestricted) регресію за всіма параметрами і знайти нею .

2. ВикористовуючиМНК, побудувати «коротку» (>restricted) регресію з перших  параметрами і знайти нею .

3. Обчислити F-статистику:

4. Знайти критичну точку розподілу Фішера при обраному рівні значимості : .

5. Якщо , то гіпотеза відхиляється, тобто. варто використовувати «довгу» модель.

Якщо , то гіпотеза приймається, тобто. краще «коротка» модель.

Тест Чоу на однорідність залежностіобъясняемой перемінної від пояснюють

Насправді нерідко трапляється, коли є дві вибірки пар значень залежною і яка пояснюватиме змінних . Наприклад, одна вибірка пар значень змінних обсягом  отримана при одних умовах, іншу, обсягом , - при кілька змінених умовах. Необхідно з'ясувати, чи справді дві вибірки однорідні врегрессионном сенсі? Інакше кажучи, чи можна об'єднати дві вибірки в розглядати єдину модель регресії  по   (гіпотеза )?

Для перевірки гіпотези застосовується тест Чоу (>Chow), котра перебувала наступному:

1. ВикористовуючиМНК, побудувати модель за вибіркою обсягом і знайти нею .

2. Нехай є підстави припускати, що все вибірка і двохподвиборок обсягами  і. Для кожної їх будується лінійна регресія. - сума квадратів відхилень значень від регресійних значень , полічених по першоїподвиборке, – сума квадратів відхилень значень від регресійних значень , полічених за другоюподвиборке.

3. Обчислити F – статистику:

 ,

де  – число пояснюють змінних моделі.

4. Знайти критичну точку розподілу Фішера при обраному рівні значимості .

5. Якщо , ми можемо об'єднати дві вибірки до однієї. Якщо , необхідно використовувати дві моделі.

Тести нагетероскедастичность

 

>Гомоскедастичность – дисперсія кожного відхилення однакова всім значень  .

>Гетероскедастичность – дисперсіяобъясняемой перемінної (отже, і випадкових помилок) мінлива.

У тестах нагетероскедастичность перевіряється основна гіпотеза (тобто. модельгомоскедастична) проти альтернативної гіпотези : не (тобто. модельгетероскедастична).

 


ТестГольдфельда –Куандта (>Goldfeld -Quandt)

Цей тест застосовується, зазвичай, коли припущення про прямій залежності дисперсії помилок від величини деякою яка пояснюватиме перемінної, що входить у модель.

Передбачається, що є нормальне розподіл. Тест включає у собі такі кроки:

1.Упорядочить дані про спадаючій (чи з зростанню) тієї незалежної перемінної, щодо якого є підозра нагетероскедастичность.

2. Виключити  середніх (у тому упорядкування) спостережень (, де – загальна кількість спостережень).

3. Провести дві незалежних регресії перших спостережень та останніх спостережень і знайти, відповідно, і . З і вибираємо велику підтримку і меншу величини, відповідно, і .

4. Скласти статистику і знайти з розподілу Фішера , де  – число пояснюють змінних моделі.

5. Якщо , то гіпотеза відхиляється, тобто. модельгетероскедастична, і якщо , то гіпотеза приймається, тобто. модельгомоскедастична.


ТестБреуша –Пагана (>Breusch -Pagan)

Цей тест застосовується у тому випадку, коли передбачається, що дисперсії залежить від деяких додаткових змінних. Нехай , . Тест ось у чому:

1. Провести звичайну регресію й одержати . (І тому в діалоговому вікні >Регрессия встановити прапорець на функцію Залишки)

2. Побудувати оцінку .

3. Провести регресію і знайти неюобъясненную частина варіації .

4. Побудувати статистику .

5. Якщо (де >p – число змінних, від яких ), то має місцегетероскедастичность.

Якщо , то -гомоскедастичность.

- критична точка розподілу (>хи-квадрат) при обраному рівні значимості , перебування якої виконати таку послідовність дій:  >fx Статистичні >ХИ2ОБР


ТестДарбина – Вотсона (>Darbin-Watson) на наявністьавтокорреляции

Цей тест використовується щоб виявитиавтокорреляции першого порядку, тобто. перевіряєтьсянекоррелированность не будь-яких, лише сусідніх величин .Соседними зазвичай вважаються сусідні у часі (під час розгляду часових рядів) чи з зростанню яка пояснюватиме перемінної  значення .

Гіпотеза (>автокорреляция відсутня).

Загальна схема критеріюДарбина – Вотсона наступна:

1. По емпіричним даним побудувати рівняння регресії поМНК і побачити значення відхилень кожному за спостереження >t (>t = 1, 2, …, n).

2.Рассчитать статистику >DW:

3. По таблиці критичних точок розподілуДарбина –Вотсона для рівня значимості , числа спостережень  і кількість пояснюють змінних визначити два значення: - нижню межу і - верхня межа (таблиця 2).

Повний варіант таблиці приведено у розділіМатематико-статистические таблиці (Таблиця 5. ЗначенняdH іdB критеріюДарбина—Уотсона лише на рівні значимості = 0,05 (n — число спостережень, р — число пояснюють змінних). множинний кореляція регресія

Таблиця 2.

СтатистикаДарбина – Вотсона, державний рівень значимості 0,05

 

1 2 3 4 5

 

 

20 1,20 1,41 1,1 1,54 1,00 1,67 0,90 1,83 0,79 1,99

 

21 1,22 1,42 1,13 1,54 1,03 1,66 0,93 1,81 0,83 1,96

 

22 1,24 1,43 1,15 1,54 1,05 1,66 0,96 1,80 0,86 1,94

 

23 1,26 1,44 1,17 1,54 1,08 1,66 0,99 1,79 0,90 1,92

 

24 1,27 1,45 1,19 1,55 1,10 1,66 1,01 1,78 0,93 1,90

 

25 1,29 1,45 1,21 1,55 1,12 1,66 1,04 1,77 0,95 1,89

4. Зробити висновки з правилу:

 - існує позитивнаавтокорреляция (), відхиляється;

- висновок про наявністьавтокорреляции невизначений;

-автокорреляция відсутня, приймається;

- висновок про наявністьавтокорреляции невизначений;

- існує негативнаавтокорреляция (), відхиляється.


Схожі реферати:

Навігація