• RU
  • icon На проверке: 32
Меню

Регрессионный анализ модели системы

  • Добавлен: 24.01.2023
  • Размер: 796 KB
  • Закачек: 0
Узнать, как скачать этот материал

Описание

Регрессионный анализ модели системы

Состав проекта

icon
icon
icon
icon Титульный.doc
icon Курсовая.rtf
icon Записка.doc
icon Блок-схема.cdw
icon Курсовая.mcd
icon Блок-схема к регрессионному анализу.doc
icon
icon
icon
icon Титульный.doc
icon Курсовая.rtf
icon Записка.doc
icon Блок-схема.cdw
icon Курсовая.mcd
icon Блок-схема к регрессионному анализу.doc
icon Курсовая.mcd

Дополнительная информация

Контент чертежей

icon Титульный.doc

Министерство Образования Украины
Национальный Технический Университет Украины "КПИ
Кафедра Технической Кибернетики
«Моделирование систем»
«Регрессионный анализ модели системы»
доцент Чумаченко Е. И.студент 3 курса
Допущено к защите:Каспич М.В.

icon Записка.doc

РЕГРЕССИОННЫЕ МОДЕЛИ6
ОСНОВНЫЕ ПОЛОЖЕНИЯ КЛАССИЧЕСКОГО РЕГРЕССИОННОГО АНАЛИЗА11
МЕТОД НАИМЕНЬШИХ КВАДРАТОВ15
2 Оценивание коэффициентов регрессии с помощью МНК16
СВОЙСТВА МНК-ОЦЕНОК19
1 Свойства не зависящие от вида распределения19
2 Свойства связанные с предположением о нормальном распределении24
СТАТИСТИЧЕСКИЙ АНАЛИЗ РЕГРЕССИОННОЙ МОДЕЛИ26
1 Проверка однородности дисперсий26
2 Проверка гипотез о значимости регрессионных коэффициентов28
3 Проверка адекватности регрессионной модели30
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ44
Регрессионный анализ – один из наиболее широко распространённых статистических методов. Он используется при построении математической зависимости на основе экспериментальных данных. Трудно перечислить все сферы человеческой деятельности где применение этого метода было плодотворным.
Благодаря регрессионному анализу возможны построение математической модели и статистический анализ результатов. В первом случае прибегают к различным вариантам метода наименьших квадратов который был создан Адрианом Мари Лежандром (1805 г.) и Карлом Фридрихом Гауссом (1809 г.). Последний утверждал что разработал этот метод ещё в 1795 г. а в 1801 г. с его помощью определял траекторию малой планеты Церера. Само понятие регрессии было введено в 1885 г. Френсисом Гальтоном в связи с его антропологическими исследованиями. Он соединил метод наименьших квадратов со средствами статистического анализа полученных результатов и таким образом регрессионный анализ стал общим методом построения математических моделей на основе экспериментальных данных.
При столь долгой истории регрессионного анализа можно было бы ожидать что он давно полностью изучен остановился в своём развитии и перестал интересовать специалистов. Но это не так. С появлением и развитием вычислительной техники возможности регрессионного анализа расширились в силу чего резко возросло число публикаций на эту тему. Чрезвычайно быстро расширяются возможности метода при решении практических задач повышается точность получаемых результатов. Вместе с тем приложения регрессионного анализа и интерпретация его результатов требуют глубоких знаний и умения правильно оценивать получаемую информацию.
Формирование основных направлений развития регрессионного анализа было связано с совершенствованием средств диагностики нарушения предпосылок классической процедуры а также с созданием методов преодоления последствий таких нарушений. Появился анализ остатков были созданы гораздо более совершенные методы выбора структуры модели развивались вычислительные методы оценивания регрессионных коэффициентов и ряд методов регрессионного анализа при коррелированных и неоднородных наблюдениях. Возникли модификации метода регрессионного анализа в случае ошибок в задаваемых уровнях факторов. Особого внимания заслуживают алгоритмы устойчивого оценивания при нарушении предположения о нормальности наблюдений и уточнения статистического анализа в этом случае.
До недавнего времени регрессионный анализ опирался на тщательно разработанную систему предпосылок выполнение которых гарантировало оптимальность получаемых оценок.
Рассмотрим некоторые принципиальные вопросы связанные с предпосылками их проверкой и альтернативными процедурами. Предпосылки классической модели Гаусса-Маркова первоначально появились как результат обобщения законов имманентных природе которые естественно всегда выполняются. Если же вдруг оказалось что они нарушены это относили за счёт некомпетентности человека собиравшего данные или за счёт недостатков методики их сбора или наконец за счёт грубых ошибок. Каноны в таком случае сомнению не подвергали. При подобной точке зрения проверка выполнимости предпосылок просто бессмысленна. Важно лишь работать тщательно и аккуратно на всех этапах что верно всегда а не только при обработке данных. Здесь предпосылки-постулаты сродни аксиомам математической теории: опираясь на них можно строить изящные дедуктивные конструкции а вопрос об их верности просто не имеет смысла. Так была построена теория классического регрессионного анализа.
Выбравшись из недр теории регрессионный анализ стал быстро развиваться. Сначала его методы применялись в астрономии и геодезии потом в химии а позднее в экономике. Возможность не беспокоиться о предпосылках была очень удобна поскольку все силы можно было сосредоточить на содержательной интерпретации результатов. Вместе с тем расширение области практических приложений всё чаще заставляло задумываться о правомерности подхода основанного на слепой вере в незыблемость предпосылок. Время от времени появлялись задачи которые явно противоречили предпосылкам. Под влиянием сомнений порождаемых такими задачами возникла идея проверки выполнимости постулатов. Понимаемая буквально она оказалась нереализуемой поскольку требовала большого объёма эксперимента и огромных затрат на обработку результатов. В этой ситуации очень удачным оказался подход основанный на анализе остатков хоть и не до конца формализованный но фактически реализуемый. Анализ остатков получил широкое распространение. В восьмидесятые годы новый импульс анализу остатков придало развитие диалоговых систем на базе мини- и микроЭВМ.
Распространённая точка зрения при возникновении ситуации невыполнения постулатов такова: не обращать внимание на нарушения и применять классическую процедуру как будто ничего не случилось. При этом может получиться разумный ответ. И только если этого не произойдёт принимать меры. Подобный подход нередко себя оправдывает что обеспечивается видимо избыточностью эксперимента и интуицией экспериментатора.
Однако всё чаще в подобных ситуациях обращаются к дисперсионному ковариационному или конфлюэнтному анализу. Причём выбор какого-нибудь из этих вариантов регрессионного анализа происходит обычно не в ходе анализа остатков а при логическом исследовании исходной ситуации.
Принципиально другой подход к проблеме возможен если считать что классическая модель совершенна а когда она нарушается надо «подогнать» к ней ситуацию с помощью преобразований. Это достижимо почти всегда хотя и не так просто как кажется на первый взгляд. Интересно что основная проблема здесь – не столько в отыскании подходящего преобразования сколько в истолковании интерпретации получаемых результатов. Если бы мы научились лучше понимать смысл преобразованных моделей методы такого рода как скажем факторный или компонентный анализ применялись бы на практике гораздо чаще.
Можно преобразовывать однако не данные а методы обработки например искать такие методы которые оказались бы малочувствительными к нарушениям предпосылок. По предложению Дж. Бокса методы обладающие подобными свойствами стали называться робастными или устойчивыми.
Робастные методы допускают нарушения некоторых предпосылок но требуют чтобы эти нарушения находились в определённых рамках. Если же границы нарушений не определены применять робастные методы становится рискованно. В такой ситуации лучше использовать непараметрические (свободные от распределения) методы. Непараметрические методы превратились в последнее время в стройную систему вполне конкурентоспособную с методами параметрической статистики. Во всяком случае для нескольких распространённых ситуаций возможно и получить оценки и проверить гипотезы в рамках рангового подхода.
Можно разработать специальные методы пригодные для случаев если не всех возможных то по крайней мере наиболее распространённых вариантов нарушений. Сначала такие методы появились в эконометрических исследованиях затем в работах по статистике. В качестве примера нарушения наиболее подробно описанного в литературе назовём модель авторегрессии.
Иногда удобно рассматривать предпосылки как некоторую априорную информацию о свойствах задачи. В конкретных исследованиях в нашем распоряжении сверх того может оказаться дополнительная информация позволяющая конкретизировать и уточнить постулаты. Тогда целесообразно использовать байесовскую концепцию.
Итак возможностей много и выбор подходящей превращается в проблему. Тем более что уже появился новый подход радикально меняющий ситуацию.
Этот подход называется анализом данных. Его развитие связано с именем Дж. Тьюки. Он предложил использовать одновременно несколько наборов предпосылок варьируя их и сравнивая результаты. Там где результат выглядит наиболее привлекательно предпосылки лучше. Именно их и стоит взять за основу. Конечно возникает большой перебор вариантов что влечёт за собой увеличение объёма вычислений. Справиться с этим помогают методы имитационного моделирования.
Отказываясь от предпосылок классического регрессионного анализа мы в гораздо большей степени зависим от ЭВМ и программного обеспечения.
В последние годы в статистике начали развиваться новые подходы требующие интенсивного использования ЭВМ но позволяющие освободиться от некоторых обременительных предпосылок. Среди таких подходов выделяются два: подход опирающийся на графические методы анализа и подход основанный на управлении выборкой в ходе обработки данных получивший распространение благодаря работам Б. Эфрона и связанный с так называемой процедурой «бутстреп». Пока ещё трудно оценить последствия «бутстрепизации» статистики но уже ясно что она привела к пересмотру ряда сложившихся представлений.
Появление новых поколений ЭВМ и развитие статистических методов привели к разработке диалоговых систем обработки информации имеющих предметную ориентацию. Одной из таких предметных областей по-видимому становится сама статистика. Подобные системы называются экспертными. Они выполняют консультационные функции в интерактивном удобном пользователю режиме.
Концепция анализа данных в сочетании с «машиноёмкими» и графическими методами служит методологической основой для построения экспертных систем в области статистики. Такие системы не могут не охватывать круг проблем связанных с нарушениями предпосылок статистических моделей. Мы достигли бы ощутимого прогресса если бы на этом уровне удалось согласовать предпосылки теории относящейся к предметной области решаемой задачи с предпосылками математической модели определяющими стратегию и тактику обработки данных и влияющими на интерпретацию результатов. Приходится констатировать что сейчас между этими системами предпосылок лежит глубокая пропасть.
В данной работе была рассмотрена и проведена процедура классического регрессионного анализа (вычисление коэффициентов уравнения регрессии и статистический анализ результатов).
Регрессионные модели
Главная задача которая решается с помощью регрессионного анализа - создание математических моделей некоторых объектов или явлений на основе экспериментов или наблюдений. Эти модели представляют собой определённые математические соотношения между показателями работы объекта или характеристиками наблюдаемого явления и обусловливающими их величинами . Будем называть зависимыми переменными выходными характеристиками или откликами объекта а - входными переменными независимыми характеристиками или факторами. Для одного и того же объекта можно создать множество моделей:
причём каждая описывает лишь один из показателей интересующих исследователя. В зависимости от целей исследования один и тот же объект с одинаковыми показателями может описываться различными моделями.
Выбор подходящей модели – это в значительной степени искусство и при определении её вида часто решающую роль играют опыт и знания исследователя. Модель всегда отражает данное явление с некоторым приближением.
Есть и ещё одна причина по которой модель не отражает протекающее явление абсолютно точно. Всегда есть величины которые влияют на результаты но не измеряются во время эксперимента. Часть из них имеет систематический характер и в силу этого может с течением времени вызвать изменения коэффициентов модели. Другая же часть меняется случайным образом подчиняясь некоторому закону распределения. Такие величины ещё называют случайными возмущениями. В силу их действия повторные опыты при одних и тех же значениях факторов будут давать различные значения зависимой переменной. Модель не может точно учесть влияние случайных возмущений в каждом отдельном измерении она показывает лишь некоторые усреднённые характеристики.
Следовательно нет оснований говорить об «истинной» модели в полном смысле слова. Тем не менее модели с успехом используются на практике. Обычно под «истинным» значением понимают условное математическое ожидание зависимой переменной при заданных значениях факторов:
где Е – знак математического ожидания.
Это равенство называется уравнением регрессии и показывает изменение среднего значения отклика объекта при изменениях факторов. Фактически измеряемая выходная характеристика есть
где - случайное возмущение. Чаще всего принимают что действие на объект множества случайных возмущений эквивалентно действию одного-единственного возмущения с нормальным распределением нулевым математическим ожиданием и дисперсией . Это предположение выполняется достаточно хорошо для многих практических задач в которых все случайные возмущения оказывают воздействия соизмеримые одно с другим. Основанием этому служит центральная предельная теорема теории вероятностей.
Существует большое число различных регрессионных моделей определяемых конкретным видом функции
где всегда присутствуют некоторые коэффициенты которые надо определять по экспериментальным данным. В зависимости от того как эти коэффициенты входят в уравнение регрессии модели делятся на линейные и нелинейные по параметрам.
Под линейной обычно понимают модель линейную по параметрам. Например модель
по отношению к коэффициентам не нелинейна по отношению к факторам.
Нередко регрессионные модели представляют полиномами по степеням факторов. Подобное представление опирается на тот факт что отклики – часто непрерывные функции от факторов и их можно разложить в ряд Тейлора.
Ясно что все функции разложимые в ряд Тейлора можно аппроксимировать полиномами. Это важно отметить так как полиномами трудно аппроксимировать функции с разрывами т.е. не имеющие производных. Полиномы не годятся для описания явлений со скачкообразными изменениями выходной характеристики при изменении факторов функций с гистерезисом релейных функций и т.п.
Когда исследуется периодический процесс его наилучшее описание можно получить разложением в ряд Фурье:
где - частота меняющаяся в пределах . Такие модели используются в электротехнике геофизике океанологии биологии медицине и других прикладных областях.
Для описания временных характеристик используется ещё так называемая модель распределённого лага:
Это выражение предполагает что измерения делаются в дискретные моменты времени отстоящие друг от друга на интервал . Через обозначена выходная характеристика в -й момент времени т.е.
а - та же самая величина измеренная на тактов раньше; - значение фактора измеренное с запаздыванием на тактов по отношению к текущему -му моменту.
В уравнении (1.1) записана одна выходная характеристика но аналогичные модели можно строить и когда в исследовании участвует несколько откликов. Если для случайных процессов вход явно не определён то пользуются так называемой моделью авторегрессии:
Моделью авторегрессии например описывается изменение числа пассажиров на железнодорожной магистрали через определённое время. Отклик может рассматриваться и как функция некоторого фактора (нескольких факторов) заданного через определённые промежутки времени:
Представление всех моделей в единой форме удобно при организации вычислительных процедур регрессионного анализа однако аналогия между моделями разных видов отнюдь не полная. Например модели (1.2) и (1.3) описывают зависимость выходной характеристики в - й момент от её значений в предыдущие моменты а это предполагает зависимость между наблюдениями во времени которая влечёт за собой значительные изменения как в вычислительной процедуре так и в статистическом анализе результатов.
Многие нелинейные по параметрам модели линеаризуемы с помощью подходящего преобразования переменных. В биологии например используется так называемая логистическая функция показывающая зависимость доли погибших вредных насекомых
( - число погибших насекомых - общее число насекомых) при заданной дозе инсектицида. Логистическая зависимость имеет вид
и говорит о том что очень маленькие и очень большие дозы яда не приводят к существенному изменению доли погибших насекомых (при очень малых дозах гибнут самые не жизнестойкие а при очень больших – все).
Если к логистической зависимости применить преобразование
то как легко проверить она примет вид
а эта зависимость линейна относительно искомых параметров.
В моделях которые рассматривались до сих пор предполагалось что все независимые переменные могут меняться в заданных интервалах непрерывно. Однако в некоторых задачах часть факторов имеет качественный характер и может принимать только определённые дискретные значения. В этом случае в модель вводят так называемые индикаторные переменные показывающие имел ли некоторый фактор в определённом наблюдении заданное значение или нет. Фактор с качественными уровнями можно представить индикаторными переменными принимающими только значения 0 и 1.
Примером послужит задача построения модели количества газовых пор в сварном шве при аргонодуговой сварке никеля в зависимости от состава покрытия электрода (криолит - титан - алюминий - фтористый натрий - ) а также от условий сварки – времени горения - и длины дуги - . Длина дуги – качественный фактор который может принимать только два значения: длинная дуга () и короткая дуга . Линейная по параметрам и факторам модель имеет вид:
причём переменная равна 1 в экспериментах с длинной дугой и 0 – с короткой.
Другой пример индикаторной переменной даёт исследование выхода химической реакции в зависимости от температуры () давления () и pH раствора (). Опыты проводятся с сырьём поставляемым фирмами А В и С. Фирму- поставщик можно рассматривать как фактор с качественными уровнями принимающими значения. Его влияние можно представить двумя индикаторными переменными и . Вот линейная по параметрам и факторам модель для этого случая:
Если используется сырьё фирмы А то в этом уравнении полагаем =1 =0 для сырья фирмы В - =0 =1 а для фирмы С - =0 и =0.
В данном случае нельзя было бы выбрать для фирмы С отдельную индикаторную переменную () поскольку такой выбор всегда приводил бы к равенству а это - линейная зависимость между переменными наличие которой приводит к серьёзным вычислительным трудностям.
Индикаторные переменные могут участвовать и в более сложных моделях. Если например предполагается что действие факторов (температура давление pH раствора на выход у) зависит и от взаимного влияния между факторами модель может принять вид:
Могут использоваться и некоторые другие модели. Одни удобнее при описании данных наблюдения определённых явлений другие дают известные преимущества при обработке данных.
Основные положения классического регрессионного анализа
Стандартная процедура регрессионного анализа получила широкое практическое применение поскольку она справедлива при некоторых достаточно часто выполняемых предположениях.
Прежде всего ограничим рассматриваемые модели классом линейных т.е. таких что выходная характеристика представима в виде
где - номер наблюдения fiu – произвольные функции факторов не включающие неизвестные коэффициенты (регрессоры). Для N наблюдений упорядочим данные таким образом:
В принципе в таблицу 1 можно записать и более одного отклика. Поскольку для каждого отклика вид модели идентичен мы будем рассматривать данные наблюдений только для одного отклика*.
В классическом регрессионном анализе делают следующие основные предположения:
П.1. Величина есть случайная величина.
В силу этого и - тоже случайная величина с распределением того же вида что и что непосредственно вытекает из равенства
где - неслучайная величина.
П.2. Случайная величина имеет нулевое математическое ожидание т.е.
Это означает что средние отклонения от константы равны нулю что легко выполнимо. Поэтому данному условию можно подчинить все реальные наблюдения. Действительно допустим что
Значит наблюдения можно записать так:
и вместо случайного возмущения используется для которого предположение П.2 выполняется. Замена на означает что к «истинному» значению отклика прибавляется константа которая вычитается из среднего значения случайного возмущения. Поскольку постоянна при любых повторных - х опытах она действует на отклик одинаково. Поэтому нет никакого смысла отделять её от .
П.3. Значения случайной величины не коррелированны и имеют одинаковые дисперсии т.е.
Если помнить что и - константа нетрудно увидеть – то же условие выполняется и для отклика:
Предположение (2.2) часто не выполняется. Это имеет особое значение для случайных процессов и временных рядов где наблюдения статистически зависимы в соседних временных интервалах. Только использование моделей распределённого лага и авторегрессии показывает что наблюдения отклика в i-й момент зависят от его значений в предыдущие моменты времени.
Вместе с тем существует очень много реальных задач для которых условие (2.2) выполняется. Таковы почти все исследования статики производственных процессов когда результаты предыдущих опытов не оказывают никакого влияния на последующие.
Условие (2.3) часто называют условием однородности или гомоскедастичности наблюдений. Если же оно не выполняется наблюдения неоднородны (гетероскедастичны).
Однородность наблюдений означает что интенсивность случайных возмущений не изменяется ни при изменениях факторов ни во времени в течение которого делаются наблюдения. Данное условие выполняется очень часто поскольку обычно и условия проведения эксперимента и его точность остаются неизменными при различных значениях факторов. Однако встречаются и такие случаи когда наблюдения гетероскедастичны. Иногда это можно установить из содержательных соображений если известно что дисперсия случайного возмущения некоторым образом связана с математическим ожиданием отклика.
П.4. Случайная величина имеет нормальное распределение.
Это предположение выполняется очень часто. Причина заключается в том что согласно центральной предельной теореме влияние множества случайных величин с примерно одинаковыми дисперсиями эквивалентно влиянию единственной случайной величины с нормальным законом распределения. На практике мы нередко сталкиваемся именно с такими условиями. На исследуемый объект влияет множество случайных возмущений с относительно слабым воздействием. Их совокупное действие гораздо сильнее и соответствует действию одной случайной величины с нормальным распределением.
Для формулировки дальнейших предположений воспользуемся следующей - матрицей:
Назовём F матрицей регрессоров.
П.5. Матрица F не случайна.
Это означает что её элементы – известные числа точно заданные исследователем. Предположение нарушается когда факторы устанавливаются на заданные уровни или измеряются с ошибками. Если ошибки случайные то числа записанные для факторов в таблице 1 - просто один из множества возможных случайных наборов. Если же рассматривать эти числа как неслучайные полученные выводы будут относиться только к заданным значениям факторов. Однако для исследователя гораздо интереснее получить оценки коэффициентов регрессии и оценки их статистических свойств т.е. при заданном распределении ошибок измерения или ошибок в задании уровней факторов.
Нарушение предположения П.5 происходит и в случае когда исследователь хочет распространить выводы на более широкий класс значений факторов чем позволяют его данные.
П.6. На значения параметров в модели (2.1) не налагается никаких ограничений т.е. предварительно об их значениях ничего не известно и при вычислениях они могут получиться какими угодно. В некоторых случаях есть априорная информация о значениях параметров которую можно эффективно использовать для улучшения оценок.
П.7. Ранг матрицы F равен числу коэффициентов в модели т.е.
Предположение П.7 необходимо для реализации процедуры вычисления коэффициентов модели. Заранее ясно что оно нарушено если число опытов меньше чем число коэффициентов но нарушение данного условия может быть налицо и если достаточно чтобы между некоторыми столбцами матрицы F существовала линейная зависимость.
Классическим регрессионным анализом будем называть процедуру оценивания регрессионных коэффициентов и статистический анализ модели когда выполняются все семь предположений.
Метод наименьших квадратов
Поскольку результаты наблюдений суть случайные величины получить «истинные» значения коэффициентов из модели (2.1) нельзя. Вместо этого на основе данных таблицы 1 можно получить их оценки . Если речь идёт о модели (2.1) то она принимает вид:
Величина в (3.1) называется предсказанным значением отклика.
В регрессионном анализе для получения оценок коэффициентов модели (2.1) используется метод наименьших квадратов.
Из-за действия случайных возмущений предсказанное значение будет отличаться от результата измерения . Разности
Так как истинное значение вектора коэффициентов b и его оценка b различны y=h+e а =Fb. Отсюда вектор остатков:
Оценки коэффициентов регрессии естественно искать так чтобы обеспечить наименьшие возможные остатки но остатки многочисленны поэтому нужна некоторая суммарная характеристика которая должна зависеть от различий между измеренными и предсказанными значениями выходных характеристик в каждом опыте. Такую функцию обычно называют функцией потерь или функцией риска.
Вот одна из наиболее часто используемых функций потерь
В ней остатки возведены в квадрат чтобы компенсировать различия в их знаках.
Запишем сумму (3.2) в векторной форме. Пусть
обозначает N-мерный вектор-столбец измеренных значений отклика а
- N-мерный вектор соответствующих им предсказанных значений наконец
- вектор-столбец остатков. Как известно скалярное произведение вектора на самого себя равно сумме квадратов его элементов поэтому выражение (3.2) можно переписать в виде
Метод позволяющий оценивать регрессионные коэффициенты выбирают так чтобы минимизировать величину Q. Его называют обычно методом наименьших квадратов или просто МНК.
2 Оценивание коэффициентов регрессии с помощью МНК
Пусть на основе данных таблицы 1 нужно найти такие оценки коэффициентов регрессии которые минимизируют сумму Q определённую в (3.2). В силу предположения П.6 на возможные значения оценок не наложены никакие ограничения поэтому минимум получим приравняв к нулю производные по неизвестным оценкам . Но сначала подставим (3.1) в (3.2):
После дифференцирования этого выражения по искомым оценкам и приравнивания нулю первых производных получаем систему уравнений:
Константы –2 входящие во все уравнения не играют роли ибо для равенства нулю произведения достаточно чтобы равными нулю оказались соответствующие суммы. Поэтому полученная система сводится к виду:
Полученная система линейна относительно искомых оценок а число уравнений в ней равно числу неизвестных коэффициентов k модели. Она называется системой нормальных уравнений.
Запись системы нормальных уравнений можно упростить если положить:
Очевидно поскольку порядок перемножения функций под знаком суммы не важен. В новых обозначениях система нормальных уравнений примет такой вид:
В дальнейшем мы воспользуемся матричной записью. Обозначим - матрицу величин буквой G - вектор оценок искомых коэффициентов буквой b - вектор правой части системы буквой Z. Тогда
Важно заметить что G – симметричная матрица так как .
Вот матричная запись системы нормальных уравнений:
Матрица G называется информационной матрицей. Её можно представить через введённую в 2 матрицу регрессоров F:
Это утверждение проверяется непосредственно транспонированием F и перемножением FТ и F. Точно так же проверяется что
Значит систему нормальных уравнений можно переписать так
Это чаще всего встречающаяся форма записи нашей системы.
Если выполнено предположение П.7 т.е. ранг F равен k то ранг FТF тоже равен k так как из теории матриц известно что произведение матриц FТ и F есть положительно определённая матрица.
При этих условиях можно получить матрицу обратную к информационной. Обозначим её
умножение выражения (3.3) слева на матрицу (FТF)-1 приводит к решению системы нормальных уравнений:
b= (FТF)-1 FTy. (3.4)
Матрица С=(FТF)-1 называется матрицей дисперсий-ковариаций или матрицей ошибок. Иногда её называют просто дисперсионной или ковариационной матрицей.
Свойства МНК - оценок
1 Свойства не зависящие от вида распределения
Оценки регрессионных коэффициентов получаемые с помощью МНК - случайные величины поскольку они основаны на случайных наблюдениях. Поэтому их статистические свойства представляют большой интерес.
При принятых в 1 предположениях имеют место следующие свойства оценок:
МНК - оценки не смещены т.е. их математические ожидания равны истинным значениям:
Если - значение отклика при отсутствии возмущений его можно выразить так:
Вектор значений при N наблюдениях есть
и его можно представить в виде
С другой стороны поскольку математическое ожидание случайного возмущения равно нулю
Если учесть это обстоятельство и формулу (3.4) для математического ожидания вектора оценок получим:
что и доказывает несмещённость оценок.
При выводе (4.1) использовалось свойство П.5 в силу которого неслучайную матрицу F можно вывести из-под знака математического ожидания.
Свойство несмещённости означает что МНК не вносит в оценки неизвестных коэффициентов систематической ошибки. Если различные оценки bN получать многократно для разных выборок объёма N они будут группироваться вокруг математического ожидания b.
Дисперсии и ковариации оценок регрессионных коэффициентов определяются по формулам:
где - i-й диагональный элемент матрицы С=(FТF)-1 а - её - й недиагональный элемент.
Для доказательства этого свойства представим ковариационную матрицу оценок b таким образом:
Подставив это выражение в (4.4) и учитывая (3.4) получим
При выводе последнего выражения важно помнить что F – неслучайная матрица. Тогда она выводится из-под знака математического ожидания. Более того матрица (FTF)-1 – симметрична поскольку G= FTF. Поэтому транспонирование не меняет матрицу (FTF)-1.
которое входит в (4.5) имеет тот же вид что и (4.4) и представляет собой не что иное как ковариационную матрицу случайных наблюдений V(y); в соответствии с предположением П.3 она диагональна с одинаковыми элементами по диагонали т.е.
Подстановка этого результата в (4.5) приводит к
Запись (4.6) эквивалентна (4.2) и (4.3) что и доказывает эти утверждения.
Поскольку дисперсии и ковариации оценок b определяются элементами матрицы С=(FТF)-1 эту матрицу и называют матрицей ошибок или матрицей дисперсий-ковариаций.
Оценки полученные с помощью МНК эффективны т.е. имеют наименьшие дисперсии среди всех возможных линейных несмещенных оценок:
где - произвольная линейная несмещённая оценка .
Из (4.7) вытекает неравенство:
-след ковариационной матрицы
Имеет силу и соотношение:
где и - определители соответствующих матриц.
Свойства (4.7) (4.8) и (4.9) означают что точность МНК - оценок в общем случае выше чем точность любых других линейных несмещённых оценок. Определитель
называют обобщённой дисперсией. Таким образом МНК минимизирует обобщённую дисперсию.
Надо отметить что вывод соотношений (4.7) (4.8) и (4.9) имеет значение для любых конкретных наборов данных на основе которых получены оценки. Правда эффективность оценок зависит ещё и от самих данных так как для всех нетождественных наборов данных она будет разной. Её можно повысить выбирая подходящий план эксперимента т.е. подходящим набором данных.
Можно показать что МНК - оценки эффективны и в классе всех несмещённых оценок (линейных и нелинейных) если случайная величина имеет нормальное распределение.
МНК - оценки состоятельны т.е. когда число наблюдений N на основе которых эти оценки получены стремится к бесконечности сходится по вероятности к :
где - произвольное малое положительное число.
Для сходимости по вероятности часто пользуются следующей более простой записью:
Записи (4.10) и (4.11) эквивалентны.
Для доказательства состоятельности b подставим
Предположим что матрица
имеет предел. Кроме того если вспомнить что матрица F по предположению П.5 детерминирована становится ясно что её элементы не коррелированны с элементами вектора e значит
В таком случае из (4.12) и (4.13) получаем
что и доказывает состоятельность оценок МНК.
В математической статистике несмещённые эффективные и состоятельные линейные оценки принято называть наилучшими линейными оценками. Очевидно МНК - оценки полученные в предположениях классического регрессионного анализа принадлежат к этой категории.
Дисперсия предсказанного значения отклика определяется по формуле
- вектор функций из (3.1) вычисленный для совокупности факторов заданной вектором
Для доказательства воспользуемся определением дисперсии:
это равенство можно записать в виде:
Если учесть (4.6) то из последнего выражения получится результат (4.13).
Очевидно дисперсия предсказанного значения отклика различна в разных областях изменения факторов.
Если регрессионная модель выбрана правильно (т.е. ) несмещённая оценка дисперсии задаётся выражением
где - значение предсказанное по модели (3.1).
Доказательство этого утверждения опирается на тот факт что остатки для правильной модели можно рассматривать как несмещённые оценки случайных возмущений:
Так как оценки коэффициентов определяются посредством МНК числитель выражения (4.15) равен минимальному значению суммы из (3.2) называемой остаточной суммой квадратов и обозначаемой . Знаменатель
называемый числом степеней свободы остаточной суммы равен разности между числом опытов и числом линейных связей между результатами наблюдений . Эти линейные связи появляются в поскольку в участвуют коэффициентов которые определяются на основе тех же самых наблюдений с помощью решения системы нормальных уравнений (3.3).
Если же вид модели выбран неправильно (4.15) не может служить несмещённой оценкой дисперсии потому что тогда остаточная сумма будет определяться не только случайными возмущениями но и различиями между и обусловленными неправильным выбором структуры модели.
2 Свойства связанные с предположением о нормальном распределении
Свойства рассмотренные в п. 4.1 не связаны с предположением П.4 о нормальном распределении следовательно они сохраняют силу и при других распределениях. Предположение о нормальности позволяет конкретизировать ряд свойств оценок что имеет первостепенное значение при статистическом анализе результатов.
Если случайные возмущения есть независимые нормально распределённые случайные величины с нулевым математическим ожиданием и одинаковыми дисперсиями вектор оценок регрессионных коэффициентов b имеет многомерное нормальное распределение с математическим ожиданием и матрицей дисперсий-ковариаций .
Доказательство этого свойства основано на том что линейные преобразования случайных величин не меняют вида их законов распределения. Совместное распределение любого множества линейных функций от совокупности случайных величин с совместным нормальным распределением тоже будет нормальным а так как в соответствии с (3.4) вектор оценок b можно рассматривать как линейное преобразование случайного вектора y то вывод о нормальном распределении b очевиден. При определении математического ожидания использовалось (4.1) а вид матрицы дисперсий-ковариаций следует из (4.7).
Предсказанное значение отклика
есть линейное преобразование оценок но поскольку они распределены нормально величины тоже имеют нормальное распределение. Если структура модели выбрана правильно математическое ожидание есть
а его дисперсия определяется по (4.14).
имеет распределение с числом степеней свободы
Как известно распределением называют распределение суммы квадратов нормированной нормально распределённой случайной величины. Случайная величина становится нормированной после деления на соответствующую ей дисперсию. Плотность распределения величины несимметрична и существенно зависит от числа степеней свободы . Это распределение используется для проверки некоторых гипотез относительно нормально распределённых случайных величин.
Доказательство данного утверждения основано на том что в предположениях классического регрессионного анализа остатки
- нормально распределённые случайные величины.
Вектор оценок коэффициентов уравнения регрессии b и оценка дисперсии распределены независимо друг от друга.
Статистический анализ регрессионной модели
МНК обеспечивает минимизацию отклонений измеренных значений от предсказанных при заданной структуре модели. К сожалению это не означает что модель хорошо описывает изучаемое явление и может применяться. Приступая к оцениванию исследователь должен выбрать структуру модели. Однако очень часто он не располагает информацией достаточной для предварительного решения данного вопроса. Тогда он начинает перебирать модели различного вида и останавливается на той из них которая лучше всего согласуется с данными эксперимента.
Очень часто модель не удаётся определить исходя из сущности изучаемого явления. Тогда можно воспользоваться полиномами. Для определения степени полинома начинают с оценивания коэффициентов самой простой модели (линейной относительно факторов). Затем проверяют достаточно ли хорошо предсказанные по модели значения отклика согласуются с результатами наблюдений. Для такой проверки разработаны специальные статистические процедуры называемые проверкой адекватности модели.
При выборе структуры модели стремятся к тому чтобы она была как можно проще т.е. включала как можно меньше коэффициентов. Это так называемый принцип экономичности модели.
Сокращение числа коэффициентов облегчает как процедуру оценивания так и использование модели.
Поскольку оценки регрессионных коэффициентов суть случайные величины возникает вопрос не могут ли некоторые из них например bi получиться отличными от нуля только в результате воздействия случайных возмущений тогда как их истинные значения bi равны нулю? Если это действительно так ими можно пренебречь и модель упростится. Проверка гипотезы о равенстве нулю некоторых из регрессионных коэффициентов называется проверкой значимости.
1 Проверка однородности дисперсий
При моделировании реальных объектов очень часто оказывается что нарушена предпосылка П.3 классического регрессионного анализа согласно которой
Такое нарушение обычно проявляется в следующем. Может оказаться что возмущение e имеет неоднородные дисперсии в разных опытах и его ковариационная матрица (а значит и ковариационная матрица вектора у при неслучайной матрице плана) будет хоть и диагональной но с различными элементами по диагонали. В этом случае говорят что наблюдения неоднородны или что есть неоднородность.
Неоднородность может возникнуть естественно когда она обусловлена природой изучаемого явления. Характерным примером такого рода служат объекты о которых из физических соображений известно что дисперсия отклика зависит от его математического ожидания . Понятно что при изменениях факторов в различных опытах будет меняться и . Такими свойствами обладает распределение Пуассона а также биномиальное распределение. Их дисперсии соответственно равны
где N – объём выборки.
Часто природа исследуемого явления подсказывает что дисперсия отклика возрастает с ростом некоторого фактора. Подобные случаи встречаются в экономике биологии химической кинетике.
Есть основания считать что случайное возмущение иногда обусловлено главным образом ошибкой измерения отклика. Тогда вполне вероятно что большим значениям будут соответствовать и большие возмущения а значит дисперсии e - неоднородны.
Перечислим некоторые случаи когда возникшая неоднородность введена «извне». Такая неоднородность появляется из-за линеаризации некоторых моделей. Так при исследовании кинетики реакций уравнения для скоростей очень часто линеаризуются с помощью обращения. При этом вводимая неоднородность может оказаться весьма серьёзной. Подобное явление наблюдается и когда переходят от распространённых в химическом эксперименте нелинейных моделей с аддитивной ошибкой
к линейным моделям вида
Возмущающее воздействие линеаризованной модели
и следовательно её дисперсия меняется в зависимости от изменения в точках плана.
Неоднородность может возникнуть также из-за неправильного выбора структуры регрессионной модели. Если фактор входит в неё линейно а в истинной модели присутствует и член с в случайном возмущении модели появится добавка зависящая от . Поэтому дисперсия будет изменяться от опыта к опыту под воздействием .
Неоднородность появляется и при нарушении предпосылки П.5 регрессионного анализа касающейся неслучайного характера матрицы плана когда в ходе эксперимента заданные уровни факторов устанавливаются с ошибками. В этом случае для нелинейной по факторам модели во всех опытах дисперсия у увеличивается на некоторую составляющую зависящую не только от коэффициентов модели и моментов ошибок факторов но и от заданных уровней факторов. Поэтому и тут меняется от опыта к опыту.
Выявлять неоднородности можно некоторыми статистическими процедурами. Здесь мы рассмотрим только один критерий – критерий Кохрена.
Критерий Кохрена применим только при одинаковом числе повторных опытов m. Особенно чувствителен когда ожидается что есть одна дисперсия которая может оказаться больше всех остальных равных между собой.
Оценки дисперсии случайного возмущения по параллельным опытам на каждой строке матрицы рассчитываются по уравнению
Расчётное значение критерия Кохрена определяют по формуле:
Расчётное значение сравнивают с табличным
где - уровень значимости (чаще всего берут 0.5) - число степеней свободы равное N - число степеней свободы равное . Если то гипотеза об однородности дисперсий принимается.
2 Проверка гипотез о значимости регрессионных коэффициентов
Современный регрессионный анализ позволяет проверять различные предположения относительно регрессионных коэффициентов. Это делается посредством проверки статистических гипотез.
Сначала рассмотрим проверку гипотезы о том что истинное значение коэффициента равно наперёд заданному числу т.е.
Как известно из теории статистических решений для проверки такой гипотезы формируется статистика в которую входит неизвестный параметр. Затем находят распределение этой статистики и доверительный интервал для неизвестного параметра при условии что нулевая гипотеза верна. Если оценка попадает в такой доверительный интервал нулевая гипотеза принимается в противном случае – отвергается.
Для проверки сформулированной выше гипотезы можно использовать статистику
имеющую распределение Стьюдента.
При верной нулевой гипотезе она принимает вид
После вычисления этой величины в таблице распределения Стьюдента находим критическое значение
Если нулевая гипотеза принимается в противном случае – отвергается.
Эту проверку можно использовать и для выявления значимости регрессионных коэффициентов для чего положим и статистика примет вид:
где - -й диагональный элемент матрицы С - оценка дисперсии случайного возмущения (см. 3.1).
сравнивается с и делается один из следующих выводов:
а) если > коэффициент b
б) если коэффициент bi незначим.
Пользуясь этой процедурой надо иметь в виду что проверка значимости по индивидуальным доверительным интервалам может оказаться не слишком точной из-за коррелированности оценок регрессионных коэффициентов. Точность их достаточно хороша для таких коэффициентов оценки которых не коррелированны с другими т.е. для которых равны нулю все недиагональные элементы матрицы С=(FТF)-1.
Уровень значимости можно рассматривать как вероятность ошибки первого рода т.е. ошибки ведущей к отбрасыванию нулевой гипотезы
когда на самом деле она верна. Следовательно эта ошибка приводит к сохранению в модели регрессоров чьи коэффициенты незначимы.
Ошибкой второго рода называется ошибка приводящая к принятию нулевой гипотезы когда она неверна. При этом из модели выбрасываются члены которые надо было бы оставить. Ошибка второго рода для экспериментатора более неприятна поскольку приводит к смещению оценок и неправильному предсказанию отклика а ошибка первого рода даёт лишь некоторое снижение эффективности.
Обычно уменьшение уровня значимости ведёт к росту вероятности ошибки второго рода. Поэтому не стоит выбирать слишком маленькие значения ибо возможны неприятности. То же самое было отмечено и при построении доверительных интервалов.
Описанная проверка значимости пригодна для упрощения модели отбрасыванием незначимых коэффициентов. Однако из-за их коррелированности такое упрощение часто оказывается совершенно ненадёжным и приводит к отбрасыванию чрезмерно большого числа коэффициентов. Как следствие оценки предсказанных значений отклика получаются смещёнными. Лучше оставить в модели незначимые коэффициенты чем отбросить значимые.
Важно отметить что если оценки коэффициентов коррелированны то после отбрасывания незначимых рекомендуется обработать данные заново для новой модели и после этого опять проверить её адекватность.
3 Проверка адекватности регрессионной модели
Чаще всего процедуры проверки адекватности модели состоят в сравнении с независимой от неё оценкой дисперсии случайного возмущения. Если соизмерима с влияние неадекватности можно считать незначительным если же существенно больше чем то этим влиянием нельзя пренебречь и модель приходится считать неадекватной. Нахождение рассматривалось в 3.1 находится по формуле
где - кол-во коэффициентов уравнения регрессии.
Теперь проверим гипотезу
Согласно свойству 8 из 3.2 распределение отношения так же как и - распределение . И отношение тоже имеет -распределение поскольку - сумма квадратов нормально распределённых случайных величин. Известно что отношение двух случайных величин с распределением имеет распределение Фишера. Поэтому величина
имеет распределение Фишера с и степенями свободы.
Следовательно процедуру проверки адекватности регрессионной модели можно сформулировать следующим образом.
После оценивания регрессионных коэффициентов вычисляют .
Проводят m дополнительных опытов и получают .
Вычисляют дисперсионное отношение
При заданном уровне значимости и числе степеней свободы и из таблицы распределения Фишера берут величину
Сравнивают величины F и FT и делают один из двух выводов:
А. Если модель считается адекватной так как в указанном случае гипотеза о равенстве и не отвергается т.е. они могут считаться соизмеримыми а следовательно неадекватность не отразилась существенно на вычислении .
Б. Если модель неадекватна поскольку значительно больше чем и неадекватность сыграла существенную роль при формировании .
Применяя рассмотренную процедуру надо иметь в виду некоторые моменты.
Уровень значимости как известно представляет собой вероятность ошибки первого рода т.е. вероятности отвергнуть гипотезу об адекватности модели когда она верна. Величина обычно задаётся в границах от 001 до 01 но чаще всего используется =005. Выбор условен и отражает согласие исследователя принимать модели с большей или меньшей точностью. Поэтому при выборе такой вероятности допускается известная свобода но всё-таки она не должна выходить за указанные выше границы.
Иногда может получиться . Тогда дисперсионное отношение меньше единицы что не позволяет проверить гипотезу адекватности. В этом случае можно построить обратное соотношение
и при уровне значимости и числах степеней свободы и по таблице распределения Фишера найти
После чего сделать один из следующих двух выводов.
А. Если гипотеза о равенстве и не отвергается значит модель адекватна.
Б. Если кажется уместным принять что . Но это невозможно если придерживаться предположений регрессионного анализа ибо образуется как под влиянием так и из-за неадекватности.
Таким образом причиной получения неравенства может быть или грубая ошибка в вычислениях или неадекватность условий проведения опытов по определению и . То же самое может получиться и при неоднородности (гетероскедастичности) дисперсий отдельных наблюдений. Появление такой ситуации требует тщательного исследования всех возможных ошибок.
При констатации неадекватности модели надо изменить её структуру и заново собрать данные.
Работа выполнена с помощью пакета MathCAD 2000. В ней экспериментальным путём вычисляются значения откликов у с помощью МНК вычисляются оценки коэффициентов уравнения регрессии и проводится статистический анализ модели (проверка дисперсий на однородность проверка коэффициентов уравнения регрессии на значимость проверка модели на адекватность). В работе не предусмотрен интерфейс зато есть возможность проследить за ходом вычислений ввиду того что они не скрыты от пользователя. Также есть возможность изменять значения большинства параметров (количество наблюдений количество параллельных опытов и т.д.) и вводить табличные значения величин соответствующих параметрам. В некоторых случаях пользователю необходимо будет самому изменить некоторые функции но так как эта работа рассчитана на тех кто знает основы работы с пакетом MathCAD 2000 и имеет представление о регрессионном анализе то эта задача представляется несложной и легко выполнимой.
математическое описание системы и области изменения переменных
уровень выхода системы
значение параметров системы
характер помехи и её статистические параметры:
нормальное распределение
Список функций которые используются в работе:
augment(ABC ) – встроенная функция MathCAD 2000 которая возвращает матрицу сформированную из векторов ABC расположенных слева направо;
rows(A) – возвращает количество строк в матрице А;
max (A) – возвращает значение максимального из элементов матрицы А.
Regr – функция возвращает матрицу регрессоров; в зависимости от вида модели системы её возможно придётся модифицировать но сделать это максимально просто;
Sred – функция возвращает вектор усреднённых значений откликов для N наблюдений;
Odnor(par) – функция проверяет дисперсии на однородность и возвращает в зависимости от значения par (1 или 2) G для сравнения с Gtab или вектор усреднённых оценок дисперсий случайного возмущения для использования в дальнейших вычислениях;
Ypred – функция возвращает вектор предсказанных значений откликов.
Для остальных действий выполняемых в данной работе не потребовалось написание специальных функций так как можно было обойтись просто формулами.
Список переменных которые используются в работе (за исключением служебных переменных):
u0 – нулевой фактор;
с – вектор параметров с1 и с2;
р и рр – векторы параметров системы;
mf и df – математическое ожидание и дисперсия помехи;
n – количество факторов;
m – количество параллельных опытов;
N- количество наблюдений;
U – матрица значений n факторов для N наблюдений;
f - матрица значений помех для N наблюдений с m параллельными опытами в каждом;
Y – матрица значений откликов для N наблюдений с m параллельными опытами в каждом;
F – матрица регрессоров для N наблюдений и четырёх коэффициентов уравнения регрессии;
Ys – вектор усреднённых значений откликов для каждого наблюдения;
b – вектор оценок коэффициентов уравнения регрессии;
G – расчётное значение критерия Кохрена;
Gtab – табличное значение критерия Кохрена;
n и n1 – степени свободы для табличного значения критерия Кохрена;
S – вектор усреднённых значений оценок дисперсий случайного возмущения;
t – вектор расчётных значений критерия Стьюдента для всех оценок коэффициентов уравнения регрессии;
tTAB – табличное значение критерия Стьюдента;
Ypred – вектор предсказанных значений откликов;
Sost – остаточная дисперсия;
n и nост – степени свободы для табличного значения критерия Фишера.
Ниже приводится вид файла MathCAD 2000 в котором выполнен конкретный пример (все параметры взяты из задания на курсовую работу). При изменении исходных параметров и (или) генерации новых случайных величин результаты могут в корне отличаться.
Файл выполнения конкретного примера
Области изменения переменных
Мат. ожидание и дисперсия помехи (нормальное распределение)
кол-во параллельных опытов
Проведение эксперимента
получение значений факторов
получение помех и откликов
u0 u1 u2 u3 y1 y2 y3
усредненные значения откликов для каждого наблюдения
оценки коэф-тов уравнения регрессии
проверка дисперсий на однородность по критерию Кохрена
табличное значение критерия Кохрена
усредненные значения оценок дисперсий случайного возмущения
проверка коэф-тов уравнения регрессии на значимость
табличное значение критерия Стьюдента
первый коэф-т оказался незначимым он отбрасывается
новая м-ца регрессоров
проверка на значимость
предсказанные значения откликов
вычисление остаточной дисперсии
табличное значение критерия Фишера
Список использованной литературы
Конспект по курсу: «Теория систем и системный анализ» (лектор – доцент Чумаченко Е. И.).
Вучков И. Бояджиева Л. Солаков Е. «Прикладной линейный регрессионный анализ». – М.: Финансы и статистика 1987.
Бондарь А. Г. «Математическое моделирование в химической технологии».- К.: Вища школа 1973.
Асатурян В. И. «Теория планирования эксперимента». – М.: Радио и связь 1983.
М. Херхагер Х. Партолль «MathCAD 2000: полное руководство»: Пер. с нем. – К.: Издательская группа BHV 2000.

icon Блок-схема.cdw

Блок-схема.cdw
Схема главной программы
регрессионного анализа модели системы

icon Титульный.doc

Министерство Образования Украины
Национальный Технический Университет Украины "КПИ
Кафедра Технической Кибернетики
«Моделирование систем»
«Регрессионный анализ модели системы»
доцент Чумаченко Е. И.студент группы ЗИК-61
Допущено к защите:Музыченко К.В.

icon Записка.doc

РЕГРЕССИОННЫЕ МОДЕЛИ6
ОСНОВНЫЕ ПОЛОЖЕНИЯ КЛАССИЧЕСКОГО РЕГРЕССИОННОГО АНАЛИЗА11
МЕТОД НАИМЕНЬШИХ КВАДРАТОВ15
2 Оценивание коэффициентов регрессии с помощью МНК16
СВОЙСТВА МНК-ОЦЕНОК19
1 Свойства не зависящие от вида распределения19
2 Свойства связанные с предположением о нормальном распределении24
СТАТИСТИЧЕСКИЙ АНАЛИЗ РЕГРЕССИОННОЙ МОДЕЛИ26
1 Проверка однородности дисперсий26
2 Проверка гипотез о значимости регрессионных коэффициентов28
3 Проверка адекватности регрессионной модели30
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ44
Регрессионный анализ – один из наиболее широко распространённых статистических методов. Он используется при построении математической зависимости на основе экспериментальных данных. Трудно перечислить все сферы человеческой деятельности где применение этого метода было плодотворным.
Благодаря регрессионному анализу возможны построение математической модели и статистический анализ результатов. В первом случае прибегают к различным вариантам метода наименьших квадратов который был создан Адрианом Мари Лежандром (1805 г.) и Карлом Фридрихом Гауссом (1809 г.). Последний утверждал что разработал этот метод ещё в 1795 г. а в 1801 г. с его помощью определял траекторию малой планеты Церера. Само понятие регрессии было введено в 1885 г. Френсисом Гальтоном в связи с его антропологическими исследованиями. Он соединил метод наименьших квадратов со средствами статистического анализа полученных результатов и таким образом регрессионный анализ стал общим методом построения математических моделей на основе экспериментальных данных.
При столь долгой истории регрессионного анализа можно было бы ожидать что он давно полностью изучен остановился в своём развитии и перестал интересовать специалистов. Но это не так. С появлением и развитием вычислительной техники возможности регрессионного анализа расширились в силу чего резко возросло число публикаций на эту тему. Чрезвычайно быстро расширяются возможности метода при решении практических задач повышается точность получаемых результатов. Вместе с тем приложения регрессионного анализа и интерпретация его результатов требуют глубоких знаний и умения правильно оценивать получаемую информацию.
Формирование основных направлений развития регрессионного анализа было связано с совершенствованием средств диагностики нарушения предпосылок классической процедуры а также с созданием методов преодоления последствий таких нарушений. Появился анализ остатков были созданы гораздо более совершенные методы выбора структуры модели развивались вычислительные методы оценивания регрессионных коэффициентов и ряд методов регрессионного анализа при коррелированных и неоднородных наблюдениях. Возникли модификации метода регрессионного анализа в случае ошибок в задаваемых уровнях факторов. Особого внимания заслуживают алгоритмы устойчивого оценивания при нарушении предположения о нормальности наблюдений и уточнения статистического анализа в этом случае.
До недавнего времени регрессионный анализ опирался на тщательно разработанную систему предпосылок выполнение которых гарантировало оптимальность получаемых оценок.
Рассмотрим некоторые принципиальные вопросы связанные с предпосылками их проверкой и альтернативными процедурами. Предпосылки классической модели Гаусса-Маркова первоначально появились как результат обобщения законов имманентных природе которые естественно всегда выполняются. Если же вдруг оказалось что они нарушены это относили за счёт некомпетентности человека собиравшего данные или за счёт недостатков методики их сбора или наконец за счёт грубых ошибок. Каноны в таком случае сомнению не подвергали. При подобной точке зрения проверка выполнимости предпосылок просто бессмысленна. Важно лишь работать тщательно и аккуратно на всех этапах что верно всегда а не только при обработке данных. Здесь предпосылки-постулаты сродни аксиомам математической теории: опираясь на них можно строить изящные дедуктивные конструкции а вопрос об их верности просто не имеет смысла. Так была построена теория классического регрессионного анализа.
Выбравшись из недр теории регрессионный анализ стал быстро развиваться. Сначала его методы применялись в астрономии и геодезии потом в химии а позднее в экономике. Возможность не беспокоиться о предпосылках была очень удобна поскольку все силы можно было сосредоточить на содержательной интерпретации результатов. Вместе с тем расширение области практических приложений всё чаще заставляло задумываться о правомерности подхода основанного на слепой вере в незыблемость предпосылок. Время от времени появлялись задачи которые явно противоречили предпосылкам. Под влиянием сомнений порождаемых такими задачами возникла идея проверки выполнимости постулатов. Понимаемая буквально она оказалась нереализуемой поскольку требовала большого объёма эксперимента и огромных затрат на обработку результатов. В этой ситуации очень удачным оказался подход основанный на анализе остатков хоть и не до конца формализованный но фактически реализуемый. Анализ остатков получил широкое распространение. В восьмидесятые годы новый импульс анализу остатков придало развитие диалоговых систем на базе мини- и микроЭВМ.
Распространённая точка зрения при возникновении ситуации невыполнения постулатов такова: не обращать внимание на нарушения и применять классическую процедуру как будто ничего не случилось. При этом может получиться разумный ответ. И только если этого не произойдёт принимать меры. Подобный подход нередко себя оправдывает что обеспечивается видимо избыточностью эксперимента и интуицией экспериментатора.
Однако всё чаще в подобных ситуациях обращаются к дисперсионному ковариационному или конфлюэнтному анализу. Причём выбор какого-нибудь из этих вариантов регрессионного анализа происходит обычно не в ходе анализа остатков а при логическом исследовании исходной ситуации.
Принципиально другой подход к проблеме возможен если считать что классическая модель совершенна а когда она нарушается надо «подогнать» к ней ситуацию с помощью преобразований. Это достижимо почти всегда хотя и не так просто как кажется на первый взгляд. Интересно что основная проблема здесь – не столько в отыскании подходящего преобразования сколько в истолковании интерпретации получаемых результатов. Если бы мы научились лучше понимать смысл преобразованных моделей методы такого рода как скажем факторный или компонентный анализ применялись бы на практике гораздо чаще.
Можно преобразовывать однако не данные а методы обработки например искать такие методы которые оказались бы малочувствительными к нарушениям предпосылок. По предложению Дж. Бокса методы обладающие подобными свойствами стали называться робастными или устойчивыми.
Робастные методы допускают нарушения некоторых предпосылок но требуют чтобы эти нарушения находились в определённых рамках. Если же границы нарушений не определены применять робастные методы становится рискованно. В такой ситуации лучше использовать непараметрические (свободные от распределения) методы. Непараметрические методы превратились в последнее время в стройную систему вполне конкурентоспособную с методами параметрической статистики. Во всяком случае для нескольких распространённых ситуаций возможно и получить оценки и проверить гипотезы в рамках рангового подхода.
Можно разработать специальные методы пригодные для случаев если не всех возможных то по крайней мере наиболее распространённых вариантов нарушений. Сначала такие методы появились в эконометрических исследованиях затем в работах по статистике. В качестве примера нарушения наиболее подробно описанного в литературе назовём модель авторегрессии.
Иногда удобно рассматривать предпосылки как некоторую априорную информацию о свойствах задачи. В конкретных исследованиях в нашем распоряжении сверх того может оказаться дополнительная информация позволяющая конкретизировать и уточнить постулаты. Тогда целесообразно использовать байесовскую концепцию.
Итак возможностей много и выбор подходящей превращается в проблему. Тем более что уже появился новый подход радикально меняющий ситуацию.
Этот подход называется анализом данных. Его развитие связано с именем Дж. Тьюки. Он предложил использовать одновременно несколько наборов предпосылок варьируя их и сравнивая результаты. Там где результат выглядит наиболее привлекательно предпосылки лучше. Именно их и стоит взять за основу. Конечно возникает большой перебор вариантов что влечёт за собой увеличение объёма вычислений. Справиться с этим помогают методы имитационного моделирования.
Отказываясь от предпосылок классического регрессионного анализа мы в гораздо большей степени зависим от ЭВМ и программного обеспечения.
В последние годы в статистике начали развиваться новые подходы требующие интенсивного использования ЭВМ но позволяющие освободиться от некоторых обременительных предпосылок. Среди таких подходов выделяются два: подход опирающийся на графические методы анализа и подход основанный на управлении выборкой в ходе обработки данных получивший распространение благодаря работам Б. Эфрона и связанный с так называемой процедурой «бутстреп». Пока ещё трудно оценить последствия «бутстрепизации» статистики но уже ясно что она привела к пересмотру ряда сложившихся представлений.
Появление новых поколений ЭВМ и развитие статистических методов привели к разработке диалоговых систем обработки информации имеющих предметную ориентацию. Одной из таких предметных областей по-видимому становится сама статистика. Подобные системы называются экспертными. Они выполняют консультационные функции в интерактивном удобном пользователю режиме.
Концепция анализа данных в сочетании с «машиноёмкими» и графическими методами служит методологической основой для построения экспертных систем в области статистики. Такие системы не могут не охватывать круг проблем связанных с нарушениями предпосылок статистических моделей. Мы достигли бы ощутимого прогресса если бы на этом уровне удалось согласовать предпосылки теории относящейся к предметной области решаемой задачи с предпосылками математической модели определяющими стратегию и тактику обработки данных и влияющими на интерпретацию результатов. Приходится констатировать что сейчас между этими системами предпосылок лежит глубокая пропасть.
В данной работе была рассмотрена и проведена процедура классического регрессионного анализа (вычисление коэффициентов уравнения регрессии и статистический анализ результатов).
Регрессионные модели
Главная задача которая решается с помощью регрессионного анализа - создание математических моделей некоторых объектов или явлений на основе экспериментов или наблюдений. Эти модели представляют собой определённые математические соотношения между показателями работы объекта или характеристиками наблюдаемого явления и обусловливающими их величинами . Будем называть зависимыми переменными выходными характеристиками или откликами объекта а - входными переменными независимыми характеристиками или факторами. Для одного и того же объекта можно создать множество моделей:
причём каждая описывает лишь один из показателей интересующих исследователя. В зависимости от целей исследования один и тот же объект с одинаковыми показателями может описываться различными моделями.
Выбор подходящей модели – это в значительной степени искусство и при определении её вида часто решающую роль играют опыт и знания исследователя. Модель всегда отражает данное явление с некоторым приближением.
Есть и ещё одна причина по которой модель не отражает протекающее явление абсолютно точно. Всегда есть величины которые влияют на результаты но не измеряются во время эксперимента. Часть из них имеет систематический характер и в силу этого может с течением времени вызвать изменения коэффициентов модели. Другая же часть меняется случайным образом подчиняясь некоторому закону распределения. Такие величины ещё называют случайными возмущениями. В силу их действия повторные опыты при одних и тех же значениях факторов будут давать различные значения зависимой переменной. Модель не может точно учесть влияние случайных возмущений в каждом отдельном измерении она показывает лишь некоторые усреднённые характеристики.
Следовательно нет оснований говорить об «истинной» модели в полном смысле слова. Тем не менее модели с успехом используются на практике. Обычно под «истинным» значением понимают условное математическое ожидание зависимой переменной при заданных значениях факторов:
где Е – знак математического ожидания.
Это равенство называется уравнением регрессии и показывает изменение среднего значения отклика объекта при изменениях факторов. Фактически измеряемая выходная характеристика есть
где - случайное возмущение. Чаще всего принимают что действие на объект множества случайных возмущений эквивалентно действию одного-единственного возмущения с нормальным распределением нулевым математическим ожиданием и дисперсией . Это предположение выполняется достаточно хорошо для многих практических задач в которых все случайные возмущения оказывают воздействия соизмеримые одно с другим. Основанием этому служит центральная предельная теорема теории вероятностей.
Существует большое число различных регрессионных моделей определяемых конкретным видом функции
где всегда присутствуют некоторые коэффициенты которые надо определять по экспериментальным данным. В зависимости от того как эти коэффициенты входят в уравнение регрессии модели делятся на линейные и нелинейные по параметрам.
Под линейной обычно понимают модель линейную по параметрам. Например модель
по отношению к коэффициентам не нелинейна по отношению к факторам.
Нередко регрессионные модели представляют полиномами по степеням факторов. Подобное представление опирается на тот факт что отклики – часто непрерывные функции от факторов и их можно разложить в ряд Тейлора.
Ясно что все функции разложимые в ряд Тейлора можно аппроксимировать полиномами. Это важно отметить так как полиномами трудно аппроксимировать функции с разрывами т.е. не имеющие производных. Полиномы не годятся для описания явлений со скачкообразными изменениями выходной характеристики при изменении факторов функций с гистерезисом релейных функций и т.п.
Когда исследуется периодический процесс его наилучшее описание можно получить разложением в ряд Фурье:
где - частота меняющаяся в пределах . Такие модели используются в электротехнике геофизике океанологии биологии медицине и других прикладных областях.
Для описания временных характеристик используется ещё так называемая модель распределённого лага:
Это выражение предполагает что измерения делаются в дискретные моменты времени отстоящие друг от друга на интервал . Через обозначена выходная характеристика в -й момент времени т.е.
а - та же самая величина измеренная на тактов раньше; - значение фактора измеренное с запаздыванием на тактов по отношению к текущему -му моменту.
В уравнении (1.1) записана одна выходная характеристика но аналогичные модели можно строить и когда в исследовании участвует несколько откликов. Если для случайных процессов вход явно не определён то пользуются так называемой моделью авторегрессии:
Моделью авторегрессии например описывается изменение числа пассажиров на железнодорожной магистрали через определённое время. Отклик может рассматриваться и как функция некоторого фактора (нескольких факторов) заданного через определённые промежутки времени:
Представление всех моделей в единой форме удобно при организации вычислительных процедур регрессионного анализа однако аналогия между моделями разных видов отнюдь не полная. Например модели (1.2) и (1.3) описывают зависимость выходной характеристики в - й момент от её значений в предыдущие моменты а это предполагает зависимость между наблюдениями во времени которая влечёт за собой значительные изменения как в вычислительной процедуре так и в статистическом анализе результатов.
Многие нелинейные по параметрам модели линеаризуемы с помощью подходящего преобразования переменных. В биологии например используется так называемая логистическая функция показывающая зависимость доли погибших вредных насекомых
( - число погибших насекомых - общее число насекомых) при заданной дозе инсектицида. Логистическая зависимость имеет вид
и говорит о том что очень маленькие и очень большие дозы яда не приводят к существенному изменению доли погибших насекомых (при очень малых дозах гибнут самые не жизнестойкие а при очень больших – все).
Если к логистической зависимости применить преобразование
то как легко проверить она примет вид
а эта зависимость линейна относительно искомых параметров.
В моделях которые рассматривались до сих пор предполагалось что все независимые переменные могут меняться в заданных интервалах непрерывно. Однако в некоторых задачах часть факторов имеет качественный характер и может принимать только определённые дискретные значения. В этом случае в модель вводят так называемые индикаторные переменные показывающие имел ли некоторый фактор в определённом наблюдении заданное значение или нет. Фактор с качественными уровнями можно представить индикаторными переменными принимающими только значения 0 и 1.
Примером послужит задача построения модели количества газовых пор в сварном шве при аргонодуговой сварке никеля в зависимости от состава покрытия электрода (криолит - титан - алюминий - фтористый натрий - ) а также от условий сварки – времени горения - и длины дуги - . Длина дуги – качественный фактор который может принимать только два значения: длинная дуга () и короткая дуга . Линейная по параметрам и факторам модель имеет вид:
причём переменная равна 1 в экспериментах с длинной дугой и 0 – с короткой.
Другой пример индикаторной переменной даёт исследование выхода химической реакции в зависимости от температуры () давления () и pH раствора (). Опыты проводятся с сырьём поставляемым фирмами А В и С. Фирму- поставщик можно рассматривать как фактор с качественными уровнями принимающими значения. Его влияние можно представить двумя индикаторными переменными и . Вот линейная по параметрам и факторам модель для этого случая:
Если используется сырьё фирмы А то в этом уравнении полагаем =1 =0 для сырья фирмы В - =0 =1 а для фирмы С - =0 и =0.
В данном случае нельзя было бы выбрать для фирмы С отдельную индикаторную переменную () поскольку такой выбор всегда приводил бы к равенству а это - линейная зависимость между переменными наличие которой приводит к серьёзным вычислительным трудностям.
Индикаторные переменные могут участвовать и в более сложных моделях. Если например предполагается что действие факторов (температура давление pH раствора на выход у) зависит и от взаимного влияния между факторами модель может принять вид:
Могут использоваться и некоторые другие модели. Одни удобнее при описании данных наблюдения определённых явлений другие дают известные преимущества при обработке данных.
Основные положения классического регрессионного анализа
Стандартная процедура регрессионного анализа получила широкое практическое применение поскольку она справедлива при некоторых достаточно часто выполняемых предположениях.
Прежде всего ограничим рассматриваемые модели классом линейных т.е. таких что выходная характеристика представима в виде
где - номер наблюдения fiu – произвольные функции факторов не включающие неизвестные коэффициенты (регрессоры). Для N наблюдений упорядочим данные таким образом:
В принципе в таблицу 1 можно записать и более одного отклика. Поскольку для каждого отклика вид модели идентичен мы будем рассматривать данные наблюдений только для одного отклика*.
В классическом регрессионном анализе делают следующие основные предположения:
П.1. Величина есть случайная величина.
В силу этого и - тоже случайная величина с распределением того же вида что и что непосредственно вытекает из равенства
где - неслучайная величина.
П.2. Случайная величина имеет нулевое математическое ожидание т.е.
Это означает что средние отклонения от константы равны нулю что легко выполнимо. Поэтому данному условию можно подчинить все реальные наблюдения. Действительно допустим что
Значит наблюдения можно записать так:
и вместо случайного возмущения используется для которого предположение П.2 выполняется. Замена на означает что к «истинному» значению отклика прибавляется константа которая вычитается из среднего значения случайного возмущения. Поскольку постоянна при любых повторных - х опытах она действует на отклик одинаково. Поэтому нет никакого смысла отделять её от .
П.3. Значения случайной величины не коррелированны и имеют одинаковые дисперсии т.е.
Если помнить что и - константа нетрудно увидеть – то же условие выполняется и для отклика:
Предположение (2.2) часто не выполняется. Это имеет особое значение для случайных процессов и временных рядов где наблюдения статистически зависимы в соседних временных интервалах. Только использование моделей распределённого лага и авторегрессии показывает что наблюдения отклика в i-й момент зависят от его значений в предыдущие моменты времени.
Вместе с тем существует очень много реальных задач для которых условие (2.2) выполняется. Таковы почти все исследования статики производственных процессов когда результаты предыдущих опытов не оказывают никакого влияния на последующие.
Условие (2.3) часто называют условием однородности или гомоскедастичности наблюдений. Если же оно не выполняется наблюдения неоднородны (гетероскедастичны).
Однородность наблюдений означает что интенсивность случайных возмущений не изменяется ни при изменениях факторов ни во времени в течение которого делаются наблюдения. Данное условие выполняется очень часто поскольку обычно и условия проведения эксперимента и его точность остаются неизменными при различных значениях факторов. Однако встречаются и такие случаи когда наблюдения гетероскедастичны. Иногда это можно установить из содержательных соображений если известно что дисперсия случайного возмущения некоторым образом связана с математическим ожиданием отклика.
П.4. Случайная величина имеет нормальное распределение.
Это предположение выполняется очень часто. Причина заключается в том что согласно центральной предельной теореме влияние множества случайных величин с примерно одинаковыми дисперсиями эквивалентно влиянию единственной случайной величины с нормальным законом распределения. На практике мы нередко сталкиваемся именно с такими условиями. На исследуемый объект влияет множество случайных возмущений с относительно слабым воздействием. Их совокупное действие гораздо сильнее и соответствует действию одной случайной величины с нормальным распределением.
Для формулировки дальнейших предположений воспользуемся следующей - матрицей:
Назовём F матрицей регрессоров.
П.5. Матрица F не случайна.
Это означает что её элементы – известные числа точно заданные исследователем. Предположение нарушается когда факторы устанавливаются на заданные уровни или измеряются с ошибками. Если ошибки случайные то числа записанные для факторов в таблице 1 - просто один из множества возможных случайных наборов. Если же рассматривать эти числа как неслучайные полученные выводы будут относиться только к заданным значениям факторов. Однако для исследователя гораздо интереснее получить оценки коэффициентов регрессии и оценки их статистических свойств т.е. при заданном распределении ошибок измерения или ошибок в задании уровней факторов.
Нарушение предположения П.5 происходит и в случае когда исследователь хочет распространить выводы на более широкий класс значений факторов чем позволяют его данные.
П.6. На значения параметров в модели (2.1) не налагается никаких ограничений т.е. предварительно об их значениях ничего не известно и при вычислениях они могут получиться какими угодно. В некоторых случаях есть априорная информация о значениях параметров которую можно эффективно использовать для улучшения оценок.
П.7. Ранг матрицы F равен числу коэффициентов в модели т.е.
Предположение П.7 необходимо для реализации процедуры вычисления коэффициентов модели. Заранее ясно что оно нарушено если число опытов меньше чем число коэффициентов но нарушение данного условия может быть налицо и если достаточно чтобы между некоторыми столбцами матрицы F существовала линейная зависимость.
Классическим регрессионным анализом будем называть процедуру оценивания регрессионных коэффициентов и статистический анализ модели когда выполняются все семь предположений.
Метод наименьших квадратов
Поскольку результаты наблюдений суть случайные величины получить «истинные» значения коэффициентов из модели (2.1) нельзя. Вместо этого на основе данных таблицы 1 можно получить их оценки . Если речь идёт о модели (2.1) то она принимает вид:
Величина в (3.1) называется предсказанным значением отклика.
В регрессионном анализе для получения оценок коэффициентов модели (2.1) используется метод наименьших квадратов.
Из-за действия случайных возмущений предсказанное значение будет отличаться от результата измерения . Разности
Так как истинное значение вектора коэффициентов b и его оценка b различны y=h+e а =Fb. Отсюда вектор остатков:
Оценки коэффициентов регрессии естественно искать так чтобы обеспечить наименьшие возможные остатки но остатки многочисленны поэтому нужна некоторая суммарная характеристика которая должна зависеть от различий между измеренными и предсказанными значениями выходных характеристик в каждом опыте. Такую функцию обычно называют функцией потерь или функцией риска.
Вот одна из наиболее часто используемых функций потерь
В ней остатки возведены в квадрат чтобы компенсировать различия в их знаках.
Запишем сумму (3.2) в векторной форме. Пусть
обозначает N-мерный вектор-столбец измеренных значений отклика а
- N-мерный вектор соответствующих им предсказанных значений наконец
- вектор-столбец остатков. Как известно скалярное произведение вектора на самого себя равно сумме квадратов его элементов поэтому выражение (3.2) можно переписать в виде
Метод позволяющий оценивать регрессионные коэффициенты выбирают так чтобы минимизировать величину Q. Его называют обычно методом наименьших квадратов или просто МНК.
2 Оценивание коэффициентов регрессии с помощью МНК
Пусть на основе данных таблицы 1 нужно найти такие оценки коэффициентов регрессии которые минимизируют сумму Q определённую в (3.2). В силу предположения П.6 на возможные значения оценок не наложены никакие ограничения поэтому минимум получим приравняв к нулю производные по неизвестным оценкам . Но сначала подставим (3.1) в (3.2):
После дифференцирования этого выражения по искомым оценкам и приравнивания нулю первых производных получаем систему уравнений:
Константы –2 входящие во все уравнения не играют роли ибо для равенства нулю произведения достаточно чтобы равными нулю оказались соответствующие суммы. Поэтому полученная система сводится к виду:
Полученная система линейна относительно искомых оценок а число уравнений в ней равно числу неизвестных коэффициентов k модели. Она называется системой нормальных уравнений.
Запись системы нормальных уравнений можно упростить если положить:
Очевидно поскольку порядок перемножения функций под знаком суммы не важен. В новых обозначениях система нормальных уравнений примет такой вид:
В дальнейшем мы воспользуемся матричной записью. Обозначим - матрицу величин буквой G - вектор оценок искомых коэффициентов буквой b - вектор правой части системы буквой Z. Тогда
Важно заметить что G – симметричная матрица так как .
Вот матричная запись системы нормальных уравнений:
Матрица G называется информационной матрицей. Её можно представить через введённую в 2 матрицу регрессоров F:
Это утверждение проверяется непосредственно транспонированием F и перемножением FТ и F. Точно так же проверяется что
Значит систему нормальных уравнений можно переписать так
Это чаще всего встречающаяся форма записи нашей системы.
Если выполнено предположение П.7 т.е. ранг F равен k то ранг FТF тоже равен k так как из теории матриц известно что произведение матриц FТ и F есть положительно определённая матрица.
При этих условиях можно получить матрицу обратную к информационной. Обозначим её
умножение выражения (3.3) слева на матрицу (FТF)-1 приводит к решению системы нормальных уравнений:
b= (FТF)-1 FTy. (3.4)
Матрица С=(FТF)-1 называется матрицей дисперсий-ковариаций или матрицей ошибок. Иногда её называют просто дисперсионной или ковариационной матрицей.
Свойства МНК - оценок
1 Свойства не зависящие от вида распределения
Оценки регрессионных коэффициентов получаемые с помощью МНК - случайные величины поскольку они основаны на случайных наблюдениях. Поэтому их статистические свойства представляют большой интерес.
При принятых в 1 предположениях имеют место следующие свойства оценок:
МНК - оценки не смещены т.е. их математические ожидания равны истинным значениям:
Если - значение отклика при отсутствии возмущений его можно выразить так:
Вектор значений при N наблюдениях есть
и его можно представить в виде
С другой стороны поскольку математическое ожидание случайного возмущения равно нулю
Если учесть это обстоятельство и формулу (3.4) для математического ожидания вектора оценок получим:
что и доказывает несмещённость оценок.
При выводе (4.1) использовалось свойство П.5 в силу которого неслучайную матрицу F можно вывести из-под знака математического ожидания.
Свойство несмещённости означает что МНК не вносит в оценки неизвестных коэффициентов систематической ошибки. Если различные оценки bN получать многократно для разных выборок объёма N они будут группироваться вокруг математического ожидания b.
Дисперсии и ковариации оценок регрессионных коэффициентов определяются по формулам:
где - i-й диагональный элемент матрицы С=(FТF)-1 а - её - й недиагональный элемент.
Для доказательства этого свойства представим ковариационную матрицу оценок b таким образом:
Подставив это выражение в (4.4) и учитывая (3.4) получим
При выводе последнего выражения важно помнить что F – неслучайная матрица. Тогда она выводится из-под знака математического ожидания. Более того матрица (FTF)-1 – симметрична поскольку G= FTF. Поэтому транспонирование не меняет матрицу (FTF)-1.
которое входит в (4.5) имеет тот же вид что и (4.4) и представляет собой не что иное как ковариационную матрицу случайных наблюдений V(y); в соответствии с предположением П.3 она диагональна с одинаковыми элементами по диагонали т.е.
Подстановка этого результата в (4.5) приводит к
Запись (4.6) эквивалентна (4.2) и (4.3) что и доказывает эти утверждения.
Поскольку дисперсии и ковариации оценок b определяются элементами матрицы С=(FТF)-1 эту матрицу и называют матрицей ошибок или матрицей дисперсий-ковариаций.
Оценки полученные с помощью МНК эффективны т.е. имеют наименьшие дисперсии среди всех возможных линейных несмещенных оценок:
где - произвольная линейная несмещённая оценка .
Из (4.7) вытекает неравенство:
-след ковариационной матрицы
Имеет силу и соотношение:
где и - определители соответствующих матриц.
Свойства (4.7) (4.8) и (4.9) означают что точность МНК - оценок в общем случае выше чем точность любых других линейных несмещённых оценок. Определитель
называют обобщённой дисперсией. Таким образом МНК минимизирует обобщённую дисперсию.
Надо отметить что вывод соотношений (4.7) (4.8) и (4.9) имеет значение для любых конкретных наборов данных на основе которых получены оценки. Правда эффективность оценок зависит ещё и от самих данных так как для всех нетождественных наборов данных она будет разной. Её можно повысить выбирая подходящий план эксперимента т.е. подходящим набором данных.
Можно показать что МНК - оценки эффективны и в классе всех несмещённых оценок (линейных и нелинейных) если случайная величина имеет нормальное распределение.
МНК - оценки состоятельны т.е. когда число наблюдений N на основе которых эти оценки получены стремится к бесконечности сходится по вероятности к :
где - произвольное малое положительное число.
Для сходимости по вероятности часто пользуются следующей более простой записью:
Записи (4.10) и (4.11) эквивалентны.
Для доказательства состоятельности b подставим
Предположим что матрица
имеет предел. Кроме того если вспомнить что матрица F по предположению П.5 детерминирована становится ясно что её элементы не коррелированны с элементами вектора e значит
В таком случае из (4.12) и (4.13) получаем
что и доказывает состоятельность оценок МНК.
В математической статистике несмещённые эффективные и состоятельные линейные оценки принято называть наилучшими линейными оценками. Очевидно МНК - оценки полученные в предположениях классического регрессионного анализа принадлежат к этой категории.
Дисперсия предсказанного значения отклика определяется по формуле
- вектор функций из (3.1) вычисленный для совокупности факторов заданной вектором
Для доказательства воспользуемся определением дисперсии:
это равенство можно записать в виде:
Если учесть (4.6) то из последнего выражения получится результат (4.13).
Очевидно дисперсия предсказанного значения отклика различна в разных областях изменения факторов.
Если регрессионная модель выбрана правильно (т.е. ) несмещённая оценка дисперсии задаётся выражением
где - значение предсказанное по модели (3.1).
Доказательство этого утверждения опирается на тот факт что остатки для правильной модели можно рассматривать как несмещённые оценки случайных возмущений:
Так как оценки коэффициентов определяются посредством МНК числитель выражения (4.15) равен минимальному значению суммы из (3.2) называемой остаточной суммой квадратов и обозначаемой . Знаменатель
называемый числом степеней свободы остаточной суммы равен разности между числом опытов и числом линейных связей между результатами наблюдений . Эти линейные связи появляются в поскольку в участвуют коэффициентов которые определяются на основе тех же самых наблюдений с помощью решения системы нормальных уравнений (3.3).
Если же вид модели выбран неправильно (4.15) не может служить несмещённой оценкой дисперсии потому что тогда остаточная сумма будет определяться не только случайными возмущениями но и различиями между и обусловленными неправильным выбором структуры модели.
2 Свойства связанные с предположением о нормальном распределении
Свойства рассмотренные в п. 4.1 не связаны с предположением П.4 о нормальном распределении следовательно они сохраняют силу и при других распределениях. Предположение о нормальности позволяет конкретизировать ряд свойств оценок что имеет первостепенное значение при статистическом анализе результатов.
Если случайные возмущения есть независимые нормально распределённые случайные величины с нулевым математическим ожиданием и одинаковыми дисперсиями вектор оценок регрессионных коэффициентов b имеет многомерное нормальное распределение с математическим ожиданием и матрицей дисперсий-ковариаций .
Доказательство этого свойства основано на том что линейные преобразования случайных величин не меняют вида их законов распределения. Совместное распределение любого множества линейных функций от совокупности случайных величин с совместным нормальным распределением тоже будет нормальным а так как в соответствии с (3.4) вектор оценок b можно рассматривать как линейное преобразование случайного вектора y то вывод о нормальном распределении b очевиден. При определении математического ожидания использовалось (4.1) а вид матрицы дисперсий-ковариаций следует из (4.7).
Предсказанное значение отклика
есть линейное преобразование оценок но поскольку они распределены нормально величины тоже имеют нормальное распределение. Если структура модели выбрана правильно математическое ожидание есть
а его дисперсия определяется по (4.14).
имеет распределение с числом степеней свободы
Как известно распределением называют распределение суммы квадратов нормированной нормально распределённой случайной величины. Случайная величина становится нормированной после деления на соответствующую ей дисперсию. Плотность распределения величины несимметрична и существенно зависит от числа степеней свободы . Это распределение используется для проверки некоторых гипотез относительно нормально распределённых случайных величин.
Доказательство данного утверждения основано на том что в предположениях классического регрессионного анализа остатки
- нормально распределённые случайные величины.
Вектор оценок коэффициентов уравнения регрессии b и оценка дисперсии распределены независимо друг от друга.
Статистический анализ регрессионной модели
МНК обеспечивает минимизацию отклонений измеренных значений от предсказанных при заданной структуре модели. К сожалению это не означает что модель хорошо описывает изучаемое явление и может применяться. Приступая к оцениванию исследователь должен выбрать структуру модели. Однако очень часто он не располагает информацией достаточной для предварительного решения данного вопроса. Тогда он начинает перебирать модели различного вида и останавливается на той из них которая лучше всего согласуется с данными эксперимента.
Очень часто модель не удаётся определить исходя из сущности изучаемого явления. Тогда можно воспользоваться полиномами. Для определения степени полинома начинают с оценивания коэффициентов самой простой модели (линейной относительно факторов). Затем проверяют достаточно ли хорошо предсказанные по модели значения отклика согласуются с результатами наблюдений. Для такой проверки разработаны специальные статистические процедуры называемые проверкой адекватности модели.
При выборе структуры модели стремятся к тому чтобы она была как можно проще т.е. включала как можно меньше коэффициентов. Это так называемый принцип экономичности модели.
Сокращение числа коэффициентов облегчает как процедуру оценивания так и использование модели.
Поскольку оценки регрессионных коэффициентов суть случайные величины возникает вопрос не могут ли некоторые из них например bi получиться отличными от нуля только в результате воздействия случайных возмущений тогда как их истинные значения bi равны нулю? Если это действительно так ими можно пренебречь и модель упростится. Проверка гипотезы о равенстве нулю некоторых из регрессионных коэффициентов называется проверкой значимости.
1 Проверка однородности дисперсий
При моделировании реальных объектов очень часто оказывается что нарушена предпосылка П.3 классического регрессионного анализа согласно которой
Такое нарушение обычно проявляется в следующем. Может оказаться что возмущение e имеет неоднородные дисперсии в разных опытах и его ковариационная матрица (а значит и ковариационная матрица вектора у при неслучайной матрице плана) будет хоть и диагональной но с различными элементами по диагонали. В этом случае говорят что наблюдения неоднородны или что есть неоднородность.
Неоднородность может возникнуть естественно когда она обусловлена природой изучаемого явления. Характерным примером такого рода служат объекты о которых из физических соображений известно что дисперсия отклика зависит от его математического ожидания . Понятно что при изменениях факторов в различных опытах будет меняться и . Такими свойствами обладает распределение Пуассона а также биномиальное распределение. Их дисперсии соответственно равны
где N – объём выборки.
Часто природа исследуемого явления подсказывает что дисперсия отклика возрастает с ростом некоторого фактора. Подобные случаи встречаются в экономике биологии химической кинетике.
Есть основания считать что случайное возмущение иногда обусловлено главным образом ошибкой измерения отклика. Тогда вполне вероятно что большим значениям будут соответствовать и большие возмущения а значит дисперсии e - неоднородны.
Перечислим некоторые случаи когда возникшая неоднородность введена «извне». Такая неоднородность появляется из-за линеаризации некоторых моделей. Так при исследовании кинетики реакций уравнения для скоростей очень часто линеаризуются с помощью обращения. При этом вводимая неоднородность может оказаться весьма серьёзной. Подобное явление наблюдается и когда переходят от распространённых в химическом эксперименте нелинейных моделей с аддитивной ошибкой
к линейным моделям вида
Возмущающее воздействие линеаризованной модели
и следовательно её дисперсия меняется в зависимости от изменения в точках плана.
Неоднородность может возникнуть также из-за неправильного выбора структуры регрессионной модели. Если фактор входит в неё линейно а в истинной модели присутствует и член с в случайном возмущении модели появится добавка зависящая от . Поэтому дисперсия будет изменяться от опыта к опыту под воздействием .
Неоднородность появляется и при нарушении предпосылки П.5 регрессионного анализа касающейся неслучайного характера матрицы плана когда в ходе эксперимента заданные уровни факторов устанавливаются с ошибками. В этом случае для нелинейной по факторам модели во всех опытах дисперсия у увеличивается на некоторую составляющую зависящую не только от коэффициентов модели и моментов ошибок факторов но и от заданных уровней факторов. Поэтому и тут меняется от опыта к опыту.
Выявлять неоднородности можно некоторыми статистическими процедурами. Здесь мы рассмотрим только один критерий – критерий Кохрена.
Критерий Кохрена применим только при одинаковом числе повторных опытов m. Особенно чувствителен когда ожидается что есть одна дисперсия которая может оказаться больше всех остальных равных между собой.
Оценки дисперсии случайного возмущения по параллельным опытам на каждой строке матрицы рассчитываются по уравнению
Расчётное значение критерия Кохрена определяют по формуле:
Расчётное значение сравнивают с табличным
где - уровень значимости (чаще всего берут 0.5) - число степеней свободы равное N - число степеней свободы равное . Если то гипотеза об однородности дисперсий принимается.
2 Проверка гипотез о значимости регрессионных коэффициентов
Современный регрессионный анализ позволяет проверять различные предположения относительно регрессионных коэффициентов. Это делается посредством проверки статистических гипотез.
Сначала рассмотрим проверку гипотезы о том что истинное значение коэффициента равно наперёд заданному числу т.е.
Как известно из теории статистических решений для проверки такой гипотезы формируется статистика в которую входит неизвестный параметр. Затем находят распределение этой статистики и доверительный интервал для неизвестного параметра при условии что нулевая гипотеза верна. Если оценка попадает в такой доверительный интервал нулевая гипотеза принимается в противном случае – отвергается.
Для проверки сформулированной выше гипотезы можно использовать статистику
имеющую распределение Стьюдента.
При верной нулевой гипотезе она принимает вид
После вычисления этой величины в таблице распределения Стьюдента находим критическое значение
Если нулевая гипотеза принимается в противном случае – отвергается.
Эту проверку можно использовать и для выявления значимости регрессионных коэффициентов для чего положим и статистика примет вид:
где - -й диагональный элемент матрицы С - оценка дисперсии случайного возмущения (см. 3.1).
сравнивается с и делается один из следующих выводов:
а) если > коэффициент b
б) если коэффициент bi незначим.
Пользуясь этой процедурой надо иметь в виду что проверка значимости по индивидуальным доверительным интервалам может оказаться не слишком точной из-за коррелированности оценок регрессионных коэффициентов. Точность их достаточно хороша для таких коэффициентов оценки которых не коррелированны с другими т.е. для которых равны нулю все недиагональные элементы матрицы С=(FТF)-1.
Уровень значимости можно рассматривать как вероятность ошибки первого рода т.е. ошибки ведущей к отбрасыванию нулевой гипотезы
когда на самом деле она верна. Следовательно эта ошибка приводит к сохранению в модели регрессоров чьи коэффициенты незначимы.
Ошибкой второго рода называется ошибка приводящая к принятию нулевой гипотезы когда она неверна. При этом из модели выбрасываются члены которые надо было бы оставить. Ошибка второго рода для экспериментатора более неприятна поскольку приводит к смещению оценок и неправильному предсказанию отклика а ошибка первого рода даёт лишь некоторое снижение эффективности.
Обычно уменьшение уровня значимости ведёт к росту вероятности ошибки второго рода. Поэтому не стоит выбирать слишком маленькие значения ибо возможны неприятности. То же самое было отмечено и при построении доверительных интервалов.
Описанная проверка значимости пригодна для упрощения модели отбрасыванием незначимых коэффициентов. Однако из-за их коррелированности такое упрощение часто оказывается совершенно ненадёжным и приводит к отбрасыванию чрезмерно большого числа коэффициентов. Как следствие оценки предсказанных значений отклика получаются смещёнными. Лучше оставить в модели незначимые коэффициенты чем отбросить значимые.
Важно отметить что если оценки коэффициентов коррелированны то после отбрасывания незначимых рекомендуется обработать данные заново для новой модели и после этого опять проверить её адекватность.
3 Проверка адекватности регрессионной модели
Чаще всего процедуры проверки адекватности модели состоят в сравнении с независимой от неё оценкой дисперсии случайного возмущения. Если соизмерима с влияние неадекватности можно считать незначительным если же существенно больше чем то этим влиянием нельзя пренебречь и модель приходится считать неадекватной. Нахождение рассматривалось в 3.1 находится по формуле
где - кол-во коэффициентов уравнения регрессии.
Теперь проверим гипотезу
Согласно свойству 8 из 3.2 распределение отношения так же как и - распределение . И отношение тоже имеет -распределение поскольку - сумма квадратов нормально распределённых случайных величин. Известно что отношение двух случайных величин с распределением имеет распределение Фишера. Поэтому величина
имеет распределение Фишера с и степенями свободы.
Следовательно процедуру проверки адекватности регрессионной модели можно сформулировать следующим образом.
После оценивания регрессионных коэффициентов вычисляют .
Проводят m дополнительных опытов и получают .
Вычисляют дисперсионное отношение
При заданном уровне значимости и числе степеней свободы и из таблицы распределения Фишера берут величину
Сравнивают величины F и FT и делают один из двух выводов:
А. Если модель считается адекватной так как в указанном случае гипотеза о равенстве и не отвергается т.е. они могут считаться соизмеримыми а следовательно неадекватность не отразилась существенно на вычислении .
Б. Если модель неадекватна поскольку значительно больше чем и неадекватность сыграла существенную роль при формировании .
Применяя рассмотренную процедуру надо иметь в виду некоторые моменты.
Уровень значимости как известно представляет собой вероятность ошибки первого рода т.е. вероятности отвергнуть гипотезу об адекватности модели когда она верна. Величина обычно задаётся в границах от 001 до 01 но чаще всего используется =005. Выбор условен и отражает согласие исследователя принимать модели с большей или меньшей точностью. Поэтому при выборе такой вероятности допускается известная свобода но всё-таки она не должна выходить за указанные выше границы.
Иногда может получиться . Тогда дисперсионное отношение меньше единицы что не позволяет проверить гипотезу адекватности. В этом случае можно построить обратное соотношение
и при уровне значимости и числах степеней свободы и по таблице распределения Фишера найти
После чего сделать один из следующих двух выводов.
А. Если гипотеза о равенстве и не отвергается значит модель адекватна.
Б. Если кажется уместным принять что . Но это невозможно если придерживаться предположений регрессионного анализа ибо образуется как под влиянием так и из-за неадекватности.
Таким образом причиной получения неравенства может быть или грубая ошибка в вычислениях или неадекватность условий проведения опытов по определению и . То же самое может получиться и при неоднородности (гетероскедастичности) дисперсий отдельных наблюдений. Появление такой ситуации требует тщательного исследования всех возможных ошибок.
При констатации неадекватности модели надо изменить её структуру и заново собрать данные.
Работа выполнена с помощью пакета MathCAD 2000. В ней экспериментальным путём вычисляются значения откликов у с помощью МНК вычисляются оценки коэффициентов уравнения регрессии и проводится статистический анализ модели (проверка дисперсий на однородность проверка коэффициентов уравнения регрессии на значимость проверка модели на адекватность). В работе не предусмотрен интерфейс зато есть возможность проследить за ходом вычислений ввиду того что они не скрыты от пользователя. Также есть возможность изменять значения большинства параметров (количество наблюдений количество параллельных опытов и т.д.) и вводить табличные значения величин соответствующих параметрам. В некоторых случаях пользователю необходимо будет самому изменить некоторые функции но так как эта работа рассчитана на тех кто знает основы работы с пакетом MathCAD 2000 и имеет представление о регрессионном анализе то эта задача представляется несложной и легко выполнимой.
математическое описание системы и области изменения переменных
уровень выхода системы
значение параметров системы
характер помехи и её статистические параметры:
нормальное распределение
Список функций которые используются в работе:
augment(ABC ) – встроенная функция MathCAD 2000 которая возвращает матрицу сформированную из векторов ABC расположенных слева направо;
rows(A) – возвращает количество строк в матрице А;
max (A) – возвращает значение максимального из элементов матрицы А.
Regr – функция возвращает матрицу регрессоров; в зависимости от вида модели системы её возможно придётся модифицировать но сделать это максимально просто;
Sred – функция возвращает вектор усреднённых значений откликов для N наблюдений;
Odnor(par) – функция проверяет дисперсии на однородность и возвращает в зависимости от значения par (1 или 2) G для сравнения с Gtab или вектор усреднённых оценок дисперсий случайного возмущения для использования в дальнейших вычислениях;
Ypred – функция возвращает вектор предсказанных значений откликов.
Для остальных действий выполняемых в данной работе не потребовалось написание специальных функций так как можно было обойтись просто формулами.
Список переменных которые используются в работе (за исключением служебных переменных):
u0 – нулевой фактор;
с – вектор параметров с1 и с2;
р и рр – векторы параметров системы;
mf и df – математическое ожидание и дисперсия помехи;
n – количество факторов;
m – количество параллельных опытов;
N- количество наблюдений;
U – матрица значений n факторов для N наблюдений;
f - матрица значений помех для N наблюдений с m параллельными опытами в каждом;
Y – матрица значений откликов для N наблюдений с m параллельными опытами в каждом;
F – матрица регрессоров для N наблюдений и четырёх коэффициентов уравнения регрессии;
Ys – вектор усреднённых значений откликов для каждого наблюдения;
b – вектор оценок коэффициентов уравнения регрессии;
G – расчётное значение критерия Кохрена;
Gtab – табличное значение критерия Кохрена;
n и n1 – степени свободы для табличного значения критерия Кохрена;
S – вектор усреднённых значений оценок дисперсий случайного возмущения;
t – вектор расчётных значений критерия Стьюдента для всех оценок коэффициентов уравнения регрессии;
tTAB – табличное значение критерия Стьюдента;
Ypred – вектор предсказанных значений откликов;
Sost – остаточная дисперсия;
n и nост – степени свободы для табличного значения критерия Фишера.
Ниже приводится вид файла MathCAD 2000 в котором выполнен конкретный пример (все параметры взяты из задания на курсовую работу). При изменении исходных параметров и (или) генерации новых случайных величин результаты могут в корне отличаться.
Файл выполнения конкретного примера
Области изменения переменных
Мат. ожидание и дисперсия помехи (нормальное распределение)
кол-во параллельных опытов
Проведение эксперимента
получение значений факторов
получение помех и откликов
u0 u1 u2 u3 y1 y2 y3
усредненные значения откликов для каждого наблюдения
оценки коэф-тов уравнения регрессии
проверка дисперсий на однородность по критерию Кохрена
табличное значение критерия Кохрена
усредненные значения оценок дисперсий случайного возмущения
проверка коэф-тов уравнения регрессии на значимость
табличное значение критерия Стьюдента
первый коэф-т оказался незначимым он отбрасывается
новая м-ца регрессоров
проверка на значимость
предсказанные значения откликов
вычисление остаточной дисперсии
табличное значение критерия Фишера
Список использованной литературы
Конспект по курсу: «Теория систем и системный анализ» (лектор – доцент Чумаченко Е. И.).
Вучков И. Бояджиева Л. Солаков Е. «Прикладной линейный регрессионный анализ». – М.: Финансы и статистика 1987.
Бондарь А. Г. «Математическое моделирование в химической технологии».- К.: Вища школа 1973.
Асатурян В. И. «Теория планирования эксперимента». – М.: Радио и связь 1983.
М. Херхагер Х. Партолль «MathCAD 2000: полное руководство»: Пер. с нем. – К.: Издательская группа BHV 2000.

icon Блок-схема.cdw

Блок-схема.cdw
Схема главной программы
регрессионного анализа модели системы
up Наверх