Как выбрать вид уравнения регрессии

Уравнение регрессии

Определение и уравнение регрессии

Чаще всего регрессия задается уравнением, которое показывает зависимость между двумя группами числовых переменных. Уравнения бывают двух видов: линейные и нелинейные.

Регрессия бывает двух видов: парная (или двухфакторная) и множественная (или многофакторная). Такие регрессии отличаются друг от друга видом уравнения и количестве независимых переменных. Уравнения парной регрессии относятся к уравнениям регрессии первого порядка, а уравнения множественной регрессии — к нелинейным уравнениям регрессии.

Параметры уравнения линейной регрессии Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессиинаходятся методом наименьших квадратов из системы нормальных уравнений

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Примеры решения задач

ЗаданиеПусть задана зависимость между выработкой продукции на одного работника и удельного веса рабочих высокой квалификации:

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Определите теоретическое уравнение парной регрессии.

РешениеВыборка состоит из 10 предприятий отрасли, то есть Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии. Уравнение парной регрессии будем искать в виде:

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Для определения параметров модели, будем использовать метод наименьших квадратов. Система нормальных уравнений для определения неизвестных величин Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессиии Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессииимеет вид:

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Вычислим необходимые значения, для этого построим следующую таблицу:

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Составляем систему нормальных уравнений:

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Решая полученную систему линейных уравнений любым из известных методов, будем иметь:

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Тогда искомое уравнение

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

ОтветКак выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии
ЗаданиеИмеются следующие данные разных стран об индексе розничных цен на продукты питания (Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии) и индексе промышленного производства (Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии):

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Необходимо для характеристики зависимости Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессииот Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессиирассчитать параметры следующих функций: а) линейной; б) степенной; в) равносторонней гиперболы.

Решениеа) для построения линейной регрессии Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессиизаполним таблицу:

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Для нахождения параметров регрессии, решаем систему нормальных уравнений (1):

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

То есть уравнение линейной регрессии Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии.

б) Степенная регрессия имеет вид Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии.

Прологарифмируем это равенство десятичным логарифмом:

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

По способу наименьших квадратов строим систему нормальных уравнений для определения параметров регрессии:

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Построим расчетную таблицу:

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Подставляем в систему:

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Решая полученную систему, будем иметь:

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Тогда искомое уравнение

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

в) Уравнение равносторонней гиперболы Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии.

Для определения параметров этого уравнения используется система нормальных уравнений:

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Составим таблицу расчетных данных:

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Получаем следующую систему нормальных уравнений:

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Решая записанную систему, получаем следующие значения параметров регрессии:

Источник

R — значит регрессия

Статистика в последнее время получила мощную PR поддержку со стороны более новых и шумных дисциплин — Машинного Обучения и Больших Данных. Тем, кто стремится оседлать эту волну необходимо подружится с уравнениями регрессии. Желательно при этом не только усвоить 2-3 приемчика и сдать экзамен, а уметь решать проблемы из повседневной жизни: найти зависимость между переменными, а в идеале — уметь отличить сигнал от шума.

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Для этой цели мы будем использовать язык программирования и среду разработки R, который как нельзя лучше приспособлен к таким задачам. Заодно, проверим от чего зависят рейтинг Хабрапоста на статистике собственных статей.

Введение в регрессионный анализ

Основу регрессионного анализа составляет метод наименьших квадратов (МНК), в соответствии с которым в качестве уравнения регресии берется функция Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессиитакая, что сумма квадратов разностей Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессииминимальна.

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Карл Гаусс открыл, или точнее воссоздал, МНК в возрасте 18 лет, однако впервые результаты были опубликованы Лежандром в 1805 г. По непроверенным данным метод был известен еще в древнем Китае, откуда он перекочевал в Японию и только затем попал в Европу. Европейцы не стали делать из этого секрета и успешно запустили в производство, обнаружив с его помощью траекторию карликовой планеты Церес в 1801 г.

Вид функции Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии, как правило, определен заранее, а с помощью МНК подбираются оптимальные значения неизвестных параметров. Метрикой рассеяния значений Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессиивокруг регрессии Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессииявляется дисперсия.

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Линейная регрессия

Уравнения линейной регрессии можно записать в виде

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

В матричном виде это выгладит

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Случайная величина Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессииможет быть интерпретирована как сумма из двух слагаемых:

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Ограничения линейной регрессии

Для того, чтобы использовать модель линейной регрессии необходимы некоторые допущения относительно распределения и свойств переменных.

Как обнаружить, что перечисленные выше условия не соблюдены? Ну, во первых довольно часто это видно невооруженным глазом на графике.

Неоднородность дисперсии
Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

При возрастании дисперсии с ростом независимой переменной имеем график в форме воронки.

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Нелинейную регрессии в некоторых случая также модно увидеть на графике довольно наглядно.

Тем не менее есть и вполне строгие формальные способы определить соблюдены ли условия линейной регрессии, или нарушены.

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

В этой формуле Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии— коэффициент взаимной детерминации между Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессиии остальными факторами. Если хотя бы один из VIF-ов > 10, вполне резонно предположить наличие мультиколлинеарности.

Почему нам так важно соблюдение всех выше перечисленных условий? Все дело в Теореме Гаусса-Маркова, согласно которой оценка МНК является точной и эффективной лишь при соблюдении этих ограничений.

Как преодолеть эти ограничения

Нарушения одной или нескольких ограничений еще не приговор.

К сожалению, не все нарушения условий и дефекты линейной регрессии можно устранить с помощью натурального логарифма. Если имеет место автокорреляция возмущений к примеру, то лучше отступить на шаг назад и построить новую и лучшую модель.

Линейная регрессия плюсов на Хабре

Итак, довольно теоретического багажа и можно строить саму модель.
Мне давно было любопытно от чего зависит та самая зелененькая цифра, что указывает на рейтинг поста на Хабре. Собрав всю доступную статистику собственных постов, я решил прогнать ее через модель линейно регрессии.

Загружает данные из tsv файла.

Вопреки моим ожиданиям наибольшая отдача не от количества просмотров статьи, а от комментариев и публикаций в социальных сетях. Я также полагал, что число просмотров и комментариев будет иметь более сильную корреляцию, однако зависимость вполне умеренная — нет надобности исключать ни одну из независимых переменных.

В первой строке мы задаем параметры линейной регрессии. Строка points

. определяет зависимую переменную points и все остальные переменные в качестве регрессоров. Можно определить одну единственную независимую переменную через points

Перейдем теперь к расшифровке полученных результатов.

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Можно попытаться несколько улучшить модель, сглаживая нелинейные факторы: комментарии и посты в социальных сетях. Заменим значения переменных fb и comm их степенями.

Проверим значения параметров линейной регрессии.

Проверим, соблюдены ли условия применимости модели линейной регрессии? Тест Дарбина-Уотсона проверяет наличие автокорреляции возмущений.

И напоследок проверка неоднородности дисперсии с помощью теста Бройша-Пагана.

В заключение

Конечно наша модель линейной регрессии рейтинга Хабра-топиков получилось не самой удачной. Нам удалось объяснить не более, чем половину вариативности данных. Факторы надо чинить, чтобы избавляться от неоднородной дисперсии, с автокорреляцией тоже непонятно. Вообще данных маловато для сколь-нибудь серьезной оценки.

Но с другой стороны, это и хорошо. Иначе любой наспех написанный тролль-пост на Хабре автоматически набирал бы высокий рейтинг, а это к счастью не так.

Источник

5 видов регрессии и их свойства

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Линейная и логистическая регрессии обычно являются первыми видами регрессии, которые изучают в таких областях, как машинное обучение и наука о данных. Оба метода считаются эффективными, так как их легко понять и использовать. Однако, такая простота также имеет несколько недостатков, и во многих случаях лучше выбирать другую регрессионную модель. Существует множество видов регрессии, каждый из которых имеет свои достоинства и недостатки.

Мы познакомимся с 7 наиболее распространенными алгоритмами регрессии и опишем их свойства. Также мы узнаем, в каких ситуация и с какими видами данных лучше использовать тот или иной алгоритм. В конце мы расскажем о некоторых инструментах для построения регрессии и поможем лучше разобраться в регрессионных моделях в целом!

Линейная регрессия

Регрессия — это метод, используемый для моделирования и анализа отношений между переменными, а также для того, чтобы увидеть, как эти переменные вместе влияют на получение определенного результата. Линейная регрессия относится к такому виду регрессионной модели, который состоит из взаимосвязанных переменных. Начнем с простого. Парная (простая) линейная регрессия — это модель, позволяющая моделировать взаимосвязь между значениями одной входной независимой и одной выходной зависимой переменными с помощью линейной модели, например, прямой.

Более распространенной моделью является множественная линейная регрессия, которая предполагает установление линейной зависимости между множеством входных независимых и одной выходной зависимой переменных. Такая модель остается линейной по той причине, что выход является линейной комбинацией входных переменных. Мы можем построить модель множественной линейной регрессии следующим образом:

Y = a_1*X_1 + a_2*X_2 + a_3*X_3 ……. a_n*X_n + b

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Несколько важных пунктов о линейной регрессии:

Полиномиальная регрессия

Для создания такой модели, которая подойдет для нелинейно разделяемых данных, можно использовать полиномиальную регрессию. В данном методе проводится кривая линия, зависимая от точек плоскости. В полиномиальной регрессии степень некоторых независимых переменных превышает 1. Например, получится что-то подобное:

Y = a_1*X_1 + (a_2)²*X_2 + (a_3)⁴*X_3 ……. a_n*X_n + b

У некоторых переменных есть степень, у других — нет. Также можно выбрать определенную степень для каждой переменной, но для этого необходимы определенные знания о том, как входные данные связаны с выходными. Сравните линейную и полиномиальную регрессии ниже.

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Несколько важных пунктов о полиномиальной регрессии:

Гребневая (ридж) регрессия

В случае высокой коллинеарности переменных стандартная линейная и полиномиальная регрессии становятся неэффективными. Коллинеарность — это отношение независимых переменных, близкое к линейному. Наличие высокой коллинеарности можно определить несколькими путями:

Сначала можно посмотреть на функцию оптимизации стандартной линейной регрессии для лучшего понимания того, как может помочь гребневая регрессия:

Где X — это матрица переменных, w — веса, y — достоверные данные. Гребневая регрессия — это корректирующая мера для снижения коллинеарности среди предикторных переменных в регрессионной модели. Коллинеарность — это явление, в котором одна переменная во множественной регрессионной модели может быть предсказано линейно, исходя из остальных свойств со значительной степенью точности. Таким образом, из-за высокой корреляции переменных, конечная регрессионная модель сведена к минимальным пределам приближенного значения, то есть она обладает высокой дисперсией.

Гребневая регрессия добавляет небольшой фактор квадратичного смещения для уменьшения дисперсии:

Такой фактор смещения выводит коэффициенты переменных из строгих ограничений, вводя в модель небольшое смещение, но при этом значительно снижая дисперсию.

Несколько важных пунктов о гребневой регрессии:

Регрессия по методу «лассо»

В регрессии лассо, как и в гребневой, мы добавляем условие смещения в функцию оптимизации для того, чтобы уменьшить коллинеарность и, следовательно, дисперсию модели. Но вместо квадратичного смещения, мы используем смещение абсолютного значения:

Существует несколько различий между гребневой регрессией и лассо, которые восстанавливают различия в свойствах регуляризаций L2 и L1:

Регрессия «эластичная сеть»

Эластичная сеть — это гибрид методов регрессии лассо и гребневой регрессии. Она использует как L1, так и L2 регуляризации, учитывая эффективность обоих методов.

min || Xw — y ||² + z_1|| w || + z_2|| w ||²

Практическим преимуществом использования регрессии лассо и гребневой регрессии является то, что это позволяет эластичной сети наследовать некоторую стабильность гребневой регрессии при вращении.

Несколько важных пунктов о регрессии эластичной сети:

Вывод

Вот и все! 5 распространенных видов регрессии и их свойства. Все данные методы регуляризации регрессии (лассо, гребневая и эластичной сети) хорошо функционирует при высокой размерности и мультиколлинеарности среди переменных в наборе данных.

Источник

Выбор вида уравнения регрессии

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Задача определения функциональной зависимости, наилучшим образом описывающей ЭД, связана с преодолением ряда принципиальных трудностей. В общем случае для стандартизованных данных функциональную зависимость показателя от параметров можно представить в виде

Указанное уравнение принято называть выборочным уравнением регрессии y на u. Это уравнение характеризует зависимость между вариацией показателя и вариациями факторов. А мера корреляции измеряет долю вариации показателя, которая связана с вариацией факторов. Иначе говоря, корреляцию показателя и факторов нельзя трактовать как связь их уровней, а регрессионный анализ не объясняет роли факторов в создании показателя.

Еще одна особенность касается оценки степени влияния каждого фактора на показатель. Регрессионное уравнение не обеспечивает оценку раздельного влияния каждого фактора на показатель, такая оценка возможна лишь в случае, когда все другие факторы не связаны с изучаемым. Если изучаемый фактор связан с другими, влияющими на показатель, то будет получена смешанная характеристика влияния фактора. Эта характеристика содержит как непосредственное влияние фактора, так и опосредованное влияние, оказанное через связь с другими факторами и их влиянием на показатель.

В регрессионное уравнение не рекомендуется включать факторы, слабо связанные с показателем, но тесно связанные с другими факторами. Не включают в уравнение и факторы, функционально связанные друг с другом (для них коэффициент корреляции равен 1). Включение таких факторов приводит к вырождению системы уравнений для оценок коэффициентов регрессии и к неопределенности решения.

В целях выбора функциональной связи заранее выдвигают гипотезу о том, к какому классу может принадлежать функция f, а затем подбирают «лучшую» функцию в этом классе. Выбранный класс функций должен обладать некоторой «гладкостью», т.е. «небольшие» изменения значений аргументов должны вызывать «небольшие» изменения значений функции (ЭД содержат некоторые ошибки измерений, а само поведение объекта подвержено влиянию помех, маскирующих истинную связь между параметрами и показателем).

Простым, удобным для практического применения и отвечающим указанному условию является класс полиномиальных функций

Это уравнение в регрессионном анализе следует трактовать как векторное, ибо речь идет о матрице данных

Как выбрать вид уравнения регрессии. Смотреть фото Как выбрать вид уравнения регрессии. Смотреть картинку Как выбрать вид уравнения регрессии. Картинка про Как выбрать вид уравнения регрессии. Фото Как выбрать вид уравнения регрессии

Для выбора вида функциональной зависимости можно рекомендовать следующий подход:

в пространстве параметров графически отображают точки со значениями показателя. При большом количестве параметров можно строить точки применительно к каждому из них, получая двумерные распределения значений;

по расположению точек и на основе анализа сущности взаимосвязи показателя и параметров объекта делают заключение о примерном виде регрессии или ее возможных вариантах;

после расчета параметров оценивают качество аппроксимации, т.е. оценивают степень близости расчетных и фактических значений;

если расчетные и фактические значения близки во всей области задания, то задачу регрессионного анализа можно считать решенной. В противном случае можно попытаться выбрать другой вид полинома или другую аналитическую функцию, например периодическую.

Вычисление коэффициентов уравнения регрессии

Систему уравнений (7.8) на основе имеющихся ЭД однозначно решить невозможно, так как количество неизвестных всегда больше количества уравнений. Для преодоления этой проблемы нужны дополнительные допущения. Здравый смысл подсказывает: желательно выбрать коэффициенты полинома так, чтобы обеспечить минимум ошибки аппроксимации ЭД. Могут применяться различные меры для оценки ошибок аппроксимации. В качестве такой меры нашла широкое применение среднеквадратическая ошибка. На ее основе разработан специальный метод оценки коэффициентов уравнений регрессии – метод наименьших квадратов (МНК). Этот метод позволяет получить оценки максимального правдоподобия неизвестных коэффициентов уравнения регрессии при нормальном распределения вариант, но его можно применять и при любом другом распределении факторов.

В основе МНК лежат следующие положения:

значения величин ошибок и факторов независимы, а значит, и некоррелированы, т.е. предполагается, что механизмы порождения помехи не связаны с механизмом формирования значений факторов;

математическое ожидание ошибки ε должно быть равно нулю (постоянная составляющая входит в коэффициент a0), иначе говоря, ошибка является центрированной величиной;

выборочная оценка дисперсии ошибки должна быть минимальна.

Рассмотрим применение МНК применительно к линейной регрессии стандартизованных величин. Для центрированных величин uj коэффициент a0 равен нулю, тогда уравнения линейной регрессии

Здесь введен специальный знак «^», обозначающий значения показателя, рассчитанные по уравнению регрессии, в отличие от значений, полученных по результатам наблюдений.

По МНК определяются такие значения коэффициентов уравнения регрессии, которые обеспечивают безусловный минимум выражению

Минимум находится приравниванием нулю всех частных производных выражения (7.10), взятых по неизвестным коэффициентам, и решением системы уравнений

Последовательно проведя преобразования и используя введенные ранее оценки коэффициентов корреляции

Итак, получено т–1 линейных уравнений, что позволяет однозначно вычислить значения a2, a3, …, aт.

Если же линейная модель неточна или параметры измеряются неточно, то и в этом случае МНК позволяет найти такие значения коэффициентов, при которых линейная модель наилучшим образом описывает реальный объект в смысле выбранного критерия среднеквадратического отклонения.

Соотношение (7.13) подтверждает ранее высказанное утверждение, что коэффициент корреляции является мерой линейной связи двух стандартизованных параметров.

Переходя от центрированных и нормированных значений показателя и параметра

можно получить для исходных величин

Это уравнение также линейно относительно коэффициента корреляции. Нетрудно заметить, что центрирование и нормирование для линейной регрессии позволяет понизить на единицу размерность системы уравнений, т.е. упростить решение задачи определения коэффициентов, а самим коэффициентам придать ясный смысл.

Применение МНК для нелинейных функций практически ничем не отличается от рассмотренной схемы (только коэффициент a0 в исходном уравнении не равен нулю).

Например, пусть необходимо определить коэффициенты параболической регрессии

Выборочная дисперсия ошибки

На ее основе можно получить следующую систему уравнений

После преобразований система уравнений примет вид

Учитывая свойства моментов стандартизованных величин, запишем

Определение коэффициентов нелинейной регрессии основано на решении системы линейных уравнений. Для этого можно применять универсальные пакеты численных методов или специализированные пакеты обработки статистических данных [1].

С ростом степени уравнения регрессии возрастает и степень моментов распределения параметров, используемых для определения коэффициентов. Так, для определения коэффициентов уравнения регрессии второй степени используются моменты распределения параметров до четвертой степени включительно. Известно, что точность и достоверность оценки моментов по ограниченной выборке ЭД резко снижается с ростом их порядка. Применение в уравнениях регрессии полиномов степени выше второй нецелесообразно.

Качество полученного уравнения регрессии оценивают по степени близости между результатами наблюдений за показателем и предсказанными по уравнению регрессии значениями в заданных точках пространства параметров. Если результаты близки, то задачу регрессионного анализа можно считать решенной. В противном случае следует изменить уравнение регрессии (выбрать другую степень полинома или вообще другой тип уравнения) и повторить расчеты по оценке параметров.

При наличии нескольких показателей задача регрессионного анализа решается независимо для каждого из них.

Анализируя сущность уравнения регрессии, следует отметить следующие положения. Рассмотренный подход не обеспечивает раздельной (независимой) оценки коэффициентов – изменение значения одного коэффициента влечет изменение значений других. Полученные коэффициенты не следует рассматривать как вклад соответствующего параметра в значение показателя. Уравнение регрессии является всего лишь хорошим аналитическим описанием имеющихся ЭД, а не законом, описывающим взаимосвязи параметров и показателя. Это уравнение применяют для расчета значений показателя в заданном диапазоне изменения параметров. Оно ограниченно пригодно для расчета вне этого диапазона, т.е. его можно применять для решения задач интерполяции и в ограниченной степени для экстраполяции.

Задача 7.2.Построить уравнение регрессии для пропускной способности канала по выборке, заданной в табл. 7.1.

Решение. Применительно к указанной выборке построение аналитической зависимости в основной своей части выполнено в рамках корреляционного анализа: пропускная способность зависит только от параметра «соотношение сигнал/шум». Остается подставить в выражение (7.14) вычисленные ранее значения параметров. Уравнение для пропускной способности примет вид

Результаты расчетов представлены в табл. 7.5.

№ ппПропускная способностьСоотношение сигнал/шум,Значение функции, кбит/сПогрешность, кбит/с
канала, кбит/сдБ
YXe
26,3741,9826,72–0,35
28,0043,8328,25–0,25
27,8342,8327,420,41
31,6747,2831,120,55
23,5038,7524,04–0,54
21,0435,1221,030,01
16,9432,0718,49–1,55
37,5654,2536,900,66
18,8432,7019,02–0,18
25,7740,5125,500,27
33,5249,7833,190,33
28,2143,8428,26–0,05
28,7644,0328,420,34
24,6039,4624,63–0,03
24,5138,7824,060,45

Остаточная дисперсия стандартизованной величины Y относительно стандартизованной величины Х равна 1– 0,93 2 = 0,14, т.е. является малой величиной. Погрешность аппроксимации и величина остаточной дисперсии показывают высокую точность линейной модели, поэтому задачу регрессионного анализа можно считать решенной. Свободный член уравнения регрессии отрицательный, следовательно, область существования показателя не включает нулевое значение параметра «отношение сигнал/шум», что вытекает из сущности параметра (при нулевом уровне сигнала передача информации невозможна).

Тема №8. Выражение неопределённости измерений.

Измерение. Погрешности, эффекты, поправки. Неопределённость. Вычисление стандартной неопределённости: моделирование измерения, оценивание стандартной неопределённости по типу А, оценивание стандартной неопределённости по типу Б. Определение суммарной стандартной неопределённости: некоррелированные входные величины, коррелированные входные величины. Определение расширенной неопределённости: определения, расширенная неопределённость, выбор коэффициента охвата. Составление отчёта о неопределённости.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *