Функции распределения X и Y имеют вид (см. приложение, Рис. 6, 7).
Регрессионный анализ
Между переменными X и Y существует функциональная связь у = f(x), т.е. каждому значению аргумента Х соответствует единственное значение аргумента Y. Регрессия — зависимость среднего значения какой-либо величины Y от другой величины X. Понятие регрессии в некотором смысле обобщает понятие функциональной зависимости у = f(x). Только в случае регрессии одному и тому же значению x
в различных случаях соответствуют различные значения y.
Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменения одной величины (называемой зависимой или результативным признаком) обусловлено влиянием одной или нескольких независимых величин (факторов).
По форме зависимости различают:
1). Линейную регрессию
, которая выражается уравнением прямой — линейной функцией вида: у =ax+b.
Если в результате n
экспериментов точки на диаграмме рассеивания расположены таким образом, что прослеживается тенденция роста Y при росте X, то это предположение о линейной зависимости: у = f(x).
Эта зависимость определяется двумя параметрами — а и b. Подобрав эти параметры, можно получить уравнение регрессии.
2). Нелинейную
(параболическую
) регрессию
: у =ах2 +bх+с.
3). Полиномную регрессию
— полином первой степени: у =ах+b (линейная регрессия);
— полином второй степени: у = ах2 +bх+с (параболическая регрессия);
— полином n-ой степени: y = anxn + … + a2x2 + a1x + a0.
Целью регрессионного анализа является оценка функциональной зависимости результативного признака (у) от факторных (x1, x2, …,Xn).
Метод наименьших квадратов (МНК)
Найдем по данным наблюдений выборочное уравнение прямой линии у = ах+b среднеквадратичной регрессии Y на X.
Это можно сделать с помощью метода наименьших квадратов (МНК). Этот метод, применяется в теории ошибок, для отыскания одной или нескольких величин по результатам измерений, содержащих случайные ошибки. МНК также используется для приближенного представления заданной функции другими (более простыми) функциями и часто оказывается полезным для обработки наблюдений.
Для того чтобы определить параметры a и b необходимо знать отклонения
(точки, находящиеся не на на прямой, а рядом). Суммарное отклонение будет равно:
где Yiexp — экспериментальные точки (не обязательно лежащие на прямой), Yiteor — теоретические точки (лежащие на прямой).
где Δ — суммарное квадратичное отклонение, которое зависит от параметров
а и b,
Yi
— экспериментальные значения Y, axi + b — теоретические значения Y.
Лучшими параметрами а и b являются такие, которые минимизируют Δ
, следовательно, среди бесконечного множества прямых, которых дает прямая у = ax + b, наилучшей является прямая с такими значениями параметров а
и b
, для которых Δ(а, b) принимает минимальное значение.
Чтобы найти эти значения параметров а и b, необходимо найти точку минимума функции Δ(а, b). Для этого берется производная
и рассматривается система двух уравнений, решения которой — значения a
и b
:
Для данных курсовой работы получаем:
a = 6041,9;
b = 1115,6.
Т.е. y = 6041,9x + 1115,6;
По тем же данным курсовой работы вычислим коэффициенты уравнения параболической регрессии.
Параболическое уравнение регрессии Y на X имеет вид
Неизвестные параметры A, B,C находят из системы уравнений: