Читать «Статистика и котики» онлайн - страница 18

Владимир Савельев

Теперь мысленно подвигаем Барсика относительно регрессионной прямой — при удалении от нее остаток будет увеличиваться, а при приближении — уменьшаться. И, наконец, если Барсик встанет на эту прямую, остаток будет равен нулю. А теперь вспомним, что у нашего Барсика есть компания, и если все наши котики находятся на прямой, то их совокупный остаток тоже будет равен нулю. В то же время при удалении от этой прямой совокупный остаток начнет увеличиваться.

Логика диктует, что, чтобы получить такой совокупный остаток, нам нужно просто сложить индивидуальные остатки котиков (бр-р-р… звучит жутко). Однако, поскольку эти остатки могут быть как положительными, так и отрицательными (некоторые котики ведь могут быть более счастливыми, правда?), на выходе мы можем получить полную белиберду (аналогичная ситуация была, когда мы считали стандартное отклонение). Поэтому, чтобы исключить влияние знаков, мы складываем квадраты остатков.

Чем больше получившаяся сумма, тем хуже прямая описывает наши данные. И суть регрессионного анализа заключается в том, чтобы подобрать такую прямую, при которой эта сумма была бы минимальной.

А теперь пару слов о том, почему регрессионный анализ считается одним из самых крутых статистических методов. Дело в том, что он способен работать с большим количеством переменных одновременно. И если вы умудритесь провести тотальный замер ваших котиков на предмет того, что может приносить им счастье, и прогоните эти данные через регрессионный анализ, вы можете получить настоящую формулу счастья.

По этой формуле вы сможете выяснить, какие факторы наиболее сильно влияют на котиковое счастье, и предсказывать, насколько будет счастлив тот или иной котик по их значениям.

Однако здесь важно сделать предостережение — если вы вычислили такую формулу, это вовсе не означает, что то, что в ней справа — причины, а слева — следствие. В конце концов, может быть, еда делает котиков счастливыми, а может, и наоборот — у счастливых котиков лучше аппетит.

Помимо самой формулы вы также можете получить информацию о том, можно ли в нее что-нибудь добавить. В этом вам поможет коэффициент детерминации R2. Он изменяется в промежутках от 0 до 1, и чем ближе к единице, тем лучше ваша формула объясняет наблюдаемые данные. Низкий коэффициент детерминации говорит о том, что нужно поискать, какие еще переменные могут быть связаны с котиковым счастьем.

НЕМАЛОВАЖНО ЗНАТЬ!

Нелинейная регрессия

Вообще-то говоря, связь между переменными не всегда является линейной. Например, существует определенный момент, после которого котика начинает тошнить от дополнительных порций, хотя до этого момента каждая новая порция делала его более счастливым.

Такую взаимосвязь можно описать с помощью квадратного (или, как говорят математики, полиномиального) уравнения, с которым мы знакомы со школы. И составить такое уравнение можно с помощью метода полиномиальной регрессии.