Читать «Статистика и котики» онлайн - страница 20

Владимир Савельев

Дискриминантный анализ может работать и с большим количеством групп. Например, если мы добавим к нашим Барсикам и Мурзикам группу философских котиков, дискриминантный анализ сможет найти границы между ними всеми. Число таких границ всегда будет на одну меньше, чем количество групп.

Если же вы являетесь поклонником регрессионного анализа, то при большом количестве групп вы можете вычислить так называемую мультиномиальную регрессию.

НЕМАЛОВАЖНО ЗНАТЬ!

Мультиколлиниарность и переобучение

С методами регрессионного и дискриминантного анализов связаны две проблемы, которые существенным образом могут испортить вам все ваши выводы.

Первая из них — проблема мультиколлиниарности — возникает в случаях, когда некоторые факторы сильно коррелируют между собой, и приводит к неустойчивости получившегося уравнения. Проявляется это в двух формах.

1. При добавлении всего одного-двух котиков в выборку это уравнение может измениться до неузнаваемости.

2. Формулы, построенные на двух сходных выборках котиков, будут различаться.

Как правило, эту проблему преодолевают тремя способами.

1. Исключают одну из коррелирующих переменных из анализа.

2. Предварительно проводят процедуру факторного анализа (о нем будет рассказано далее), заменяющего эти переменные одной искусственной, которая и будет включена в регрессию.

3. Проводят процедуру пошаговой регрессии. Такая регрессия постепенно включает в уравнение по одной переменной и сразу же после этого пересчитывает вклад всех остальных. В итоге если одна из коррелирующих переменных была выбрана в качестве фактора, вторая туда скорее всего не попадет.

Вторая проблема — проблема переобучения — заключается в том, что уравнение, полученное на одних котиках, может не работать на других. Она возникает из-за того, что в вашей выборке котиков могут быть закономерности, которые нехарактерны для котиков в целом. И зачастую они попадают в регрессионную модель.

Для того чтобы предотвратить переобучение, используют критерий, который искусственно ограничивает количество факторов, включенных в уравнение (например критерий Акаике и Байесовский информационный критерий).

Глава 12.

Котиковые аналоги

или основы математического моделирования

В предыдущих разделах мы подробно рассмотрели метод регрессионного анализа, который позволяет построить уравнение, описывающее, как различные вещи влияют на настроение котиков. Подобные уравнения входят в группу объектов, называющихся математическими моделями.

Математическая модель — это своего рода аналог котика, который позволяет изучать его поведение без проведения реальных экспериментов. Как правило, это значительно удешевляет исследования.

Все математические модели делятся на функциональные и структурные. Функциональные модели, к которым, к слову, относится регрессионное уравнение, — описывают влияние внешних факторов на котиковое состояние. Например, известная нам модель котикового счастья.

Особенность такой модели в том, что мы подробно не рассматриваем состав этого счастья. Счастье для нас — некий целостный объект, целевая переменная, которая может меняться: прибывать или убывать. А вот структурные модели позволяют описать его компоненты: от удовлетворения базовых котиковых потребностей до котиковой самореализации.