Читать «Статистика и котики» онлайн - страница 28

Владимир Савельев

Пример: предположим, вы управляете сетью розничных магазинов и хотите получить представление о том, какие факторы влияют на ежемесячную выручку в этих магазинах. Для этого вы должны замерить все возможные факторы, которые, по вашему мнению, могут на эту выручку повлиять: количество людей, посещающих магазин, число сотрудников на кассах, наличие на полках определенного товара и т. д. Затем необходимо построить линейную регрессию, указав в качестве целевой переменной выручку с этих магазинов, а в качестве предикторов — все, что вы замерили.

Получив регрессионную модель, вы сможете не только посмотреть, какие факторы влияют на продажи, но и предсказать, какую выручку будет получать магазин при определенных условиях.

Если вы немного скорректируете вашу задачу и примените метод логистической регрессии, то вы сможете узнать условия, при которых ваш магазин будет прибыльным или убыточным.

ДИСКРИМИНАНТНЫЙ АНАЛИЗ

Дискриминантный анализ во многом похож на логистическую регрессию. Задачу, которую он решает, можно приблизительно сформулировать так: по каким переменным я могу отнести конкретный объект в тот или иной класс.

Пример: предположим, вы проводите медицинское исследование и хотите узнать, по каким диагностическим показателям можно отличить больного человека от здорового. Для этого вы берете группы заведомо здоровых и больных людей и замеряете у них всех возможных «подозреваемых». После этого необходимо провести дискриминантный анализ, который и выявит систему показателей, по которым можно установить конкретный диагноз.

КЛАСТЕРНЫЙ АНАЛИЗ

Кластерный анализ позволяет разбить ваши объекты на классы. При этом число классов может быть заранее неизвестным, либо вы точно знаете их количество. В первом случае ваш выбор — это метод иерархической кластеризации, который последовательно объединяет объекты в группы, основываясь на расстоянии между ними. Для второго случая необходим метод k-средних, который группирует ваши объекты вокруг так называемых центроидов.

Пример: представим себе, что вы занимаетесь онлайн-продажами, и вам необходимо выделить категории клиентов, для того чтобы организовать более эффективную таргетированную рекламу. Чтобы это сделать, вы можете запустить на своем сайте небольшой опросник и, собрав некоторые данные о посещаемости тех или иных страниц, провести кластерный анализ. Если у вас есть некоторые предположения о том, какие именно категории клиентов заходят к вам на сайт, ваш выбор k-средних. Если таких предположений нет — то можно обойтись иерархической кластеризацией.

ФАКТОРНЫЙ АНАЛИЗ

Факторный анализ позволяет сократить количество переменных, заменив их набором факторов. Кроме того, он может являться предварительной процедурой перед проведением регрессионного анализа в случае, если ряд предикторов коррелирует между собой.

Пример: предположим, вы разрабатываете батарею психологических тестов, предназначенную для диагностики способностей у школьников. После того, как вы составили ряд задач, а также провели их на выборке учащихся, вам необходимо будет провести факторный анализ. Если высокий балл по одной задаче, как правило, сопровождается высоким баллом по другой задаче, значит, за ними скорее всего стоит некоторый общий фактор. Этот фактор и будет указывать на уровень развития той или иной способности.