Читать «Газета "Своими Именами" №11 от 13.03.2012» онлайн - страница 3

Газета "Своими Именами" (запрещенная Дуэль)

Статистические методы

Представим себе следующий абстрактный опыт - на отрезок белой прямой бросают точку. Внутри отрезка есть некоторый черный отрезок поменьше. Какова вероятность того, что точка попадет на внутренний отрезок? Интуитивно понятно, что эта вероятность тем больше, чем больше длина этого второго отрезка. Считая, что в большой отрезок точка попадает с вероятностью один, получаем, что вероятность попадания точки в черный отрезок равна отношению длин черного и белого отрезков.

Понятное дело, что такие рассуждения можно распространить на любой набор отрезков - мерой вероятности все равно будет длина. Говорят, что в этом случае на отрезке задано равномерное распределение вероятности.

Пусть теперь мы бросаем точку, целясь в центр отрезка. Делаем мы это плохо (отсюда и случайность результата), однако в целом вероятность того, что точка окажется ближе к центру, чем к границе, всё равно выше. Теперь одной длиной черного отрезка не обойтись - нам потребуется функция распределения, или плотность вероятности. В нашем случае окрестности центра отрезка плотности вероятности выше, чем по краям.

В статистике есть несколько функций плотности, которые постоянно выплывают в разных задачах приложений, однако нас будет интересовать так называемое нормальное (или ещё говорят гауссово) распределение. Оно задаётся непростой формулой, а график полученной плотности - это своего рода колокол. Надо сказать, что такое распределение возникает в задачах сплошь и рядом - отчасти из-за разного рода предельных теорем, которые сводят изучение суммы большого количества случайных величин к изучению нормального распределения.

В этом смысле поиск статистических особенностей данных выглядит следующим образом: массив экспериментальной информации обрабатывается и, возможно, изображается графически, после чего полученная картинка сравнивается с той, которая должна получиться согласно первоначальным предположениям (а они, по нашему мнению, адекватно отражают происходящее).

Непосредственно о выборах

Что же можно анализировать, когда речь заходит о выборах? Вся приведенная ниже методология описывается по работам Сергея Шпилькина. По результатам анализа выборов с 2007 по 2009 годы он написал в “Троицкий вариант” прекрасную заметку. Она приобрела известность и даже вызвала волну своего рода критики.

Простейшим параметром (надо сказать, не единственным, которые анализируют Шпилькин и прочие энтузиасты) является явка избирателей. В частности, в качестве случайной величины можно рассматривать явку избирателей на участок. В этом случае плотность этой величины легко нарисовать - откладываем по оси абсцисс явку от нуля до ста процентов с шагом, скажем, в пять процентов. В соответствующей точке на оси ординат ставим количество избирательных пунктов, в которых процент явки лежал в заданных пределах.

Оказывается, что в результате подобной манипуляции возникает распределение, очень похожее на гауссов колокол. Точнее, такое распределение возникает, если брать выборы в Мексике, Польше, Болгарии, Швеции, на Украине и даже в некоторых случаях в России прошлых лет, поэтому мы будем считать, что это и есть нормальная ситуация.