Профессор из США изучил данные из протоколов комиссий в Беларуси и нашел статистические аномалии
Вадим Зипунников, профессор кафедры биостатистики американской школы общественного здравоохранения Джона Хопкинса, проанализировал оцифрованные данные из фотокопий протоколов участковых избирательных комиссиий, собираемые платформой «Зубр», и нашел статистические аномалии. Он прислал редакции TUT.BY свой статистический анализ — приводим его работу.
Но вначале — кто такой Вадим Зипунников
На сайте Университета Джонса Хопкинса говорится, что Вадим — Associate Professor на кафедре биостатистики Школы общественного здравоохранения им. Блумберга при университете Джонса Хопкинса.
В частности, сейчас он занимается сбором данных, получаемых от носимых устройств, и сопоставляет эту информацию с более крупными базами данных, которые собираются традиционным способом, например, при обследовании состояния здоровья. Так, профессор интересуется количественной оценкой: слабости и утомляемости в клинических группах населения с сердечными заболеваниями; физической инвалидности у людей с рассеянным склерозом; нарушений циркадных ритмов среди людей с биполярным расстройством, большим депрессивным расстройством и деменцией; качества сна у лиц с деменцией и болезнью Альцгеймера.
Также Вадим вовлечен в анализ данных EMA (экспоненциальное скользящее среднее) — этот метод популярен в психологии для оценки когнитивных функций и эмоций (например, замера уровня печали, беспокойства, энергии и так далее).
Что за статистический анализ данных из протоколов
В сопроводительном письме Вадим Зипунников написал, что использовал для анализа оцифрованные данные из фотокопий протоколов, собираемые платформой «Зубр».
Данные собраны в Telegram-чате платформы. Оцифровкой занимался кандидат наук в МГУ Максим Гонгальский со своей командой.
На данный момент база (она доступна по ссылке) включает 878 участков и 1 278 587 голосов. Вот к каким выводам пришел специалист, проанализировав фотокопии протоколов:
1. Основная выявленная статистическая аномалия представлена большим количеством УИК c четырьмя одновременно наблюдаемыми и статистически маловероятными характеристиками:
- Необычно высокая концентрация УИК с предварительной явкой (досрочно проголосовавших) в районе 25−45% (с необычно высоким пиком в 35%) от общего числа зарегистрированных.
- Необычно высокая концентрация процентов голосов за Тихановскую в интервале 0%-20%; за Лукашенко в интервале — 55%-75%; за остальных кандидатов и против всех в интервале — 10%-30%
2. Выявлен сильный статистический тренд: каждые 7% досрочно проголосовавших (от общего числа зарегистрированных) «забирали» у кандидата Тихановской приблизительно 8% от окончательного результата и «прибавляли» приблизительно 8% к окончательному результату кандидата Лукашенко.
3. После исключения из анализа аномальных УИК:
- процент за кандидата Тихановскую стал варьироваться в межквартильном интервале: 36%-59%;
- процент за кандидата Лукашенко — в межквартильном интервале 28%-53%;
- процент за остальных кандидатов и против всех — в межквартильном интервале 7%-14%.
В статистике межквартильный размах — это разница между 1-м и 3-м квартилями, т.е. между 25-м и 75-м процентилями. В него входят центральные 50% наблюдений в упорядоченном наборе, где 25% наблюдений находятся ниже центральной точки и 25% — выше.
4. Для дальнейшей коррекции наблюдаемого статистического тренда необходимы дополнительные предположения. Любая коррекция наблюдаемого статистического тренда приведет к дальнейшему увеличению процентов голосов за кандидата Тихановскую и дальнейшему уменьшению процентов голосов за кандидата Лукашенко.
Основная статистическая аномалия
На графике ниже показана необычно высокая концентрация досрочно проголосовавших — в районе 25%-45% от общего числа зарегистрированных (с необычно высоким пиком в 35%).
На аномальных участках с необычно высокой предварительной явкой (25%-45% от общего числа зарегистрированных) одновременно наблюдалась необычно высокая концентрация очень похожих результатов с окончательным процентом:
• за Тихановскую в интервале: 0%-20%
• за Лукашенко в интервале: 55%-75%
• за остальных кандидатов и против всех в интервале: 10%-30%
Статистический тренд
На графиках ниже видно, что приблизительно каждые 7% досрочно проголосовавших (от общего числа зарегистрированных) «забирали» у кандидата Светланы Тихановской 8% от окончательного результата и «прибавляли» 8% к окончательному результату кандидата Лукашенко.
Процент голосов, отданных за остальных кандидатов и «против всех» начинает сильно увеличиваться на участках, где официальный процент досрочно проголосовавших (от общего числа зарегистрированных) выше 25%.
Возможно, считает автор анализа, это связано с тем, что пять дней предварительного голосования использовались, чтобы «максимизировать» официальное количество досрочно проголосовавших и каким-то образом «сформировать» тренды в наблюдениях № 1 и № 2.
Коррекция выборки через удаление аномальных УИК
Далее в анализе автор отмечает, что «чтобы исключить влияние УИК из аномальной области, мы исключили УИК с процентом досрочно проголосовавших (от числа зарегистрированных) больше 25%».
В результате получились следующие данные (представлены межквартильные интервалы):
- за Тихановскую в интервале: 36%-59%
- за Лукашенко в интервале: 28%-53%
- за остальных кандидатов и против всех в интервале: 7%-14%
«Данный анализ сделан 15 августа 2020 года и главным образом анализирует аномалии и тренды, связанные с процентом досрочно проголосовавших от числа зарегистрированных, — подытоживает автор. — Предыдущий анализ, сделанный 14 августа 2020 года, анализирует аномалии и тренды, связанные с процентом досрочно проголосовавших от числа проголосовавших, и имеет похожие основные выводы».
Данные доступны здесь.
Код (язык R) для воспроизведения анализов доступен здесь.