Профессор из США изучил данные из протоколов комиссий в Беларуси и нашел статистические аномалии

Источник материала:  
18.08.2020 15:35 — Новости Hi-Tech

Вадим Зипунников, профессор кафедры биостатистики американской школы общественного здравоохранения Джона Хопкинса, проанализировал оцифрованные данные из фотокопий протоколов участковых избирательных комиссиий, собираемые платформой «Зубр», и нашел статистические аномалии. Он прислал редакции TUT.BY свой статистический анализ — приводим его работу.

Но вначале — кто такой Вадим Зипунников

Профессор из США изучил данные из протоколов комиссий в Беларуси и нашел статистические аномалии
Фото: Университет Джонса Хопкинса

На сайте Университета Джонса Хопкинса говорится, что Вадим — Associate Professor на кафедре биостатистики Школы общественного здравоохранения им. Блумберга при университете Джонса Хопкинса.

В частности, сейчас он занимается сбором данных, получаемых от носимых устройств, и сопоставляет эту информацию с более крупными базами данных, которые собираются традиционным способом, например, при обследовании состояния здоровья. Так, профессор интересуется количественной оценкой: слабости и утомляемости в клинических группах населения с сердечными заболеваниями; физической инвалидности у людей с рассеянным склерозом; нарушений циркадных ритмов среди людей с биполярным расстройством, большим депрессивным расстройством и деменцией; качества сна у лиц с деменцией и болезнью Альцгеймера.

Также Вадим вовлечен в анализ данных EMA (экспоненциальное скользящее среднее) — этот метод популярен в психологии для оценки когнитивных функций и эмоций (например, замера уровня печали, беспокойства, энергии и так далее).

Что за статистический анализ данных из протоколов

Профессор из США изучил данные из протоколов комиссий в Беларуси и нашел статистические аномалии
Снимок носит иллюстративный характер. Фото: Дмитрий Брушко, TUT.BY

В сопроводительном письме Вадим Зипунников написал, что использовал для анализа оцифрованные данные из фотокопий протоколов, собираемые платформой «Зубр».

Данные собраны в Telegram-чате платформы. Оцифровкой занимался кандидат наук в МГУ Максим Гонгальский со своей командой.

На данный момент база (она доступна по ссылке) включает 878 участков и 1 278 587 голосов. Вот к каким выводам пришел специалист, проанализировав фотокопии протоколов:

1. Основная выявленная статистическая аномалия представлена большим количеством УИК c четырьмя одновременно наблюдаемыми и статистически маловероятными характеристиками:

  • Необычно высокая концентрация УИК с предварительной явкой (досрочно проголосовавших) в районе 25−45% (с необычно высоким пиком в 35%) от общего числа зарегистрированных.
  • Необычно высокая концентрация процентов голосов за Тихановскую в интервале 0%-20%; за Лукашенко в интервале — 55%-75%; за остальных кандидатов и против всех в интервале — 10%-30%

2. Выявлен сильный статистический тренд: каждые 7% досрочно проголосовавших (от общего числа зарегистрированных) «забирали» у кандидата Тихановской приблизительно 8% от окончательного результата и «прибавляли» приблизительно 8% к окончательному результату кандидата Лукашенко.

3. После исключения из анализа аномальных УИК:

  • процент за кандидата Тихановскую стал варьироваться в межквартильном интервале: 36%-59%;
  • процент за кандидата Лукашенко — в межквартильном интервале 28%-53%;
  • процент за остальных кандидатов и против всех — в межквартильном интервале 7%-14%.

В статистике межквартильный размах — это разница между 1-м и 3-м квартилями, т.е. между 25-м и 75-м процентилями. В него входят центральные 50% наблюдений в упорядоченном наборе, где 25% наблюдений находятся ниже центральной точки и 25% — выше.

4. Для дальнейшей коррекции наблюдаемого статистического тренда необходимы дополнительные предположения. Любая коррекция наблюдаемого статистического тренда приведет к дальнейшему увеличению процентов голосов за кандидата Тихановскую и дальнейшему уменьшению процентов голосов за кандидата Лукашенко.

Основная статистическая аномалия

На графике ниже показана необычно высокая концентрация досрочно проголосовавших — в районе 25%-45% от общего числа зарегистрированных (с необычно высоким пиком в 35%).

Профессор из США изучил данные из протоколов комиссий в Беларуси и нашел статистические аномалии
Изображение: Вадим Зипунников

На аномальных участках с необычно высокой предварительной явкой (25%-45% от общего числа зарегистрированных) одновременно наблюдалась необычно высокая концентрация очень похожих результатов с окончательным процентом:

• за Тихановскую в интервале: 0%-20%

• за Лукашенко в интервале: 55%-75%

• за остальных кандидатов и против всех в интервале: 10%-30%

Профессор из США изучил данные из протоколов комиссий в Беларуси и нашел статистические аномалии
Изображение: Вадим Зипунников

Статистический тренд

На графиках ниже видно, что приблизительно каждые 7% досрочно проголосовавших (от общего числа зарегистрированных) «забирали» у кандидата Светланы Тихановской 8% от окончательного результата и «прибавляли» 8% к окончательному результату кандидата Лукашенко.

Профессор из США изучил данные из протоколов комиссий в Беларуси и нашел статистические аномалии
Изображение: Вадим Зипунников
Профессор из США изучил данные из протоколов комиссий в Беларуси и нашел статистические аномалии
Изображение: Вадим Зипунников

Процент голосов, отданных за остальных кандидатов и «против всех» начинает сильно увеличиваться на участках, где официальный процент досрочно проголосовавших (от общего числа зарегистрированных) выше 25%.

Возможно, считает автор анализа, это связано с тем, что пять дней предварительного голосования использовались, чтобы «максимизировать» официальное количество досрочно проголосовавших и каким-то образом «сформировать» тренды в наблюдениях № 1 и № 2.

Профессор из США изучил данные из протоколов комиссий в Беларуси и нашел статистические аномалии
Изображение: Вадим Зипунников

Коррекция выборки через удаление аномальных УИК

Далее в анализе автор отмечает, что «чтобы исключить влияние УИК из аномальной области, мы исключили УИК с процентом досрочно проголосовавших (от числа зарегистрированных) больше 25%».

В результате получились следующие данные (представлены межквартильные интервалы):

  • за Тихановскую в интервале: 36%-59%
  • за Лукашенко в интервале: 28%-53%
  • за остальных кандидатов и против всех в интервале: 7%-14%
Профессор из США изучил данные из протоколов комиссий в Беларуси и нашел статистические аномалии
Изображение: Вадим Зипунников
Профессор из США изучил данные из протоколов комиссий в Беларуси и нашел статистические аномалии
Изображение: Вадим Зипунников

«Данный анализ сделан 15 августа 2020 года и главным образом анализирует аномалии и тренды, связанные с процентом досрочно проголосовавших от числа зарегистрированных, — подытоживает автор. — Предыдущий анализ, сделанный 14 августа 2020 года, анализирует аномалии и тренды, связанные с процентом досрочно проголосовавших от числа проголосовавших, и имеет похожие основные выводы».

Данные доступны здесь.

Код (язык R) для воспроизведения анализов доступен здесь.

←«Белые ленты срезали вместе с кожей». Айтишник - о своем пребывании на Окрестина и в Жодино

Лента Новостей ТОП-Новости Беларуси
Яндекс.Метрика