Серия «Статистический анализ»

13

Парадокс Симпсона

На графике смертность от ковида (COVID-19) в Италии (оранжевый цвет) и Китае (голубой цвет) в разных возрастных группах. А последние столбики на графике (отмечены стрелкой) - это общая смертность. Видите странность?

Парадокс Симпсона

Смертность в Китае выше в каждой возрастной группе. А вот если посчитать общую смертность, то получается наоборот! Это не ошибка в подсчетах. Это то, что называется парадоксом Симпсона.

Парадокса тут нет, но и не так просто сообразить почему так получается.

Обратите внимание, что выживаемость сильно зависит от возраста - чем старше, тем больше смертность. А теперь представьте, что в Италии в основном заразились старики, а значит общая смертность определяется в основном стариками. В Китае же заразилась в основном молодежь и общая смертность определяется смертностью молодых людей. Вот и получается, что суммируя людей всех возрастов мы реально сравниваем не Италию с Китаем, а стариков с молодежью.

Если бы количество заразившихся стариков и молодежи в Китае было бы в той же пропорции, что и в Италии, то никакого парадокса бы и небыло.

Картинка взята из научной статьи, посвященной этому парадоксу

Показать полностью

Желание есть на ночь зависит от дня недели, атмосферного давления, температуры и влажности воздуха!

Увеличение температуры атмосферы на 1 градус заставляет съесть на ночь дополнительно 129 граммов еды. Увеличение влажности на 1% дает добавку к позднему ужину в 29 грамм. Увеличение атмосферного давления на 1 мм. рт. ст. дает добавку в 138 граммов еды. А каждую субботу возникает непреодолимое желание съесть на ночь дополнительно 575 граммов по сравнению с любым другим днем недели!.

Т.е. если, например, сегодня суббота, температура атмосферного воздуха упала на 1 градус, давление поднялось на 2 мм.рт.ст. а влажность воздуха увеличилась на 4% по сравнению с пятницей, то это заставит меня съесть на ночь дополнительно -1*129+4*29+2*138+575=838 граммов еды, независимо от моего отчаянного желания похудеть.

Эту формулу я вывел на самом себе вот каким образом.

В течении 70 дней я сильно пытался сбросить вес. Я стремился голодать, но поздно вечером терпению моему приходил конец и я что-то съедал. На утро я взвешивался и разница между вчерашним и сегодняшним весом зависела от того, сколько я съел на ночь (днем был только кофе и никакой еды). Вот эти колебания веса я и решил сопоставить с погодой и днями недели.

В результате статистического анализа методом линейной регрессии получилась модель колебания моего веса с четырьмя переменными - тремя численными (колебания температуры, давления и влажности) и одной категориальной "'сегодня суббота (ДА/НЕТ)".

Вот как выглядит модель моего веса рассчитанного по формуле (синяя линия) и реальные данные (серая линия).

Желание есть на ночь зависит от дня недели, атмосферного давления, температуры и влажности воздуха!

Модель объясняет 22% вариации веса (со статистической значимостью pval=0.0005). Все параметры модели статистически значимы, т.е. наблюдаемую зависимость от давления, температуры, влажности и дня недели нельзя объяснить случайностью.

Особенность влияния субботы на мой вес оказалась очевидной - жена по субботам ходит на рынок и покупает что-то такое, от которого мне просто невозможно отказаться и не съесть (типо персики, копченая рыба).

С температурой и влажностью сложнее. Очевидным кажется, что с повышением и того и другого я больше пью жидкости. Однако это температура воздуха и влажность на улице, где я провожу не более часа в день, а остальное время в помещениях с постоянной температурой влажностью (кондиционеры всегда работают). Кроме того, взвешиваюсь я на утро после туалета, что должно убирать всю выпитую вечером жидкость из измеренного веса. Так что я именно ем больше.

Но почему рост температуры вызывает аппетит, хотя все отмечают обратное. Думаю дело в кондиционере - чем выше температура на улице, тем прохладнее воздух кажется при входе в помещение.

С зависимостью от атмосферного давления совсем ничего не могу предположить. Каким-то образом оно влияет на мой аппетит.

Показать полностью 1
7

Эффект возвращения к среднему

Эффект возвращения к среднему

Возвращение к среднему - это статистический эффект, описанный более 130 лет назад сэром Фрэ́нсисом Га́льтоном. Упрощенно его можно сформулировать так: если что-то получилось слишком хорошо, то при повторе получится хуже, а если слишком плохо, то при повторе будет лучше.

Это не какая-то философия жизни, а строгая статистическая закономерность, которую можно выразить математическими формулами, чего я тут делать не буду, а вот примеры, как это всё работает, приведу.

Классический пример - это пересдача экзаменов (тестов, контрольных работ).

Результат экзамена определяется не только знаниями, но и случайными факторами. Например, не знал студент один вопрос из сотни, и именно он ему и попался. Понятно, что при повторном экзамене нарваться еще раз на тот же вопрос шансов мало (если вопросы выдаются случайно). Потому результат будет лучше, даже если студент ничего дополнительно доучивать не станет.

Другой классический пример - рост детей и родителей.

Этот пример приводится в научной работе самого Га́льтона. Рост детей определяется не только ростом родителей, но и многими случайными факторами. Если родители имеют слишком высокий рост, то это значит, что не только наследственность у них такая, но и случайные факторы способствовали высокому росту. Второй раз, на их детях, случайности вряд ли так же хорошо сложатся. Так что в среднем дети очень высоких родителей будут чуть пониже родителей. И наоборот, дети родителей с ростом ниже среднего будут чуть выше родителей.

Ну и еще пример про тестирование медицинских препаратов.

Допустим, придумано лекарство “фуфломицин” от хронической болезни, скажем, псориаза. И нужно лечебный эффект подтвердить в клинических испытаниях.

Для испытаний обычно набираются больные, имеющие не самые легкие случаи, чтобы лечебный эффект было проще доказать.

Степень тяжести заболевания зависит от случайных факторов и варьируется со временем, то становится чуть лучше, то чуть хуже. Поэтому в группу на тестирование попадают больные, у которых в среднем тяжесть болезни легкая, но по случайности, в момент первого измерения, она оказалась хуже обычного.

Повторная оценка заболеваний этих людей покажет меньшую степень тяжести, просто потому, что во второй раз случайные факторы вряд ли так же сильно осложнят заболевание. За счет этих случаев мы получим положительный эффект в среднем по группе, даже если никакого лечебного препарата не будем применять.

Замечу, что это не плацебо-эффект, а статистический феномен. Точно так же мы получим положительный эффект на животных.

Если вам стал понятен принцип, то теперь вы сможете предсказать много чего интересного. Например, с точки зрения этого эффекта можно рассмотреть переезд в другой город, смену професии, повторный выход замуж...

Показать полностью 1

Продолжение поста «Линейная регрессия рубля»1

На четыре дня раньше моего прогноза однако.

Двадцать три дня назад я предсказал, что 100 руб будет достигнуто в интервале с 7 по 14 октября. Использовал простую линейную регрессию по времени.

Показать полностью 1

Типичная ошибка ученых

Типичная ошибка ученых

Начну издалека, но думаю так будет понятнее о чем я (если нет, то это про поправку на множественную проверку гипотез).

Тиктокер демонстрирует суперспособность: с завязанными глазами бросает мяч и попадает в кольцо. И это не видеомонтаж. Как такое может быть? Опытный пикабушник скажет: баян и жульничество! Он тысячу раз бросал мяч и не попадал, но один раз случайно у него получилось вот это он и показал.

Но этот тиктокер не так прост. У него есть абсолютно надежные доказательства, что все это он делал только один раз и забросить мяч у него получилось с первого раза! Да он даже мячик и кольцо видит первый раз в жизни! Он действительно обладает суперспособностью или тут где-то жульничество? Догадываетесь в чем дело? Тиктокер не повторял бросок тысячу раз, это правда. Вместо этого он сделал тысячу разных трюков, не повторяя их.

Кто-то может решить, что с этим очень просто разобраться – потребуем у тиктокера повторение трюка, вот сразу обман и выяснится! И в следующий раз нам приносят видео, где другой тиктокер подбрасывает монетку два раза и оба раза она падает на ребро. Никакого монтажа, никакого удаления неудачных попыток подбрасывания. Все так и произошло с первого раза.

Догадываетесь как это получилось? Он просто проделал по два раза подряд десять тысяч разных трюков!

Думаете это не имеет отношение к жизни!? Имеет! И подобное регулярно происходит в медико-биологических исследованиях.

Дело в том, что сейчас есть возможность быстро и дешево измерять множество параметров живого организма. Типичное измерение активности генов делается в течение нескольких дней, стоит около $100 и выдает данные об активности десятков тысяч генов.

Теперь вы понимаете, как легко можно провести исследование и “доказать”, что музыка Вивальди, например, влияет на активность генов в раковых клетках. Причем можно даже показать, что это влияние повторяется в нескольких экспериментах. Просто из десятков тысяч результатов отбираем нужное и публикуем!

Показать полностью

Цикличность и особенности Российской тошноты

Я сделал открытие. Тошнота имеет цикличность. Более того, пиковые значения Российской тошноты имеют свои особенности и не совпадают с Американской. Российская тошнота имеет два пика - январский и августовский, а Американская только один - в январе.

Тошнота в январе скорее всего связана с новогодними праздниками - отравление салатами и алкоголем. Но почему Российская тошнота имеет пик в августе? Созрели кабачки на дачах?

Методика

Проанализированы методом декомпозиции временные ряды поисковых запросов на google trend.

Анализ поисковых запросов слова "рвота" Российского сегмента интернета

Анализ поисковых запросов слова "рвота" Российского сегмента интернета

Анализ поисковых запросов слова "vomit" Американского сегмента интернета

Анализ поисковых запросов слова "vomit" Американского сегмента интернета

Показать полностью 3

Линейная регрессия рубля1

Синими линиями показан 95% доверительный интервал линейной регрессии обменного курса рубля к доллару. 100 руб. за доллар будет достигнут с 7 по 14 октября 2023 года. К 1 января 2024 года прогнозируется курс в диапазоне 107.7 - 110.2 руб. за доллар.

Синими линиями показан 95% доверительный интервал линейной регрессии обменного курса рубля к доллару. 100 руб. за доллар будет достигнут с 7 по 14 октября 2023 года. К 1 января 2024 года прогнозируется курс в диапазоне 107.7 - 110.2 руб. за доллар.

Никогда не занимался эконометрикой, но в последнее время курс рубля настолько хорошо моделируется линейной регрессией, что я решил попробовать сделать прогноз.

Диагностика модели.

1. Тест на нормальное распределение ошибки (Jarque-Bera test)

P-value = 0.441. Отклонения от нормального распределения не наблюдается.

2. Тест на гетероскедастичность (Breusch-Pagan test).

P-value = 0.044. Тут проблема - непостоянство дисперсии, но не такое уж и большое судя по графику, потому ничего с этим делать не будем, "сойдет и так".

3. Тест на независимость (автокорреляцию) ошибок (Durbin-Watson Test).

p-value < 2.2e-16. Да, есть автокорреляция и по идее линейная регрессия и оценка доверительных интервалов некорректна. Опять же по графику видно, что эти “автокоррелирующие” отклонения от линии не так чтобы сильно больше изменений, связанных с трендом. Потому “сойдет и так”, посмотрим что получится.

Показать полностью
Отличная работа, все прочитано!