Аналізуємо дивні кореляції

Нещодавно помітив у стрічці фейсбуку посилання на статтю з купою прикладів «дивних кореляцій» як на картинці. Першоджерело виявляється тут, і там таких прикладів штук 20. Вирішив практикуватися в статистиці і перевірити наскільки ці кореляції дивні насправді.

Зацікавлених прошу під кат.

Прибираємо тренди

Якщо два показники весь час ростуть, то у них буде позитивна кореляція, і в цьому немає нічого дивного. Кореляцію потрібно міряти за стаціонарними змінними. Щоб прибрати тренди я побудував лінійну регресію від часу за кожним показником, вирахував з фактичних даних і перевірив кореляцію залишків.

У деяких випадках кореляція сильно знизилася:

В інших - нічого не змінилося:

Значить має бути щось ще!

До речі, я помітив, що позитивних кореляцій знайдено суттєво більше, ніж негативних. Думаю справа в тому, що в базі показників, які використовував автор, дуже багато зростаючих показників. Люди взагалі дуже люблять вимірювати щось зростаюче. В результаті купа показників, для яких «залишки від тренда» мають сильну негативну кореляцію, виявилися не знайдені, так як збігається позитивний тренд зрушував кореляцію ближче до нуля.

Яка взагалі ймовірність отримати таку кореляцію випадково?

Ось тут ми візьмемося за формули! У мене вийшло, що в середньому в цих змінних по 11 точок і після корекції на тренди середня кореляція в районі 70%. Знаючи кореляцію і кількість точок можна отримати змінну, яка розподілена як t-Стьюдента з числом ступенів свободи n-2:

Отримуємо t = 2.98 і ймовірність отримати таку кореляцію при незалежних змінних - порядку 0.77%. Отримана цифра досить вражаюча, але питання не закрите!

Причому тут парадокс близнюків?

Ймовірність в 0.77% здається занадто низькою, щоб вірити у випадковий збіг, але інтуїція тут помиляється. Ця ситуація схожа на відомий парадокс днів народження

Ймовірність, що дві людини народилися в один день дорівнює 1/365. Але серед всього 23 осіб з 50% ймовірністю знайдеться пара народжених в один день. Так відбувається, тому що нам не важливо які саме дві людини це будуть, а серед 23 осіб можна скласти безліч пар.

По ж саме відбувається і з кореляцією різних показників, якщо не важливо які з них будуть корелювати. Дві випадкових змінних будуть сильно корелювати в одній спробі з 65. Я множу ймовірність на 2, так як кореляція нижче -70% теж нас цікавить.

Але якщо взяти всього лише 9 випадкових змінних (по 11 точок в кожній), то з імовірністю 50% там буде кореляція більше 70% або менше - 70%

На практиці напевно довелося переглянути набагато більше змінних. Дуже багато показників насправді можуть або повинні корелювати і відфільтрувати саме «дивовижні» було складно. Але після статистичного аналізу видно, що і в знайдених показниках немає нічого дивного. Знову інтуїція підводить людину в питаннях оцінки ймовірностей.