Сильна кореляція між двома наборами даних (тобто вони тісно пов’язані між собою) ще не означає причинно-наслідковий зв’язок між ними (що одне викликає інше). Розглянемо класичний приклад зі статистики, що чудово ілюструє різницю між кореляцією та причинністю…
Уявіть собі сонячний прибережний курорт у розпал літнього сезону. Повітря наповнене сміхом, запахом солоної води та сонцезахисного крему. Серед цієї ідилії в прохолодному офісі міської ради працював молодий аналітик. Він вірив, що в міських таблицях прихований ключ до безпечнішого літа для всіх.
1. Сонячний день і дивна статистика
День за днем аналітик переглядав літні звіти: туристичний потік, доходи місцевих кафе, кількість звернень до поліції. Це була рутинна робота, яка полягала в пошуку закономірностей у стовпчиках цифр та на графіках. Аж раптом його увагу привернуло щось дивне, що змусило його відкласти чашку з кавою і нахилитися ближче до монітора.
Він натрапив на статистику, яка здавалася абсолютно не пов’язаною, але водночас дивовижно синхронною.
2. Відкриття: Несподіваний зв’язок
Керуючись інтуїцією, аналітик вирішив зіставити два, на перший погляд, абсолютно різні показники: щоденні продажі морозива в кіосках на набережній та кількість викликів рятувальників на воді. Він побудував простий графік, щоб візуалізувати дані за останні кілька тижнів.
Результат його приголомшив. На екрані з’явився чіткий, майже ідеальний зв’язок. Коли крива продажів морозива повзла вгору, майже ідеально за нею слідувала крива кількості рятувальних операцій. У дні, коли морозива продавали мало, на воді було спокійно. А в дні рекордних продажів рятувальники працювали без упину.
Ця сильна позитивна кореляція здавалася надто очевидною, щоб її ігнорувати. Він був переконаний, що знайшов причину — відкриття, яке могло врятувати життя.
3. Хибний висновок: Чи справді морозиво небезпечне?
Захоплений своїм відкриттям, аналітик почав робити поспішний, але, як йому здавалося, логічний висновок. Якщо зростання одного показника збігається зі зростанням іншого, мабуть, між ними є причинно-наслідковий зв’язок. Він почав міркувати: можливо, цукор у морозиві викликає у плавців судоми? Або, можливо, холодний десерт якось притуплює пильність людей у воді?
Його гіпотеза, хоч і абсурдна, була заснована на реальних даних. Він навіть підготував чернетку звіту для свого керівника, де пропонував радикальне рішення:
“Можливо, нам варто обмежити продаж морозива на пляжі? Дані чітко показують: більше морозива — більше нещасних випадків на воді!”
На щастя, перш ніж відправити звіт, він вирішив ще раз обдумати свої висновки. Щось у цій логіці здавалося йому неправильним. Чи може зв’язок бути настільки простим і прямим?
4. Момент істини: Поява третього фактора
Аналітик підвів очі від монітора і глянув у вікно. Сонце сліпило, пляж був заповнений людьми, а повз його офіс саме проходила родина з ріжками морозива в руках. І раптом усе стало на свої місця. Він пропустив головний, хоча й невидимий на графіках, елемент. Цей прихований фактор впливав і на продаж морозива, і на поведінку людей на пляжі одночасно. Цим фактором була спекотна сонячна погода.
Справжній причинно-наслідковий ланцюжок був набагато логічнішим:
Спекотна погода спричиняє дві незалежні події:
- Люди купують значно більше морозива, щоб охолодитися.
- Люди масово йдуть до моря, щоб поплавати. Чим більше людей у воді, тим вища ймовірність нещасних випадків і, відповідно, більша кількість рятувальних операцій.
Морозиво не було причиною небезпеки. Воно було лише ще одним наслідком спеки, так само як і кількість плавців. Аналітик зрозумів, що він сплутав простий зв’язок із причиною.
5. Головний урок: Кореляція — це не причинність
Ця історія є класичним прикладом однієї з найпоширеніших пасток в аналізі даних: плутанини між кореляцією та причинністю.
• Кореляція — це статистичний зв’язок, який показує, що два показники змінюються синхронно (разом зростають, разом спадають або рухаються в протилежних напрямках).
• Причинність (причинно-наслідковий зв’язок) — означає, що зміна одного показника безпосередньо викликає зміну іншого.
Давайте порівняємо ці поняття на прикладі нашої історії:
Поняття | Пояснення на прикладі |
---|---|
Кореляція | Продажі морозива і кількість рятувальних операцій зростають одночасно. Це лише зв’язок. |
Причинність | Хибне припущення, що поїдання морозива спричиняє нещасні випадки на воді. |
Сильна кореляція — це не готовий висновок, а лише сигнал для глибшого аналізу. Вона підказує, де шукати, але не дає остаточної відповіді.
Як мислити критично, дивлячись на дані
Історія про морозиво — це класичний приклад і водночас застереження проти поспішних висновків, заснованих лише на поверхневому зв’язку між цифрами. Щоб не потрапити в подібну пастку, завжди пам’ятайте про три прості правила:
- Завжди шукайте третій фактор Запитайте себе: чи може існувати інша, прихована причина, яка впливає на обидва показники одночасно? У нашому випадку це була погода.
- Пам’ятайте про різницю Кореляція лише показує, що дві речі рухаються разом. Сприймайте це як підказку, а не як готовий висновок.
- Ставте правильні запитання Замість “Чи А викликає Б?”, запитуйте “Що ще може пояснити цей зв’язок?”. Це просте питання змушує мислити ширше і шукати справжні причини, а не очевидні, але хибні відповіді.