Korelacja pozorna
Co to jest fałszywa korelacjaW statystyce fałszywa korelacja lub fałszywość odnosi się do związku między dwiema zmiennymi, który wydaje się przyczynowy, ale nie jest. Relacje pozorne często mają wygląd jednej zmiennej wpływającej na drugą. Ta fałszywa korelacja jest często powodowana przez trzeci czynnik, który nie jest widoczny w momencie badania, czasami nazywany czynnikiem mylącym.
Kluczowe dania na wynos
- Fałszywa korelacja, czyli fałszywość, występuje wtedy, gdy dwa czynniki wydają się przypadkowo powiązane, ale nie są.
- Pojawienie się związku przyczynowego jest często spowodowane podobnym ruchem na wykresie, który okazuje się przypadkowy lub spowodowany trzecim „zakłócającym” czynnikiem.
- Korelacja pozorna często może być spowodowana niewielkimi próbkami lub dowolnymi punktami końcowymi.
Jak działa fałszywa korelacja
Gdy dwie losowe zmienne ściśle śledzą się na wykresie, łatwo jest podejrzewać korelację lub związek między tymi dwoma czynnikami, w których zmiana wpływa na drugi. Odkładając na bok „przyczynowość”, inny temat, obserwacja ta może doprowadzić czytelnika do przekonania, że ruch zmiennej A jest powiązany z ruchem w zmiennej B lub odwrotnie. ale czasami, po bliższym zbadaniu statystycznym, wyrównane ruchy są przypadkowe lub spowodowane przez trzeci czynnik, który wpływa na pierwsze dwa. To jest fałszywa korelacja. Badania przeprowadzone na małych próbkach lub dowolnych punktach końcowych są szczególnie podatne na fałszywość.
Przykład fałszywych korelacji
Odkrywanie interesujących korelacji nie jest zbyt trudne. Jednak wielu okaże się fałszywych. W przypadku gatunku męskiego na Wall Street dwie popularne fałszywe korelacje dotyczą kobiet i sportu. Powstała w latach dwudziestych XX wieku teoria długości spódnic, która utrzymuje, że długości spódnic i kierunek giełdy są ze sobą skorelowane. Jeśli spódnice są długie, oznacza to, że rynek akcji spada; jeśli są krótkie, rynek rośnie. Mniej więcej pod koniec stycznia mówi się o tak zwanym wskaźniku Super Bowl, który sugeruje, że zwycięstwo zespołu AFC prawdopodobnie oznacza, że giełda spadnie w nadchodzącym roku, podczas gdy zwycięstwo zespołu NFC zapowiada wzrost rynek. Od 1966 roku wskaźnik miał wskaźnik dokładności 80%. To zabawna rozmowa, ale prawdopodobnie nie jest to coś, co poważny doradca finansowy poleciłby jako strategię inwestycyjną dla klientów.
Oto kilka przykładów typowych fałszywych korelacji:
- Utonięcia rosną wraz ze wzrostem sprzedaży lodów. Może się wydawać, że zwiększona sprzedaż lodów powoduje utonięcie, ale w rzeczywistości rosnące upały mogą powodować, że więcej ludzi będzie pływać, a także kupi więcej lodów.
- Wskaźnik morderstw w USA w latach 2006-2011 spadł w takim samym tempie, jak w przypadku przeglądarki Microsoft Internet Explorer.
- Menedżerowie, którzy mówią, proszę i częściej dziękują, cieszą się lepszą wydajnością udostępniania.
- Ludzie, którzy noszą sprzęt drużynowy Oakland Raiders, częściej popełniają przestępstwa.
Jak rozpoznać fałszywe korelacje
Statystycy i inni naukowcy analizujący dane muszą cały czas poszukiwać fałszywych relacji. Korzystają z wielu metod, w tym:
- Zapewnienie odpowiedniej reprezentatywnej próbki.
- Uzyskanie odpowiedniej wielkości próby.
- Uważaj na arbitralne punkty końcowe.
- Kontrolowanie jak największej liczby zmiennych zewnętrznych.
- Wykorzystanie hipotezy zerowej i sprawdzenie silnej wartości p.