統計白話文!到底什麼是「統計顯著」?

什麼是統計顯著

前言

前陣子受理一個論文統計諮詢。他跟我分享,他收的資料中,使用「新療法」的病患所測量的分數,都比「傳統療法」的高。那為什麼統計結果說新療法沒有「顯著」?所以這次想跟大家聊聊,到底「統計顯著」是什麼?為什麼比較高卻不一定達到「顯著」?ChatGPT 又講得太抽象,該怎麼辦。

這次,我就用一個比較不嚴謹的例子,完全不用數學,只講觀念。帶領零基礎的你,了ㄎ解「統計顯著」的概念,統計學家說的「統計顯著」到底是什麼?

想像一下,在一個熱鬧的酒吧裡,我和朋友正享受著輕鬆的夜晚。在這酒酣耳熱之際,話題轉到了 BTS 誰最受歡迎。

🐷:我

🐸:朋友

😇:統計小天使

🐷說:「我跟你說啦!柾國(정국)就是 BTS 裡面最受歡迎的,沒有之一」

🐸反駁:「哪是,泰亨(V)才是最受歡迎的。」

這時候,統計小天使從天花板😇降臨。

「兩位都別吵了,你們現在的爭論,都只代表你們『一個人』的想法,如果你們要比人氣,應該要比比更多人的意見。」

統計小天使就這樣默默地消失了。

「那我們怎麼證明呢?」我🐷好奇地問。

朋友🐸想了想,說:「那我們來想想身邊的人的例子。」

🐷:「你說得有道理。我身邊的人,3個裡面有2個是喜歡柾國的。」

🐸:「 笑死。我的朋友4個裡面3個喜歡泰亨。」

說時遲那時快,統計小天使又來了。

「來來來,你們都犯了一個『方便抽樣』的問題了。當你們都只用自己身邊熟悉的人當作樣本,一定很容易有同溫層的效應,所以結果通常會傾向符合自己想法,有可能有很多的『抽樣誤差』。」

🐷:「嗯嗯,看來我們應該要去做點街頭民調!」

🐸:「 來啊!Who 怕 who。」

接下來,我和朋友做了一個簡單的板板,每個人都可以對柾國和泰亨各自給予1-5分的分數。找了 5 個人之後,柾國的平均分數是4.5、泰亨的平均分數是 4.3。

為什麼不能只看平均數?

但是我們來想想一個問題。5個人就夠了嗎?有沒有一個可能,全世界的人算下來還是比較喜歡泰亨,只是我們剛好都遇到比較喜歡柾國的人?確實有可能的。這就是為什麼,即使柾國分數比較高,我們也不能輕易說柾國是人氣比較高的。

那怎麼辦?

來!不要急,這時候還不需要搬出統計學。我們用一個最直觀想法,「多問一點人不就好了!」而當我們問了越多的人,如果征國的平均分數還是比較高,那征國就一定人氣比較高嗎?還是不一定,對吧?全世界幾十億人,我們不可能全部的人都問一遍。但是當你問了越多的人,你的「信心」會增加,你會更有底氣。

哪些事情會增加我們的「信心」?

統計學家就是那麼的細心,因為知道我們不可能問遍全世界的所有人。所以無論如何,我們都沒有100%的信心說誰的人氣一定比誰高。但是什麼事情會增加我們的信心呢?不要想統計學,不要想數學,用你的直觀想法就好:

  • 分數的差距:想想看如果征國 vs. 泰亨的平均是4.3 v.s 4.2,和 4.4 vs. 3.6,哪個你會更有信心征國比較好?雖然我們都不能保證,但當差距越大,我們會有更大的信心。
  • 詢問的人數(樣本數):當我們問越多人,很直觀的就知道,問很少人的時候我們可能不相信,但當樣本數增加時,就算你不懂數學,也覺得一定會更有信心。

所以什麼是統計顯著

在我們增加了樣本數,或看到分數差距夠大時,我們的確感到更有信心。但是,這個信心怎麼量化?怎麼知道我們的信心夠不夠強?這就是「統計顯著」要告訴我們的。

統計顯著,其實是一種根據一些數學假設的判斷標準,讓我們知道觀察到的結果,是不是有可能只是偶然發生的。換句話說,它幫助我們判斷,我們的發現是否真的有意義,還是只是因為我們運氣好(或壞),剛好抽到了一些特定的樣本。但我在開頭就答應各位,本篇不講數學,只講觀念。

用我們的例子來說,如果我們只問了5個人,柾國的平均分數比泰亨高一點點,這個結果可能只是偶然的。如果我們問了100個人,柾國的分數還是比泰亨高,那我們就會認為,這個結果更有可能反映了真實情況,我們對柾國真的比泰亨更受歡迎這個結論,會有更高的信心。

那統計學家是怎麼做的呢?他們會設定一個閾值,常見的是5%(也就是5%的機率),也就是課程中常常聽到的 $\alpha$,用來衡量我們的發現是不是真的「統計顯著」。如果某個結果發生的概率小於5%($\alpha$),我們就說這個結果是統計顯著的。換句話說,如果在沒有任何差異的情況下,我們觀察到的差異或更極端的差異出現的概率小於5%,那麼我們就認為這種差異不太可能僅僅是偶然發生的。

在我們的例子中,如果我們對更多的人進行評分調查,然後用統計方法分析柾國和泰亨的平均分數差異,結果顯示這種差異出現的概率小於5%,那麼我們就可以說,我們對柾國比泰亨更受歡迎這個結論有統計顯著的信心。這不是說我們100%確定柾國比泰亨受歡迎,而是說,在統計學的框架下,我們有足夠的證據支持這個結論。

所以,結果呢?

通過假設檢定,我們不僅考慮了你量到的平均值,還考慮了可能的偏差,讓我們的結論更加有信心。這不僅僅適用於吵 BTS 誰比較好,任何時候當你想從一小部分數據推斷整體情況時,統計學都能來幫忙。

希望這篇用大白話講解的文章能幫助你輕鬆搞懂統計顯著是什麼,並且明白它為什麼這麼重要。記得,統計學不是只有數字和公式,它其實是一門關於如何讓我們的決策更有根據的學問。

統計諮詢、數據分析|理查資訊站

蔡 立忠
蔡 立忠
文章: 11