Confidence Interval & P-value

← to do list

Confidence Interval & P-value

[備忘﹕統計誤差]

(先旨聲明﹕方某沒修過統計學，以下純屬個人看法。如果有錯，敬請指教。)

有同學問我，如果問卷只收到幾十份，有沒有問題。

雖然在網上看通識同工的反應，大部分學生其實都無法做到超過一百份問卷。不過我們教學生，始終說一百份問卷是「起碼」，因為如果少過一百份誤差會很大。

同學不明白甚麼是誤差。

---

首先我假設同學是以「隨機抽樣」(要留意隨機不等於「隨便」或「隨意」找人做﹗簡單點「隨機」就如「抽籤」或者六合彩「攪珠」，想詳細講就要另開文章處理)，因為如果不是隨機抽樣的話(例如找朋友做)根本不能保證抽到的個人能代表全體。
雖然隨機抽樣保證了抽取的個人能夠代表全體，但不能說他們的答案就等於是「全體」的答案。

舉個例，假如這位同學向一百位同學詢問「方sir是否靚仔」，得出的結果是「60%認為方sir是靚仔」(那麼高的比例顯然是胡說的 )，那是否代表全校一千個學生中有六百人都認為方sir是靚仔﹖
當然不一定，因為如果你只隨機抽了「一位同學」問，那麼豈不是只要他答「是」的話就變成全校「所有」學生都認為方sir是靚仔﹖﹗
這肯定是荒謬的，誰知道你是否碰巧抽到個大近視﹖

隨機抽樣，既然抽到甚麼人是看機會，得出來的答案(他認為方sir是否靚仔)自然也是「看機會」。今次抽一百個人得到「60%」，下次另外再抽一百個人可以只到「50%」也說不定。
究竟學校裡面認為「方sir是靚仔」的人是否佔多數﹖很難只看「60%」的結果就作肯定回答，因為你不肯定如果另一位同學再抽一百人，結果可能是「40%」……

這種「每次用同樣規則、抽同樣人數、答同樣問卷，結果都可能有差異」的情況叫「隨機誤差」。跟抽樣做得不好、問卷擬得差……這類個人因素都沒關係，就算老師幫你改到最好，這誤差是必然存在的。

於是一個負責任的報告，應該告訴人家這個調查的「誤差」有多少，從而讓人家看到你主張的結果(如﹕大部分同學都認為方sir是靚仔)究竟有多大說服力。

---

那麼「誤差」是怎樣計算的﹖

這樣問是很正常的，因為根本沒有人教過他們甚麼是隨機誤差和怎樣計算誤差。
通識科沒教，而我教的那科IT雖然是支援通識科專題探究，但編講義的老師(他教通識)也沒有把這點編進去，那即是說通識科同寅都不認為有必要加這種東西。

他們應該有科本的合理考慮，可能連考評局也沒要求呢﹖
或者應該難度太高不適合﹖又或者，明知大部分填問卷的學生都不是認真填……﹖

不過對在下來說，倒覺得「搞調查不講誤差」不如不做，因為不看誤差根本不知道結果有甚麼意義。(正如上面單看一個數字根本不肯定校內同學對方sir樣貌的看法)

---------

為方便解說，以下的圖表從在下最喜歡的《統計，讓數字說話﹗》抄出來﹕

「誤差」是一個簡單說法，統計學上正式的說法是「信任區間」(confidence interval)。

「信任區間」的意思，是指「如果以同一方法重覆抽樣，有多大可能會包括正確的答案」。
(以上面「校內隨機抽100人問方sir是否靚仔」為例，就是這次抽完100人，又在學生名單中隨機再抽100人問，不斷重覆。每次被抽到的人，可能有重複，因為「有人被重複抽中」也是隨機下的合理現象。)

在這圖裡面，假設 0.55 (55%)是正確答案。「95%信任區間」的意思，就是說如果我們不斷重覆抽樣之下，雖然每次得出的平均值(圓點)和誤差範圍(箭頭)都不同，但有95%結果的誤差範圍會包括 0.55 這個正確答案。(例如，這次調查得出「60% ±10%」的結果，仍是包括了「55%」。)
所以我們說有95%的信心說，正確答案會在抽樣調查的誤差範圍之中，即是「雖不中亦不遠矣」。

(但這本書的作者警告，這說法不能變成「我們有95%的機會拿到正確答案」，因為結果已做了出來，只有包括或不包括，不再有概率可言。「95%」是指我們對「抽樣方法」的信心。)

那麼信任區間是怎樣計算的呢﹖
答案是一個比例(0%-100%)和數字(如身高體重)的處理會有分別。一般調查最想看的，都是比例。

由於每次抽樣的結果值都可能有不同(如上圖)，這些不同的結果值同樣可計出標準差。(標準差是一個描述數據離散—即分散—程度的數字，高中數學有教，考試用計算機亦有按鈕供直接計算，所以方程式不再贅述。)

抽樣分佈下，結果「比例」的標準差用這方程式計算﹕
[(p)(1-p)/n]^(1/2)
(p是比例本身，由0-1﹔n是樣本大小。)

由此可見，隨著 p (結果)的不同，誤差範圍也會不同。但看倌自己計算一下就看到，p=0.5的時候 p(1-p)是最大的。料敵從寬，反正我們還有各種誤差來源，把誤差範圍多估一點是最穩當的。所以就當 p=0.5，p(1-p)=0.25 好了。

n是樣本大小，可見樣本越大誤差越小，反之亦然。這就是為何樣本不能太小的道理，否則誤差範圍太大，包山吞海，等於得不出肯定的答案。

單計了標準差還未知道「誤差範圍」。因為「信任」有各種不同的標準，我們要視乎信任的範圍有多大，才知道應該拿多少個標準差﹕

圖中的C就是信任範圍，一般而言常用的「95%信任」就要拿(z=)1.96個標準差的範圍，這個範圍包括了95%的可能性。
如果你要更高的信心(如99%)也可以從上表讀出，但可見到信心越高，範圍越大(要有100%信心﹖包括由0%到100%的所有範圍就可以，但這樣答等於廢話)。反之，你可以拿小一點的範圍，但信心就會少一點，出錯的機會大一點了。

拿了你要的信任度之後，把它乘以上面計出的標準差就可以﹕

我們拿 p=0.5，p(1-p)=0.25 的最大誤差，95%信心(z=1.96)，看倌可看看誤差範圍和樣本大小的關係﹕

樣本數目(n)﹕誤差範圍
25﹕0.196
50﹕0.139
75﹕0.113
100﹕0.098
200﹕0.069
500﹕0.044
1000﹕0.031

換言之，就算我們完全遵守了隨機抽樣的規則，當抽取我們建議學生的「至少100人」時，誤差範圍仍是「結果 ±9.8%」。換言之，得出「60% ±9.8%學生認為方sir是靚仔」，因為有95%的信心至少有50.2%的學生認為方sir靚仔，也只不過是勉強過半而已。

若然像學生的說法，只想抽50人就算數的話，誤差範圍就是「13.9%」。就算得到「60% ±13.9%學生認為方sir是靚仔」，誤差範圍就要由46.1%到73.9%，答案立即變得不大肯定了。
(當然，如果真的有46.1%學生認為方sir是靚仔，我也應該老懷安慰 )

如果要把誤差縮窄到「5%」或以下(坊間民意調查常見的誤差範圍)，就要抽差不多500人才做得到，當然這已經超出絕大部分學生的能力了。所以我們建議的「至少100人」其實已是合理的下限。

---

如果不是比例，我們想問「學生平均身高」又如何﹖方法差不多，只是算式不同。

首先，這幅圖也顯示了，抽取的樣本越多，標準差越少，即是越準確。

這個平均數的標準差和信任區間方程式如下﹕

由於數字的範圍不如比例般一定由0%到100%之間，s是樣本的標準差，要已經抽了樣拿了結果才能計算出來，所以不便舉例說明。

---

同學問如果計出來誤差太大，那豈不是自找麻煩﹖

我倒不是這樣想，畢竟中學生能力有限，人家也不預期你做到很好的結果(有的話是意外收獲)。單靠一人之力就只能收到那麼多問卷也沒辦法。
可是，你給了誤差範圍，至少向說明了你考慮過這一點，嘗試過做好它，而且誠實地告訴大家自己所得結果有多可靠。

這態度比結果本身更重要。

---------

另一個統計學中經常出現，而且在下還曾經要教的「更難觀念」，是 P 值。
這個問題可能真的超出了很多中學生掌握的範圍，因為要理解 P 值是甚麼，首先要懂得概率。

在球賽中球證會擲毫決定誰先攻，理論上我們相信硬幣兩邊擲出來的機會是相同的(否則就不會用了)，實際上呢﹖
如果真的擲一千次，「公」和「字」的出現很大可能不是「500對500」的，那麼如果是「510對490」，這個硬幣還是「公正」的嗎﹖
如果說「510對490」「只是差很少」，那麼要差多少才算多﹖

這就是 P 值要處理的問題。
(早期研究機率的人之中，包括了十八世紀法國的博物學家布封伯爵，他擲了4040次。)

正如上面抽樣問方sir靚不靚仔的例子，假設我們把「擲毫1000次」不斷重覆，又或者找一萬人來每人擲毫一千次，得出來的結果應該會接近下面這幅圖﹕
(橫軸是擲出的公/字比例，直軸是擲出該比例的次數)
這幅圖是借用，中間值當然不是「0」。如果錢幣是「公正」的話，擲出「公」(「字」亦然)的比率應該接近一半，即是「0.5」(50%)。

大部分的「一千次擲毫」結果都會接近 0.5，所以會以 0.5 為中心出現一座小山。反之，擲到極端情況(如「800對200=0.8」)就不大可能出現，所以越往兩端走就會越少。

看倌會見到這種曲線在文中不斷不現，而在概率或統計的討論中亦經常會出現，這種曲線模式叫「normal distribution」，中文叫常態分佈、常模分佈、或中文維基叫的正態分佈(這令我想起正太……)，日文維基叫正規分佈。

前面我們以「信任區間」的百分率，換算成標準差以計出誤差範圍。我們也可以反過來，以標準差計算出機率(即 P 值)。下圖同樣是借用﹕

內文情節不必理會(說的是選舉)，我們就當這是以公正硬幣大量重覆「擲毫一千次」的結果。平均值是0.5 (即是「50%擲出公」)，標準差 0.014。

如果我們收到一個新硬幣，擲毫一千次的結果是「53%擲出公」(=上圖的觀測值0.53)，換算後即是2.14個標準差。
我翻了《統計學的世界》書後的「常態分布的百分位數」表(p.691)，距離平均數2.1個標準差的百分位數是98.21%。
換言之，即是說擲出「至少比平均數多2.1個標準差」的結果，只有1.79%的機會(100-98.21)。即是 P=0.0179。

那麼我們之前說的「510對490」又如何﹖0.51距離平均值0.5有0.714個標準差，0.7個標準差換算成百分位數是75.8%。亦即是說，擲出「至少比平均數多0.7個標準差」的結果，機會是24.2%。即是 P=0.242。

那又如何﹖

一般研究會先假設結果「無特別」(即虛無假設 Null Hypothesis)，在這裡即是「硬幣沒問題、很公正」。當 P 值較大的時候，我們會接受這結果很大可能「只是隨機產生」(口語﹕靠撞彩得出這結果)，於是維持「無特別」的結論。
當P值很小的時候，我們才會接受這結果「不大可能透過隨機產生」(口語﹕邊有咁好彩﹖)，於是推翻虛無假設，相信「有特別事發生了」(即接受對立假設 Alternative Hypothesis)。

我們會事先設立一個 P 值的門檻，一般研究中 P 至少要少於 0.05 (P<0.05)才會被接受。亦即是說，應該只有少於1/20的機會「單靠撞彩」得出這結果了。

簡單而言是這樣，但實際上我們還要考慮「單尾」或「雙尾」﹕

如果我們已假設「公出現的機會可能高於字」(例如公那邊可能特別厚)，那麼我們只需要看「單尾」的P值。
但如果我們只單純想檢查「硬幣是否公正」(兩邊出現的機會一致)，那麼我們應該看「雙尾」。因為出問題的硬幣，公的機會可能高於，亦可能低於字。

在上面的例子中，其實我們應該看「雙尾」，簡單說就是把 P 值乘以二。(我不知道還有沒有其他情況)
同樣擲了一千次中﹕
「510對490」的 P=0.484，即是有48.4%靠隨機擲出(偏離平均數至少0.7個標準差)這結果，所以我們相信硬幣沒問題。
「53%擲出公」的 P=0.0358，即是只有3.58%靠隨機擲出(偏離平均數至少2.1個標準差)這種結果。由於 P<0.05，所以我們相信這個硬幣有問題，必須進一步檢查。

(當然那不代表硬幣一定有問題，因為還有3.58%機會是碰巧擲到這樣的結果，不過正是「不大可能」所以要小心檢查。
如果還要討論假設檢定的統計方法或「一型錯誤和二型錯誤」，那就要另開新篇了。)

--------------

寫了那麼多，其實方某連「統計學」也沒有正式讀過。電鋸或 Alone in the fart 應該能講得更好。

方某也只不過是看了幾本統計入書就寫這篇吹水文。如上述，在下最喜歡的是《統計，讓數字說話﹗》﹕
這本書是針對文科生寫的。如果你是怕算式，但想了解統計(尤其民調)是甚麼一回事的普通人，看完這本已經足夠。

同一作者(Moore)也出了更厚的「加強版」﹕《統計學的世界》
內容範圍差不多，不過解說更多，而且加了很多「練習題」。方某仍認為是適合文科生的統計入門書。

其餘書介可看以前的統計書介紹。

(方某的其他書評與書介)

← to do list

根據我自己的學習經歷，統計學是在預科至大學才教授。而且教授方式傾向數學的教學模式，自然只會學計數，不會涉獵整個統計的設計。

我很懷疑同學們能否好好主持一項統計，畢竟同學們以至老師們多數都沒受過統計學訓練。如果沒有電鋸或 Alone in the fart 那種統計學和統計編程的造詣，我實在不曉得怎樣做出合格的統計。
- 4/20/2012 6:54 AM
- beanchung
@beanchung - 我同意這一點，不過我覺得如果只是計算「信任區間」，去確認數據的準確度，應該還是可以的。p value就真的很難了。
- 4/21/2012 1:08 AM
- fongyun
在下N年前做過統計調查, 現在關於統計學的細節已忘記得八八九九, 但隱隱覺得:

全校祇有一千個學生, confidence interval 95%, 誤差範圍±9.8%, 似乎不需隨機抽取樣本100人那麼多.
- 4/21/2012 2:07 AM
- Anonymous
@Anonymous - 誤差範圍跟總數有多少人沒關係，只跟樣本大小有關係。
- 4/21/2012 3:24 AM
- fongyun
方老師對sample size的闡釋大致是正確的，想補充一下同data的nature也有關係(categorical / continuous)。同學仔通常不會明解那麼複雜的數式，最好計好晒比佢地參考。有份journal 已計好晒，可參考"Organizational Research: Determining Appropriate Sample Size" http://doresearch.files.wordpress.com/2008/08/samplesizebartlett20011.jpg
- 4/23/2012 2:50 AM
- ah why
@ah why - Thank you!!! 不過佢個 margin of error 是指誤差範圍還是……﹖
- 4/23/2012 3:52 AM
- fongyun
At least the students should know (and apply) Chi-square test to their relatively simple quantitative research.

(I mean, for secondary students......)
- 5/18/2012 4:14 AM
- Frostig

Comments are closed.

fongyun

More info

http://about.me/fongyun http://fongyun.blogspot.hk/

fongyun's Xanga Site

April 20, 2012

Comments (7)

Post a Comment

fongyun

Recent Posts

Recent Comments

Categories

More info

fongyun's Xanga Site

April 20, 2012

Confidence Interval & P-value

Comments (7)

Post a Comment

fongyun

Recent Posts

Recent Comments

Categories

Tags

More info