April 20, 2012

  • Confidence Interval & P-value

    [備忘﹕統計誤差]

    (先旨聲明﹕方某沒修過統計學,以下純屬個人看法。如果有錯,敬請指教。)

    有同學問我,如果問卷只收到幾十份,有沒有問題。

    雖然在網上看通識同工的反應,大部分學生其實都無法做到超過一百份問卷。不過我們教學生,始終說一百份問卷是「起碼」,因為如果少過一百份誤差會很大。

    同學不明白甚麼是誤差。

    ---

    首先我假設同學是以「隨機抽樣」(要留意隨機不等於「隨便」或「隨意」找人做﹗簡單點「隨機」就如「抽籤」或者六合彩「攪珠」,想詳細講就要另開文章處理),因為如果不是隨機抽樣的話(例如找朋友做)根本不能保證抽到的個人能代表全體。
    雖然隨機抽樣保證了抽取的個人能夠代表全體,但不能說他們的答案就等於是「全體」的答案。

    舉個例,假如這位同學向一百位同學詢問「方sir是否靚仔」,得出的結果是「60%認為方sir是靚仔」(那麼高的比例顯然是胡說的 ),那是否代表全校一千個學生中有六百人都認為方sir是靚仔﹖
    當然不一定,因為如果你只隨機抽了「一位同學」問,那麼豈不是只要他答「是」的話就變成全校「所有」學生都認為方sir是靚仔﹖﹗
    這肯定是荒謬的,誰知道你是否碰巧抽到個大近視﹖

    隨機抽樣,既然抽到甚麼人是看機會,得出來的答案(他認為方sir是否靚仔)自然也是「看機會」。今次抽一百個人得到「60%」,下次另外再抽一百個人可以只到「50%」也說不定。
    究竟學校裡面認為「方sir是靚仔」的人是否佔多數﹖很難只看「60%」的結果就作肯定回答,因為你不肯定如果另一位同學再抽一百人,結果可能是「40%」……

    這種「每次用同樣規則、抽同樣人數、答同樣問卷,結果都可能有差異」的情況叫「隨機誤差」。跟抽樣做得不好、問卷擬得差……這類個人因素都沒關係,就算老師幫你改到最好,這誤差是必然存在的。

    於是一個負責任的報告,應該告訴人家這個調查的「誤差」有多少,從而讓人家看到你主張的結果(如﹕大部分同學都認為方sir是靚仔)究竟有多大說服力。

    ---

    那麼「誤差」是怎樣計算的﹖

    這樣問是很正常的,因為根本沒有人教過他們甚麼是隨機誤差和怎樣計算誤差。
    通識科沒教,而我教的那科IT雖然是支援通識科專題探究,但編講義的老師(他教通識)也沒有把這點編進去,那即是說通識科同寅都不認為有必要加這種東西。

    他們應該有科本的合理考慮,可能連考評局也沒要求呢﹖
    或者應該難度太高不適合﹖又或者,明知大部分填問卷的學生都不是認真填……﹖

    不過對在下來說,倒覺得「搞調查不講誤差」不如不做,因為不看誤差根本不知道結果有甚麼意義。(正如上面單看一個數字根本不肯定校內同學對方sir樣貌的看法)

    ---------

    為方便解說,以下的圖表從在下最喜歡的《統計,讓數字說話﹗》抄出來﹕

    「誤差」是一個簡單說法,統計學上正式的說法是「信任區間」(confidence interval)。

    「信任區間」的意思,是指「如果以同一方法重覆抽樣,有多大可能會包括正確的答案」。
    (以上面「校內隨機抽100人問方sir是否靚仔」為例,就是這次抽完100人,又在學生名單中隨機再抽100人問,不斷重覆。每次被抽到的人,可能有重複,因為「有人被重複抽中」也是隨機下的合理現象。)

    在這圖裡面,假設 0.55 (55%)是正確答案。「95%信任區間」的意思,就是說如果我們不斷重覆抽樣之下,雖然每次得出的平均值(圓點)和誤差範圍(箭頭)都不同,但有95%結果的誤差範圍會包括 0.55 這個正確答案。(例如,這次調查得出「60% ±10%」的結果,仍是包括了「55%」。)
    所以我們說有95%的信心說,正確答案會在抽樣調查的誤差範圍之中,即是「雖不中亦不遠矣」。

    (但這本書的作者警告,這說法不能變成「我們有95%的機會拿到正確答案」,因為結果已做了出來,只有包括或不包括,不再有概率可言。「95%」是指我們對「抽樣方法」的信心。)

    那麼信任區間是怎樣計算的呢﹖
    答案是一個比例(0%-100%)和數字(如身高體重)的處理會有分別。一般調查最想看的,都是比例。

    由於每次抽樣的結果值都可能有不同(如上圖),這些不同的結果值同樣可計出標準差。(標準差是一個描述數據離散—即分散—程度的數字,高中數學有教,考試用計算機亦有按鈕供直接計算,所以方程式不再贅述。)

    抽樣分佈下,結果「比例」的標準差用這方程式計算﹕
    [(p)(1-p)/n]^(1/2)
    (p是比例本身,由0-1﹔n是樣本大小。)

    由此可見,隨著 p (結果)的不同,誤差範圍也會不同。但看倌自己計算一下就看到,p=0.5的時候 p(1-p)是最大的。料敵從寬,反正我們還有各種誤差來源,把誤差範圍多估一點是最穩當的。所以就當 p=0.5,p(1-p)=0.25 好了。

    n是樣本大小,可見樣本越大誤差越小,反之亦然。這就是為何樣本不能太小的道理,否則誤差範圍太大,包山吞海,等於得不出肯定的答案。

    單計了標準差還未知道「誤差範圍」。因為「信任」有各種不同的標準,我們要視乎信任的範圍有多大,才知道應該拿多少個標準差﹕

    圖中的C就是信任範圍,一般而言常用的「95%信任」就要拿(z=)1.96個標準差的範圍,這個範圍包括了95%的可能性。
    如果你要更高的信心(如99%)也可以從上表讀出,但可見到信心越高,範圍越大(要有100%信心﹖包括由0%到100%的所有範圍就可以,但這樣答等於廢話)。反之,你可以拿小一點的範圍,但信心就會少一點,出錯的機會大一點了。

    拿了你要的信任度之後,把它乘以上面計出的標準差就可以﹕
     

    我們拿 p=0.5,p(1-p)=0.25 的最大誤差,95%信心(z=1.96),看倌可看看誤差範圍和樣本大小的關係﹕

    樣本數目(n)﹕誤差範圍
    25﹕0.196
    50﹕0.139
    75﹕0.113
    100﹕0.098
    200﹕0.069
    500﹕0.044
    1000﹕0.031

    換言之,就算我們完全遵守了隨機抽樣的規則,當抽取我們建議學生的「至少100人」時,誤差範圍仍是「結果 ±9.8%」。換言之,得出「60% ±9.8%學生認為方sir是靚仔」,因為有95%的信心至少有50.2%的學生認為方sir靚仔,也只不過是勉強過半而已。

    若然像學生的說法,只想抽50人就算數的話,誤差範圍就是「13.9%」。就算得到「60% ±13.9%學生認為方sir是靚仔」,誤差範圍就要由46.1%到73.9%,答案立即變得不大肯定了。
    (當然,如果真的有46.1%學生認為方sir是靚仔,我也應該老懷安慰 )

    如果要把誤差縮窄到「5%」或以下(坊間民意調查常見的誤差範圍),就要抽差不多500人才做得到,當然這已經超出絕大部分學生的能力了。所以我們建議的「至少100人」其實已是合理的下限。

    ---

    如果不是比例,我們想問「學生平均身高」又如何﹖方法差不多,只是算式不同。

    首先,這幅圖也顯示了,抽取的樣本越多,標準差越少,即是越準確。

    這個平均數的標準差和信任區間方程式如下﹕

    由於數字的範圍不如比例般一定由0%到100%之間,s是樣本的標準差,要已經抽了樣拿了結果才能計算出來,所以不便舉例說明。

    ---

    同學問如果計出來誤差太大,那豈不是自找麻煩﹖

    我倒不是這樣想,畢竟中學生能力有限,人家也不預期你做到很好的結果(有的話是意外收獲)。單靠一人之力就只能收到那麼多問卷也沒辦法。
    可是,你給了誤差範圍,至少向說明了你考慮過這一點,嘗試過做好它,而且誠實地告訴大家自己所得結果有多可靠。

    這態度比結果本身更重要。

    ---------

    另一個統計學中經常出現,而且在下還曾經要教的「更難觀念」,是 P 值
    這個問題可能真的超出了很多中學生掌握的範圍,因為要理解 P 值是甚麼,首先要懂得概率。

    在球賽中球證會擲毫決定誰先攻,理論上我們相信硬幣兩邊擲出來的機會是相同的(否則就不會用了),實際上呢﹖
    如果真的擲一千次,「公」和「字」的出現很大可能不是「500對500」的,那麼如果是「510對490」,這個硬幣還是「公正」的嗎﹖
    如果說「510對490」「只是差很少」,那麼要差多少才算多﹖

    這就是 P 值要處理的問題。
    (早期研究機率的人之中,包括了十八世紀法國的博物學家布封伯爵,他擲了4040次。)

    正如上面抽樣問方sir靚不靚仔的例子,假設我們把「擲毫1000次」不斷重覆,又或者找一萬人來每人擲毫一千次,得出來的結果應該會接近下面這幅圖﹕
     (橫軸是擲出的公/字比例,直軸是擲出該比例的次數)
    這幅圖是借用,中間值當然不是「0」。如果錢幣是「公正」的話,擲出「公」(「字」亦然)的比率應該接近一半,即是「0.5」(50%)。

    大部分的「一千次擲毫」結果都會接近 0.5,所以會以 0.5 為中心出現一座小山。反之,擲到極端情況(如「800對200=0.8」)就不大可能出現,所以越往兩端走就會越少。

    看倌會見到這種曲線在文中不斷不現,而在概率或統計的討論中亦經常會出現,這種曲線模式叫「normal distribution」,中文叫常態分佈、常模分佈、或中文維基叫的正態分佈(這令我想起正太……),日文維基叫正規分佈。

    前面我們以「信任區間」的百分率,換算成標準差以計出誤差範圍。我們也可以反過來,以標準差計算出機率(即 P 值)。下圖同樣是借用﹕
     
    內文情節不必理會(說的是選舉),我們就當這是以公正硬幣大量重覆「擲毫一千次」的結果。平均值是0.5 (即是「50%擲出公」),標準差 0.014。

    如果我們收到一個新硬幣,擲毫一千次的結果是「53%擲出公」(=上圖的觀測值0.53),換算後即是2.14個標準差。
    我翻了《統計學的世界》書後的「常態分布的百分位數」表(p.691),距離平均數2.1個標準差的百分位數是98.21%。
    換言之,即是說擲出「至少比平均數多2.1個標準差」的結果,只有1.79%的機會(100-98.21)。即是 P=0.0179。

    那麼我們之前說的「510對490」又如何﹖0.51距離平均值0.5有0.714個標準差,0.7個標準差換算成百分位數是75.8%。亦即是說,擲出「至少比平均數多0.7個標準差」的結果,機會是24.2%。即是 P=0.242。

    那又如何﹖

    一般研究會先假設結果「無特別」(即虛無假設 Null Hypothesis),在這裡即是「硬幣沒問題、很公正」。當 P 值較大的時候,我們會接受這結果很大可能「只是隨機產生」(口語﹕靠撞彩得出這結果),於是維持「無特別」的結論。
    當P值很小的時候,我們才會接受這結果「不大可能透過隨機產生」(口語﹕邊有咁好彩﹖),於是推翻虛無假設,相信「有特別事發生了」(即接受對立假設 Alternative Hypothesis)。

    我們會事先設立一個 P 值的門檻,一般研究中 P 至少要少於 0.05 (P<0.05)才會被接受。亦即是說,應該只有少於1/20的機會「單靠撞彩」得出這結果了。

    簡單而言是這樣,但實際上我們還要考慮「單尾」或「雙尾」﹕

    如果我們已假設「公出現的機會可能高於字」(例如公那邊可能特別厚),那麼我們只需要看「單尾」的P值。
    但如果我們只單純想檢查「硬幣是否公正」(兩邊出現的機會一致),那麼我們應該看「雙尾」。因為出問題的硬幣,公的機會可能高於,亦可能低於字。

    在上面的例子中,其實我們應該看「雙尾」,簡單說就是把 P 值乘以二。(我不知道還有沒有其他情況)
    同樣擲了一千次中﹕
    「510對490」的 P=0.484,即是有48.4%靠隨機擲出(偏離平均數至少0.7個標準差)這結果,所以我們相信硬幣沒問題。
    「53%擲出公」的 P=0.0358,即是只有3.58%靠隨機擲出(偏離平均數至少2.1個標準差)這種結果。由於 P<0.05,所以我們相信這個硬幣有問題,必須進一步檢查。

    (當然那不代表硬幣一定有問題,因為還有3.58%機會是碰巧擲到這樣的結果,不過正是「不大可能」所以要小心檢查。
    如果還要討論假設檢定的統計方法或「一型錯誤和二型錯誤」,那就要另開新篇了。)

    --------------

    寫了那麼多,其實方某連「統計學」也沒有正式讀過。電鋸Alone in the fart 應該能講得更好。

    方某也只不過是看了幾本統計入書就寫這篇吹水文。如上述,在下最喜歡的是《統計,讓數字說話﹗》﹕
    這本書是針對文科生寫的。如果你是怕算式,但想了解統計(尤其民調)是甚麼一回事的普通人,看完這本已經足夠。

    同一作者(Moore)也出了更厚的「加強版」﹕《統計學的世界》 
    內容範圍差不多,不過解說更多,而且加了很多「練習題」。方某仍認為是適合文科生的統計入門書。

    其餘書介可看以前的統計書介紹

    (方某的其他書評與書介)

Comments (7)

  • 根據我自己的學習經歷,統計學是在預科至大學才教授。而且教授方式傾向數學的教學模式,自然只會學計數,不會涉獵整個統計的設計。

    我很懷疑同學們能否好好主持一項統計,畢竟同學們以至老師們多數都沒受過統計學訓練。如果沒有電鋸或 Alone in the fart 那種統計學和統計編程的造詣,我實在不曉得怎樣做出合格的統計。

  • @beanchung - 我同意這一點,不過我覺得如果只是計算「信任區間」,去確認數據的準確度,應該還是可以的。p value就真的很難了。

  • 在下N年前做過統計調查, 現在關於統計學的細節已忘記得八八九九, 但隱隱覺得:

    全校祇有一千個學生, confidence interval 95%, 誤差範圍±9.8%, 似乎不需隨機抽取樣本100人那麼多.

  • @Anonymous - 誤差範圍跟總數有多少人沒關係,只跟樣本大小有關係。

  • 方老師對sample size的闡釋大致是正確的,想補充一下同data的nature也有關係(categorical / continuous)。同學仔通常不會明解那麼複雜的數式,最好計好晒比佢地參考。有份journal 已計好晒,可參考"Organizational Research: Determining Appropriate Sample Size" http://doresearch.files.wordpress.com/2008/08/samplesizebartlett20011.jpg

  • @ah why - Thank you!!! 不過佢個 margin of error 是指誤差範圍還是……﹖

  • At least the students should know (and apply) Chi-square test to their relatively simple quantitative research.

    (I mean, for secondary students......)

Comments are closed.

Post a Comment