October 20, 2014

  • 預測天災

    [預測天災—蔡錦滔、梁逸勤]

    這個講座其實比較像是好書推介(笑),因為主要內容是來自一本書﹕
    精準預測》(The Signal and Noise) by Nate Silver,台北﹕三采,2013

    講者是想借太空館講座的機會,向聽眾介紹這本書。由於內容可以看書,所以筆記盡量縮短。

    1. 古人依靠觀測和個人經驗累積知識,由口述到見諸文字,再到印刷術發展進入知識爆炸的時代。
    現在的巨量資料(big data)時代,隨手一按就可以找到很多東西,可是雜訊遠多於訊息,如果找出對自己有意義的資訊非常重要。

    Wired Magazine曾有文章指,數據之多令我們不再需要理論和科學方法,這個說法其實十分錯誤。因為電腦可以處理資訊,但要從中找出「意義」,理論和科學方法仍是必須的。

    2. 預測地震

    2.1 Gutenberg-Richter Law (古騰堡—芮克特法則,方某會按香港譯法叫「黎克特」) 指出,地震的規模(黎克特制)和發生頻率的對數(log)成反比關係。

    (方按﹕留意,黎克特制本身已是一種對數刻度,所以其實地震能量和頻率就是反比關係。)

    按此法則,地震規模每提升一級,發生頻率就會差十倍。因此可以用來做地震遠期預測。
    舉例,伊朗首都德克蘭於1960-2009期間發生15次5.0-5.9級地震,平均每3年一次。
    因此,我們可以估計,每30年會發生一次6.0-6.9級地震,每300年會發生一次7.0-7.9級地震。如此類推。

    (方按﹕我想他的解讀有一點出錯,因為圖表指的是「發生高於此級別地震的頻率」,所以正確的解讀應該是「每30年發生一次6.0級或以上的地震」和「每300年發生一次7.0級或以上的地震」。)

    2.2 在尋找資料模式時,容易發生的問題就是overfitting(過度配適)。這是指研究人員試圖以一條曲線/公式/模式盡可能配合一切已有的數據,得出的結論反而偏離了事實。因為數據的出現有隨機性,並非完全符合預期,總會有些偏離簡單模式的雜訊出現。如果我們連這些雜訊也要「配適」,結果就是過猶不及。

    日本311大地震福島核電廠出事,就是過度配適(pattern-matching)的結果。日本東北的已有數據(由1960到2011年3月10日即大地震前一日),地震震級和頻率(log)的關係並不完全成一條直線,中間有一段屈折了,較大規模的地震頻率減少得比較快。
    研究人員把所有數據都連成曲線,認為9.0級地震的頻率是13000年一次,那是極度罕見的事,所以福島核電廠只需要設計成抵禦8.6級地震就夠了。
    可是,如果我們依照Gutenberg-Richter law拉直線配適(當然那就導致數據並不全都投在那條直線上),就會發現9.0級地震的頻率應為300年一次,那就不真的很罕見而值得預防了。
    結果3月11日日本東北就遭遇9.1級大地震,然後福島核電廠出事。

    (方按﹕這一段其實也有少許誤解的,並不在於數據方面,而是福島核災並不是因為地震,而是海嘯導致。雖然地震超出了設計,但反應堆當時是順利停機的,並沒有失控。可是反應堆會繼續發熱,需要維持冷卻水循環降溫。問題就是核電廠的防波堤設計沒預計有那麼高的海嘯,結果後備發電機被沖毀,核電廠沒有電力維持冷卻水循環。東京電力公司又因為廢爐損失大,沒有當機立斷灌海水降溫,結果堆心溶毀洩漏。
    所以簡單而言,說低估頻率是沒錯的,不過核心不在於地震震級,而是在於海嘯高度。)

    數據總會有偏差的,全部都要嗎﹖(方按﹕「有數據,真係全要﹖」 :P )

    3. 預測颱風

    3.1 例子就是颶風卡特里娜(Katrina),這個颶風風速帶到280km/hr。(需知道香港天文台定義「超強颱風」也只需要185km/hr或以上)

    這些災難並不是預測的問題。在二三十年前沒辦法有那麼準確的預測,但這次在五天前已經預報可能吹襲新奧爾良。但最後有大約八萬人(約1/5市民)沒有聽從指示疏散,結果死了約1600人。為何至此﹖

    (美國國家大氣研究中心IBM藍火超級電腦(位於科羅拉多州Boulder)每秒可運算達77兆位元。)

    事後對倖存者的調查,有2/3的人認為這個颶風不會很強,而餘下的人則不知道要疏散(走了4/5人也不知道﹖),市長等了24小時才發佈強制疏散令很多人未能跟進,亦有些窮人和老人根本沒看新聞所以不知道有指令疏散。

    (方按﹕其實也有些人是太窮,沒法疏散。畢竟疏散去其他城市,有點錢的人可以當渡假訂酒店,沒有錢的人可以睡在哪﹖沒錢要訓街,那就有人會覺得「不如留下博一博」算了。)

    3.2 科學體系有兩大派觀念。
    一是宿命論,亦稱科學決定論(determinism),認為所有事情都有明確的因果關係,所以只要我們完全知道之前的狀態,就可以預測到未來,而這個預測是已經被現況「決定」了無法改變的。
    二是知識論,認為人類的能力有極限。由此發展出機率論,再加上量子力學也有測不準定理,他們認為完美的預測本質上是不可能的。

    那麼,照道理空氣分子比原子大,不需要用量子力學去處理,那麼是否就可以有完美的預測﹖氣象是否有隨機性﹖

    3.3 數值天氣預報的濫觴,是1916年英國氣象學家 Lewis Fry Richardson 在戰時試圖以「氣象矩陣圖」,把德國北部劃定格子,以計算不同地方於特定時間的天氣。可是他的計算失敗了。而且他劃的格子也太大,360km X 360km。

    不過他想把格子劃小一點也很難,因為格子劃小一半,在平面上由一格變四格,立體上卻由一格變八格。所需的計算量會大幅增加,非人手所能完成。(還未計算時間點是否也劃分得更密……)

    結果直到電腦發展後,到接近1960年代才開始使用電腦程式作數值天氣預報。

    3.4 蝴蝶效應於1972年由Edward Lorenz提出,是混沌理論的一種演繹。當他把一個天氣系統重複計算時,出現很大偏差,結果他發現原來只因為他把其中一個數據29.5168約化為29.517,那就令某些結果完全相反了。這顯示出初始條件的微小變動,足以造成結果的重大差異(即古人的「差之毫釐謬以千里」)。他比喻說就像一隻小蝴蝶拍翼,就足以影響千里之外的一場風暴一樣。

    所以電腦的預報結果,還是需要預報員的智慧去分析。美國研究顯示,電腦預報加上人的判斷,可令降雨預測準確度提升20%,溫度預測準確度提升10%。

    而颱風預測路徑的誤差,亦由1987年的560km(差不多就是整個墨西哥灣,預測了等於沒有預測),到2007年縮窄到180km。

    3.5 所以預報都需要校準(calibration)。
    美國曾分析商業預報,認為它們對較高降雨量的預測相當準確,反而是較低降雨量的預測會較高。有人曾訪問這些機構,他們需要靠準確預測來留住客戶,但較低的降雨量需要誇大一點,才令客戶有所預備,亦不至於降雨後認為他們不準。(所以這是因應受眾心理的調整)
    至於地方電視台的氣象學家預測降雨,則大幅偏高。這是因為電視台傾向以趣味性(誇張)來吸引收視。

    4. 911襲擊可以預測嗎﹖

    4.1 第一個概念是條件概率
    講者舉例說一副啤牌有十二隻公仔(KQJ各四花),抽中紅心的機會3/12=1/4。但如果先抽到一隻紅心K,然後再抽到紅心的機會呢﹖這個有條件限制的就是條件概率。
    在這個例子中的機率就是 P(紅心|紅心K)=2/11
    (因為抽了一隻紅心K剩下11隻,其中尚有紅心Q和J)

    4.2 第二個概念是貝氏定理,是一種根據後來事件修改先驗機率的做法。
    講者舉例有兩個碗,碗H1有30粒水果糖和10粒朱古力糖,碗H2有20粒水果糖和20粒朱古力糖。那麼如果我隨機抽一粒糖出來,發現是水果糖,它來自碗1 的機率是﹖

    隨手一拿拿到碗H1或H2的機會都一樣,是0.5,這是「先驗機率」。寫成算式就是P(H1)=0.5, P(H2)=0.5

    那麼在碗H1抽到水果糖的機會就是 P(H1|E)=P(H1)*P(E|H1)/P(E)
    (抽出水果糖是來自碗H1的機率 = 抽到碗H1的機率 * 抽到碗H1當中的水果糖機率 / 抽到水果糖的總機率)

    P(E)=P(E|H1)*P(H1) + P(E|H2)*P(H2)=0.75*0.5 + 0.5*0.5 = 0.625
    (抽到水果糖的總機率 = 抽到碗H1當中的水果糖機率 * 抽到碗H1的機率 + 抽到碗H2當中的水果糖機率 * 抽到碗H2的機率)

    P(H1|E)=0.5*0.75/0.625=0.6
    (簡單說其實總共有50粒水果糖,其中30粒在碗H1,所以抽到水果糖就有30/50=0.6的可能來自水果糖。當然貝氏定理可以做的事遠超於此。)

    4.3 那麼在911當天,第一架飛機撞上世貿大樓時,我們如何確定是否恐怖襲擊﹖

    根據以前的經驗估算,我們可以先設定P(H1)=0.005%為「飛機撞大樓是恐怖襲擊」的先驗概率。

    那麼如果真的是恐怖份子,他們撞上大樓的機率自然是P(E|H1)=100%。
    如果其實不是恐怖份子,而他們撞上大樓(即意外)的機率是P(E|H2)=0.008%。
    於是P(H1|E)(即是撞上大樓的是恐怖份子)=38%

    到第二架飛機都撞上呢﹖
    我們進行第二次運算,把P(H1)=38%代入,就算P(E|H1)=100%和P(E|H2)=0.008%的估算不變,再計算出來的機率會變成99.99%﹗

    4.4 事實上,根據1979-2001年9月10日(即911前)所有北約國家的恐怖襲擊紀錄,按照死亡人數和發生頻率排列,同樣可以整理出一條Gutenberg-Richter law的直線。根據這條直線推測,發生死2977人(911 紀錄)的恐襲,大概約80年會發生一次。

    4.5 美國事後的911報告,認為政府有四大失誤,包括政策失誤、能力失誤、管理失誤、和想像力失誤。

    甚麼是想像力失誤﹖因為美國本來已知以下情報﹕
    —以往已有恐怖份子用飛機撞大樓的紀錄
    —1993年世貿大樓已受過襲擊(方按﹕那次是汽車炸彈)
    —2001年國務院已知阿蓋達組織把襲擊升級
    —有恐怖份子學習駕駛飛機
    唯獨是美國情報機構未能「發揮想像力」把這些情報綜合起來,預先防範。

Comments (2)

  • 想不到, 會有太空館的聽眾這麼認真地把講座記錄下來, 還寫得這麼清楚, 我們做了這麼多時間的預備工夫, 真的沒有白費, 很多謝你對此講座的支持. 繼續努力~~

  • 抄了筆記放上網,既可分享,又整理吸收,更可避免日後忘記找不回。一舉三得,何樂不為﹖

    多謝您們準備講座才對。

Comments are closed.

Post a Comment