close
《是誰在鬼扯》氣象類(6)下雨機率
下雨預報。
「高雄市明日平地為多雲,溫度25~30度,降雨機率低。丘陵區(旗山)為多雲,溫度24~31度,降雨機率10%。山區(六龜)多雲短暫陣雨,溫度22~29度,降雨機率30%。」
「明日宜蘭地區受東北風轉強影響,天氣轉涼且轉為短暫雨的天氣,宜蘭平地降雨機率70%,山區降雨機率80%。海岸邊以蘇澳為例,天氣為短暫陣雨或雷雨,氣溫22~27度,風力2~4級,降雨機率為90%。」
下雨機率幾趴,你才會想帶雨具?超過50%?或是達到90%?100%?還是只要有10%?
機率(probability),數學術語,是指某個事件隨機出現的比率。機率的探討可能源於擲骰子、卡片、錢幣等賭博遊戲,而後發展於保險、金融等商業行為,資本家交易時認為要依靠占星術不如依靠較為確實之學術界。機率論奠基於17世紀中葉之布萊茲·帕斯卡 Blaise Pascal(1623~1662)、和皮埃爾·德·費馬Pierre de Fermat(1601~1665)。
機率論是在已確知母體(如一個有六面的骰子)的狀況下,先設各個子體出現的機會是同等的(如均勻之骰子,即各面出現之機會均等),然後探討與計算所有事件隨機出現的比率(如投擲骰子1次出現“一點"的機率為1/6,連續投擲骰子2次皆出現“一點"的機率為(1/6)×(1/6)=1/36)。
但現實世界不存在均勻的骰子,各面出現之機會並不會均等。那麼手中這顆骰子,不均勻到什麼程度(這個對對賭雙方非常重要),就可運用統計手段了。
統計是一種用統和資料的方式,來算計出研究對象的總體特徵、規律性或趨勢的過程。差異性(變異性)是統計的前提,沒有差異就沒有統計。
英語statistics源於現代拉丁語statisticum collegium(國會)以及義大利語statista(國民或政治家),即「統計」與「國家」來自同一詞源,可以說國家與統計活動密不可分。
在東方,國家級的統計,最早可能見於夏禹時代(西元前22世紀),分為九州,有人口約1352萬,《書經·禹貢篇》記述了九州的基本土地情況。秦《商君書》中提出「強國知十三數」,其中包括各國人數、糧食儲備、農業生產及自然資源等。
在西方,西元前27世紀,埃及為了建造金字塔和大型農業灌溉系統,進行過全國人口和財產調查。西元前15世紀,猶太人為了戰爭的需要進行了男丁的調查。西元前約6世紀,羅馬帝國規定每5年進行一次人口、土地、牲畜和家奴的調查,並以財產總額作為劃分貧富等級和徵丁課稅的依據。
15至18世紀,歐洲出現了許多以報導國情為內容的統計著作。在19世紀30年代後,出現了所謂「統計狂熱時代」。
德語statistik,最早是由Gottfried Achenwall(1749年)所使用,代表對國家的資料進行分析的學問,也就是「研究國家的科學」,因此統計學最初是作為管理階層(通常是中央政府)的工具,而在今日已延伸到商業、醫療、公共衛生、教育、環保、人口、雨量、選舉等等方面。隨著大資料(Big Data)時代來臨,統計的運用更顯得重要。台灣政府也設有統計處,以便給出建議供決策參考,如衛福部統計處、經濟部統計處、教育部統計處、各縣市則有主計處。
藉由統計可以幫助我們了解研究對象的總體樣貌,但因統計的過程需由研究者來設計,統計的結果需由研究者來解釋,若結論遭輕率概化或蓄意偏利於某方,則會造成統計偏差。1954年統計學家霍夫(Darrell Huff)的《如何用統計來說謊》(《How to Lie With Statistics》)書中說:「樣本的可靠性可以被偏差破壞,給你自己點懷疑的空間吧。」美國大文豪馬克吐溫(Mark Twain)說:「世上有三種謊言:謊言、該死的謊言與統計數字(Lies、damned lies、and statistics)」,對統計資料的取得和結果的解釋,是需要懷疑的,尤其對人類行為的研究統計分析應該多加謹慎。霍桑效應就是一個著名的統計偏差案例。
霍桑效應(Hawthorne Effect)是心理學上的一種實驗者效應,指當被觀察者知道自己成為被觀察對象而改變行為傾向的反應。
西方電器公司(Western Electric)曾在伊利諾州的霍桑工廠(Hawthorne Works)研究工作環境改變對生產率的影響。如研究人員嘗試增強照明,結果工人的生產率提升了。但後來該實驗因其流程偏差飽受批評,尤其是實驗缺乏對照組和雙盲。該實驗中生產率的提升不是因為照明強度的改變,而是因為工人們發覺他們被圍觀了。
機率與統計是兩種不同的概念,卻常遭混為一談。
機率屬於數學,且其研究的主題是確定的事物。而統計雖然有運用到數學,但統計並不是數學,數學計算是有唯一答案的,而統計結果可能隨人解釋而不同。
機率論的前題是已確知母體,如一個有六面的骰子、一枚有兩面的硬幣、一副有52張卡片的撲克牌。
統計則可分兩個面向,一個是已確知母體(如一個班級有30位學生),想了解子體的分佈情形(如考90分有幾位、考80分有幾位、不及格比例有多少),一一記錄,甚至作成圖格來表達,稱為「敘述統計」(摘要地描述資料的集中和離散情形);另一個是未知母體或母體太過龐大(如台灣投票人口有一千八百餘萬),想了解母體樣貌(如政黨喜好),若逐一訪問記錄將耗費耗時,效率太差,故從母體中採取樣本(如電訪一千位民眾),藉此小量樣本而推論母體,稱為「推論統計」(建立出一個數學模型來推論母體)。從母體完整的資料變成兩三個數值,顯然是資訊 (information) 的大大濃縮(或損失),但對於某些事或某些人,這剩下的資訊就很夠用了。「1號得90分,2號得80分」與「1號得80分,2號得90分」,就學生個人而言很重要,但老師比較想要知道的是90分有幾個人,80分有幾個人。
如果明天下雨機率是90%,結果沒下雨,這樣的預測有沒有失準?沒有;如果明天下雨機率僅10%,結果下雨了,這樣的預測有沒有失準?也沒有。即使明天下雨機率是0%,仍有可能下雨。於是不管下雨機率是多少,出門最好都戴著雨具,放在背袋裡也好,放在車上也好,而如果要辦一場戶外活動也要有雨天的備案。那麼,這樣的下雨機率預報,對我們有啥用?
下雨機率的預測是不負責任的行為,因為事後無法判定這個預測準不準,當然也就無從究責。「建議」帶不帶雨具才是有意義的,如此才能驗證這個建議準不準(或好不好)。建議帶結果沒雨或建議不帶結果下雨,錯了就等著被飆,這樣皮才會繃緊。
同理,股市分析師預測明天上漲的機率也是不負責任的,明天漲或跌,我們都無法說他錯,因為總有機會不漲,股市分析師可以利用這樣的話術輕易而巧妙的避開責任(而氣象報告也在做這樣的事情?)。如果我們無從證明這個說法或論點是錯的,那麼這個東西的科學內涵質量是極低。假設股市分析師預測明天上漲的機會是90%,那麼接下來應該要「建議」投資人「買」,只有建議投資人買賣,才能驗證這個建議對不對(或好不好),也才能了解這個分析師的優劣。
一個班級裡都是女生,找出男生的機率是零;一個箱子裡都是白球,拿到紅球的機率是零,這是數學上的機率論,但預測這件事並不是單純的數學題。天有不測風雲,作出下雨機率是0%或是下雨機率是100%的預測當然是不智的。
預測某事發生的機率是有著邏輯思維上的問題,因為機率是屬於數學世界的、是理想的(如均勻的骰子)、是完美的(如骰子六面出現的機會均等)、是經由計算的、是必然的。而預測的結果確是不必然。
全站熱搜