2013年10月16日

寧要模糊的正確 不要精確的錯誤

上期講到,希望預測更準確,去捕捉黑天鵝,全然捉錯用神。但就算在實體世界,理論上數據和模型都比較靠譜,可是只要誤用,一樣可以弄出個大頭佛。早前談過的《Flaw of Averages》一書,提供了大量的例子:
假設一家軟件製造商,由十組人分別編寫程式的不同部分,同期進行。某日,項目主管捉住其中一個組長,問道:「究竟要幾耐先搞掂?」組長拍心口,話呢類程式,有信心三至九個月內,完成自己的部分。主管再問:「三至九個月?點同營運總監解釋呀?畀個實數嚟!」組長對曰:「咁呀,呢挺嘢平均都係六個月到啦……」主管滿意離開,再去盤問其餘九組,各人口供均一致,都謂多數三至九個月,平均六個月。
主管飛報上司,下軍令狀六個月起貨。豈料最後九個月才成事,起初以為只是人有三衰六旺,運氣使然,但幾個項目下來,次次都超過六個月。檢視各組個別數據,卻又未發現組長講大話,真的是三至九個月,平均要六個月。錯誤出在何處?

股神巴菲特只買自己熟悉的股票,不會用半桶水的資訊分析。

平均數不可靠

問題就是對平均數的錯誤理解。整個項目的完成時間,相當於最後一組完成的時間,與各組的平均數沒有關係。我們可用只有A、B兩組的簡化模型去思考:假設各組一半機會三個月完工,一半機會九個月完工,平均數就是六個月。總共有四種可能性,機會均等:A3B3、A3B9、A9B3、A9B9。在這四種可能性中,完成時間為3、9、9、9個月,即十次有七、八次是九個月才起貨,而非用自創空想統計秘笈推算出來的六個月。
延伸至十組,只要任何一組「陀衰家」,完成時間就會推遲至該組完工;相反要在下限三個月完成,則要「十」星連珠,個個都三個月完成才行。不用精密計算,都知道哪方機會較高。要提供實際有用的數據,該書作者的做法是將各組過往的表現輸入電腦,撈亂後造出不同的模擬情景,這時才開始計算平均。

簡單常識處理問題

《行為的藝術:52個非受迫性行為偏誤》的作者杜伯里建議:「當有人說出『平均』二字時,你最好摀着耳朵,試着了解背後的實際分布情形。」在現今的資訊洪流下,我們不費吹灰之力,便能接受到大堆數據,各類的研究、訪問調查、歷史統計,不一而足。未經了解,就急急照單全收,甚至加入自己的解釋,恐怕容易重蹈上述項目主管的覆轍,得出計算精確的錯誤結果。
或問:時間所限,怎能將資訊一一深究清楚?巴菲特謂:寧要模糊的正確,也不要精確的錯誤。很多時用簡單的常識處理問題,效果要比濫用半桶水的資料去分析要好。一如財務報表分析,任何人只要三個月訓練,定可從中找出幾十個數項,在其之間加減乘除,又可以得出幾十個比率,但是否計晒就有用?當然不是,甚至提供虛幻的安全感,有害無益。