最近通過博客圍觀了一場關於相關性和因果性的爭論。嚴格說也不能叫圍觀,最多叫看了眼戰報——畢竟雖然沒有爭出一個結果,但實際上,關於這一問題已經無人繼續發言了。 丹尼爾·卡尼曼是2002年諾貝爾經濟學獎得主,或許大家看過或聽說過他那本暢銷書《思考,快與慢》。 卡斯·桑斯坦是著名法學家,在奧巴馬時期曾擔任白宮信息與監管事務辦公室主任。 前幾個月,卡尼曼和桑斯坦等人合著的新書出版。其中在介紹相關性和因果性的時候,提及雖然相關性並不意味著因果關係,但"只要有因果關係,就有相關性"。換句話說,如果X導致Y,那麼X和Y一定是相關的。 結果有位統計學學家撰文指出,這是一個錯誤。 雖然,統計學是常識的系統化,但這個例子表明,統計分析需要我們深入思考,才能理解其內涵。 如果系統中除了X和Y之外沒有其他因素,那麼這句話就是真的。但在任何現實世界的系統中,都有兩個以上的相關因子。 比如說剛剛過去的夏天,人們應該期望室溫(Y)與外界環境溫度(X)呈正相關:當外界升溫時,室內溫度上升。 但,當我們為系統中引入空調(C)的時候,情況就不一樣了。空調將室溫(Y)固定。換句話說,C的作用是使Y保持在23-26℃之間,不管外面的溫度(X)如何。 空調破壞了X和Y之間的相關性。如果我們只收集外部和內部溫度的數據,我們不會看到相關性! 儘管外部溫度明顯以線性方式影響室溫,但數據呈現的是不相關的。 上面大致就是統計學家從統計學定義出發,提出的反對意見。大家覺得有道理嗎? 由相關性得不到因果性,但因果性一定蘊含相關性嗎?
|