“知道“是什麼”就夠了,沒必要知道“為什麼”。在大數據時代,我們不必非得知道現象背後的原因,而是要讓數據自己“發聲”。”1997年,24歲的格雷格·林登(Greg Linden)在華盛頓大學就讀博士,研究人工智能,閒暇之餘,他會在網上賣書。他的網店運營才兩年就已經生意興隆。他回憶說:“我愛賣書和知識,幫助人們找到下一個他們可能會感興趣的知識點。”他注冊的這家網店就是日後大獲成功的亞馬遜。後來林登被亞馬遜聘為軟件工程師,以確保網站的正常運行。亞馬遜的技術含量不僅體現在其工作人員上。雖然亞馬遜的故事大多數人都耳熟能詳,但隻有少數人知道它的內容最初是由人工親自完成的。當時,它聘請了一個由20多名書評家和編輯組成的團隊,他們寫書評、推薦新書,挑選非常有特色的新書標題放在亞馬遜的網頁上。這個團隊創立了“亞馬遜的聲音”這個版塊,成為當時公司這頂皇冠上的一顆寶石,是其競爭優勢的重要來源。《華爾街日報》的一篇文章中熱情地稱他們為全美最有影響力的書評家,因為他們使得書籍銷量猛增。傑夫·貝索斯(Jeff Bezos),亞馬遜公司的創始人以及總裁,決定嘗試一個極富創造力的想法:根據客戶個人以前的購物喜好,為其推薦具體的書籍。從一開始,亞馬遜已從每一個客戶身上捕獲了大量的數據。比如說,他們購買了什麼書籍?哪些書他們隻瀏覽卻沒有購買?他們瀏覽了多久?哪些書是他們一起購買的?客戶的信息數據量非常大,所以亞馬遜必須先用傳統的方法對其進行處理,通過樣本分析找到客戶之間的相似性。但這些推薦信息是非常原始的,就如同你在波蘭購買一本書,會被東歐其他地區的價格水平搞得暈頭轉向,或者在買一件嬰兒用品時,會被淹沒在一堆差不多的嬰兒用品中一樣。詹姆斯·馬庫斯(James Marcus)回憶說:“推薦信息往往為你提供與你以前購買物品有微小差異的產品,並且循環往複。”詹姆斯·馬庫斯從1996年到2001年都是亞馬遜的書評家,在他的回憶錄《亞馬遜》(Amazonia)裡,他說道:“那種感覺就像你和一群腦殘在一起逛書店。”格雷格·林登很快就找到了一個解決方案。他意識到,推薦係統實際上並沒有必要把顧客與其他顧客進行對比,這樣做其實在技術上也比較煩瑣。它需要做的是找到產品之間的關聯性。1998年,林登和他的同事申請了著名的“item-to-item”協同過濾技術的專利(算法思路可參考林登2003年在IEEE I puting上發表的名為“Amazon. reendations:item-to-item colborative filtering”一文。當然,如同穀歌源於PageRank而現在遠不僅是PageRank,亞馬遜目前的推薦也遠遠不止基於對象的協同過濾那麼簡單。舉例而言,我所熟悉的百分點通用推薦引擎就包含了數十種常用算法,數千條行業規則和針對用戶意圖的場景預測模塊等。——譯者注)。方法的轉變使技術發生了翻天覆地的變化。因為估算可以提前進行,所以推薦係統快如閃電,而且適用於各種各樣的產品。因此,當亞馬遜跨界銷售除書以外的其他商品時,也可以對電影或烤麵包機這些產品進行推薦。由於係統中使用了所有的數據,推薦會更理想。林登回憶道:“在組裡有句玩笑話,說的是如果係統運作良好,亞馬遜應該隻推薦你一本書,而這本書就是你將要買的下一本書。”現在,公司必須決定什麼應該出現在網站上。是亞馬遜內部書評家寫的個人建議和評論,還是由機器生成的個性化推薦和暢銷書排行榜?批評者說了什麼,或者是顧客的點擊意味著什麼?林登做了一個關於評論家所創造的銷售業績和計算機生成內容所產生的銷售業績的對比測試,結果他發現兩者之間的業績相差甚遠。他解釋說,通過數據推薦產品所增加的銷售遠遠超過書評家的貢獻。計算機可能不知道為什麼喜歡海明威作品的客戶會購買菲茨傑拉德的書。但是這似乎並不重要,重要的是銷量。最後,編輯們看到了銷售額分析,亞馬遜也不得不放棄每次的在線評論,最終書評組被解散了。林登回憶說:“書評團隊被打敗、被解散,我感到非常難過。但是,數據沒有說謊,人工評論的成本是非常高的。”如今,據說亞馬遜銷售額的三分之一都是來自於它的個性化推薦係統。有了它,亞馬遜不僅使很多大型書店和音樂唱片商店歇業,而且當地數百個自認為有自己風格的書商也難免受轉型之風的影響。事實上,林登的工作徹底改變了電子商務,現在幾乎每個人都在使用電子商務。“奈飛公司是一個在線電影租賃公司,它四分之三的新訂單都來自推薦係統。在亞馬遜的帶領下,成千上萬的網站可以推薦產品、內容和朋友以及很多相關的信息,但並不知道為什麼人們會對這些信息感興趣。”知道人們為什麼對這些信息感興趣可能是有用的,但這個問題目前並不是很重要。但是,在小數據世界中,相關關係也是有用的,但在大數據的背景下,相關關係大放異彩。通過應用相關關係,我們可以比以前更容易、更快捷、更清楚地分析事物。相關關係通過識彆有用的關聯物來幫助我們分析一個現象,而不是通過揭示其內部的運作機製。當然,即使是很強的相關關係也不一定能解釋每一種情況,比如兩個事物看上去行為相似,但很有可能隻是巧合。如實證學家納西姆·尼古拉斯·塔勒布(Nassim Nichos Taleb)所言,我們可能隻是“被隨機性所愚弄”而已。相關關係沒有絕對,隻有可能性。也就是說,不是亞馬遜推薦的每本書都是顧客想買的書。但是,如果相關關係強,一個相關鏈接成功的概率是很高的。這一點很多人可以證明,他們的書架上有很多書都是因為亞馬遜推薦而購買的。如果A和B經常一起發生,我們隻需要注意到B發生了,就可以預測A也發生了。這有助於我們捕捉可能和A一起發生的事情,即使我們不能直接測量或觀察到A。更重要的是,它還可以幫助我們預測未來可能發生什麼。當然,相關關係是無法預知未來的,他們隻能預測可能發生的事情。但是,這已經極其珍貴了。過去,總部的人員們需要先有了想法,然後才能收集數據來測試這個想法的可行性。如今,我們有了如此之多的數據和更好的工具,所以要找到相關係變得更快、更容易了。這就意味著我們必須關注:當數據點以數量級方式增長的時候,我們會觀察到許多似是而非的相關關係。畢竟我們還處於考察相關關係的初期,所以這一點需要我們高度重視。在大數據時代來臨前很久,相關關係就已經被證明大有用途。這個觀點是1888年查爾斯·達爾文的表弟弗朗西斯·高爾頓爵士(Francis Galton)提出的,因為他注意到人的身高和前臂的長度有關係。相關關係背後的數學計算是直接而又有活力的,這是相關關係的本質特征,也是讓相關關係成為最廣泛應用的統計計量方法的原因。但是在大數據時代之前,相關關係的應用很少。因為數據很少而且收集數據很費時費力,所以統計學家們喜歡找到一個關聯物,然後收集與之相關的數據進行相關關係分析來評測這個關聯物的優劣。那麼,如何尋找這個關聯物呢?除了僅僅依靠相關關係,專家們還會使用一些建立在理論基礎上的假想來指導自己選擇適當的關聯物。這些理論就是一些抽象的觀點,關於事物是怎樣運作的。然後收集與關聯物相關的數據來進行相關關係分析,以證明這個關聯物是否真的合適。如果不合適,人們通常會固執地再次嘗試,因為擔心可能是數據收集的錯誤,而最終卻不得不承認一開始的假想甚至假想建立的基礎都是有缺陷和必須修改的。這種對假想的反複試驗促進了學科的發展。但是這種發展非常緩慢,因為個人以及團體的偏見會蒙蔽我們的雙眼,導致我們在設立假想、應用假想和選擇關聯物的過程中犯錯誤。總之,這是一個煩瑣的過程,隻適用於小數據時代。在大數據時代,通過建立在人的偏見基礎上的關聯物監測法已經不再可行,因為數據庫太大而且需要考慮的領域太複雜。幸運的是,許多迫使我們選擇假想分析法的限製條件也逐漸消失了。我們理解世界不再需要建立在假設的基礎上,這個假設是指針對現象建立的有關其產生機製和內在機理的假設。因此,我們也不需要建立這樣一個假設,關於哪些詞條可以表示流感在何時何地傳播;我們不需要了解航空公司怎樣給機票定價;我們不需要知道沃爾瑪的顧客的烹飪喜好。取而代之的是,我們可以對大數據進行相關關係分析,從而知道哪些檢索詞條是最能顯示流感的傳播的,飛機票的價格是否會飛漲,哪些食物是颶風期間待在家裡的人最想吃的。我們用數據驅動的關於大數據的相關關係分析法,取代了基於假想的易出錯的方法。這種預測發生的頻率非常高,以至於我們經常忽略了它的創新性。當然,它的應用會越來越多。另一個征信機構,益百利(Experian)有一種服務,可以根據個人的信用卡交易記錄預測個人的收入情況。通過分析公司擁有的信用卡曆史記錄數據庫和美國國稅局的匿名稅收數據,益百利能夠得出評分結果。所以有時候,通過代理取得數據信息比自己去操作煩瑣的程序要便宜得多。同時還有另一個征信機構出售“支付能力指數”和“可支配支出指數”,這些指數是用來預測一個人的支付能力的。相關關係的運用更加廣泛了。中英人壽保險有限公司(Aviva)是一家大型保險公司,他們想利用信用報告和顧客市場分析數據來作為部分申請人的血液和尿液分析的關聯物。這些分析結果被用來找出更有可能患高血壓、糖尿病和抑鬱症的人。其中用來分析的數據包括好幾百種生活方式的數據,比如愛好、常瀏覽的網站、常看的節目、收入估計等。Aviva的預測模型是由德勤谘詢公司發明的,公司覺得這可以用來發現健康隱患。其他保險公司如英國保誠保險有限公司(Prudentia)和美國國際集團(AIG)都承認它們也在考慮類似的方法。好處就是,申請者不再需要提供血液和尿液樣本了,因為大家都不太喜歡做這個事情。有些人可能會覺得這種方法聽起來很恐怖,這些公司似乎可以利用任何網絡上的信息。這會讓人們下次登陸極限運動網站和坐到電視機前觀看幽默情景劇前三思而後行,因為不想因此支付更多的保險費用。讓我們在接觸任何信息的時候(同時也產生可能被分析的數據)都膽戰心驚是一件非常糟糕的事情。但另一方麵,這個係統有助於更多的人得到保險,這對於社會和保險公司都是有好處的。在社會環境下尋找關聯物隻是大數據分析法采取的一種方式。比方說,一種稱為預測分析法的方法就被廣泛地應用於商業領域,它可以預測事件的發生。這可以指一個能發現可能的流行歌曲的算法係統——音樂界廣泛采用這種方法來確保它們看好的歌曲真的會流行;也可以指那些用來防止機器失效和建築倒塌的方法。現在,在機器、發動機和橋梁等基礎設施上放置傳感器變得越來越平常了,這些傳感器被用來記錄散發的熱量、振幅、承壓和發出的聲音等。一個東西要出故障,不會是瞬間的,而是慢慢地出問題的。通過收集所有的數據,我們可以預先捕捉到事物要出故障的信號,比方說發動機的嗡嗡聲、引擎過熱都說明它們可能要出故障了。係統把這些異常情況與正常情況進行對比,就會知道什麼地方出了毛病。通過儘早地發現異常,係統可以提醒我們在故障之前更換零件或者修複問題。無獨有偶,橋梁和建築物上也被安裝了傳感器來監測磨損程度。大型化工廠和提煉廠也安裝了傳感器,因為一旦設備的某一個零件有問題,就隻有在更換了零件之後生產才能繼續進行。預測性分析並不能解釋故障可能會發生的原因,隻會告訴你存在什麼問題,也就說它並不能告訴你引擎過熱是因為什麼,磨損的風扇皮帶?沒擰緊的螺帽?沒有答案。同樣的方法也可以運用在人身上。醫院使用醫療設備在病人身上裝上各種管線同時得到大量的數據。心電圖每秒鐘就能產生1000個讀數。但是隻有部分的數據是被保存使用的,大部分都束之高閣了,即使這些數據都能在一定程度上表現出病人的情況。當與其他病人的數據一起考慮的時候,它們就能顯現出哪些治療方法是有效的。安大略理工大學的卡羅琳·麥格雷戈(Carolyn McGregor)博士和一支研究隊伍與IBM一起和很多醫院合作,用一個軟件來監測處理即時的病人信息,然後把它用於早產兒的病情診斷。係統會監控16個不同地方的數據,比如心率、呼吸、體溫、血壓和血氧含量,這些數據可以達到每秒鐘1260個數據點之多。在明顯感染症狀出現的24小時之前,係統就能監測到早產兒細微的身體變化發出的感染信號。麥格雷戈博士說:“你無法用肉眼看到,但計算機可以看到。”提早知道病情,醫生就能夠提早治療,也能更早地知道某種療法是否有效,這一切都有利於病人的康複。所以,未來這個係統估計會應用到所有病人身上。這個係統可能不會自己做決定,但是它已經做到了機器能做到的最好,那就是幫助人類做到最好。驚人的是,麥格雷戈博士的大數據分析法能發現一些與醫生的傳統看法相違背的相關關係。比如說她發現,穩定的生命體征表明病人發生了嚴重的感染。這很奇怪,因為醫生一般認為惡化的疼痛才是全麵感染的征兆。你可以想象,以前醫生都是下班的時候看看嬰兒床旁邊的記錄本,覺得病情穩定了,也就下班回家了。隻有半夜護士的緊急電話才讓他們知道大事不好了,他們的直覺犯了大錯誤。但是我們也不太確定,我們不知道具體原因,隻是看到了相關關係。這需要海量的數據並且找出隱含的相關性才能發現。但是,大數據挽救了很多生命,這是毫無疑問的。在小數據時代,相關關係分析和因果分析都不容易,都耗費巨大,都要從建立假設開始。然後我們會進行實驗——這個假設要麼被證實要麼被推翻。但由於兩者都始於假設,這些分析就都有受偏見影響的可能,而且極易導致錯誤。與此同時,用來做相關關係分析的數據很難得到,收集這些數據時也耗資巨大。現今,可用的數據如此之多,也就不存在這些難題了。當然,還有一種不同的情況也逐漸受到了人們的重視。在小數據時代,由於計算機能力的不足,大部分相關關係分析僅限於尋求線性關係。這個情況隨著數據的增加肯定會發生改變。事實上,實際情況遠比我們所想象的要複雜。經過複雜的分析,我們能夠發現數據的“非線性關係”。當相關關係變得更複雜時,一切就更混亂了。比如,各地麻疹疫苗接種率的差彆與人們在醫療保健上的花費似乎有關聯。但是,最近哈佛與麻省理工的聯合研究小組發現,這種關聯不是簡單的線性關係,而是一個複雜的曲線圖。和預期相同的是,隨著人們在醫療上花費的增多,麻疹疫苗接種率的差彆會變小;但令人驚訝的是,當增加到一定程度時,這種差彆又會變大。發現這種關係對公共衛生官員來說非常重要,但是普通的線性關係分析師是無法捕捉到這個重要信息的。如今,專家們正在研發能發現並對比分析非線性關係的必要技術工具(2011年,Reshef等人在《科學》上發表了題為“Deteg Novel Associations in Large Datasets”一文,探討了度量雙變量複雜相關行為的新方法。截至目前,該方法還不能處理多變量相關。——譯者注)。一係列飛速發展的新技術和新軟件也從多方麵提高了相關關係分析工具發現非因果關係的能力,這就好比立體派畫家同時從多個角度來表現女性臉龐的手法。“網絡分析行業的出現就是一個最明顯的例子。多虧了它,讓描繪、測量、計算各節點之間的關係變成了可能,我們可以從Facebook上認識更多的朋友,還可以知道法庭上的一些判決的先例,以及誰給誰打了電話。總之,這些工具為回答非因果關係及經驗性的問題提供了新的途徑。”在大數據時代,這些新的分析工具和思路為我們提供了一係列新的視野和有用的預測,我們看到了很多以前不曾注意到的聯係,還掌握了以前無法理解的複雜技術和社會動態。但最重要的是,這聽起來似乎有點違背常理。畢竟,人們都希望通過因果關係來了解這個世界。我們也相信,隻要仔細觀察,就會發現萬事萬物皆有因緣。了解事情的起因難道不是我們最大的願望嗎?在哲學界,關於因果關係是否存在的爭論已經持續了幾個世紀。畢竟,如果凡事皆有因果的話,那麼我們就沒有決定任何事的自由了。如果說我們做的每一個決定或者每一個想法都是其他事情的結果,而這個結果又是由其他原因導致的,以此循環往複,那麼就不存在人的自由意誌這一說了——所有的生命軌跡都隻是受因果關係的控製了。因此,對於因果關係在世間所扮演的角色,哲學家們爭論不休,有時他們認為,這是與自由意誌相對立的。當然,關於理論的爭辯並不是我們要研究的重點。首先,我們的直接願望就是了解因果關係。即使無因果聯係存在,我們也還是會假定其存在。研究證明,這隻是我們的認知方式,與每個人的文化背景、生長環境以及教育水平是無關的。當我們看到兩件事情接連發生的時候,我們會習慣性地從因果關係的角度來看待它們。看看下麵的三句話:“弗雷德的父母遲到了;供應商快到了;弗雷德生氣了。”我們讀到這裡時,可能立馬就會想到弗雷德生氣並不是因為供應商快到了,而是他父母遲到了的緣故。實際上,我們也不知道到底是什麼情況。即便如此,我們還是不禁認為這些假設的因果關係是成立的。普林斯頓大學心理學專家,同時也是2002年諾貝爾經濟學獎得主丹尼爾·卡尼曼(Daniel Kahneman)就是用這個例子證明了人有兩種思維模式。快速思維模式使人們偏向用因果聯係來看待周圍的一切,即使這種關係並不存在。這是我們對已有的知識和信仰的執著。在古代,這種快速思維模式是很有用的,它能幫助我們在信息量缺乏卻必須快速做出決定的危險情況下化險為夷。但是,通常這種因果關係都是並不存在的。卡尼曼指出,平時生活中,由於惰性,我們很少慢條斯理地思考問題。所以快速思維模式就占據了上風。因此,我們會經常臆想出一些因果關係,最終導致了對世界的錯誤理解。“父母經常告訴孩子,天冷時不戴帽子和手套就會感冒。然而,事實上,感冒和穿戴之間卻沒有直接的聯係。有時,我們在某個餐館用餐後生病了的話,我們就會自然而然地覺得這是餐館食物的問題,以後可能就不再去這家餐館了。事實上,我們肚子痛也許是因為其他的傳染途徑,比如和患者握過手之類的。然而,我們的快速思維模式使我們直接將其歸於任何我們能在第一時間想起來的因果關係,因此,這經常導致我們做出錯誤的決定。”與常識相反,經常憑借直覺而來的因果關係並沒有幫助我們加深對這個世界的理解。很多時候,這種認知捷徑隻是給了我們一種自己已經理解的錯覺,但實際上,我們因此完全陷入了理解誤區之中。就像采樣是我們無法處理全部數據時的捷徑一樣,這種找因果關係的方法也是我們大腦用來避免辛苦思考的捷徑。在小數據時代,很難證明由直覺而來的因果聯係是錯誤的。現在,情況不一樣了。將來,大數據之間的相關關係,將經常會用來證明直覺的因果聯係是錯誤的。最終也能表明,統計關係也不蘊含多少真實的因果關係。總之,我們的快速思維模式將會遭受各種各樣的現實考驗。令人欣喜的是,為了更好地了解世界,我們會因此更加努力地思考。但是,即使是我們用來發現因果關係的第二種思維方式——慢性思維,也將因為大數據之間的相關關係迎來大的改變。日常生活中,我們習慣性地用因果關係來考慮事情,所以會認為,因果聯係是淺顯易尋的。但事實卻並非如此。與相關關係不一樣,即使用數學這種比較直接的方式,因果聯係也很難被輕易證明。我們也不能用標準的等式將因果關係表達清楚。因此,即使我們慢慢思考,想要發現因果關係也是很困難的。因為我們已經習慣了信息的匱乏,故此亦習慣了在少量數據的基礎上進行推理思考,即使大部分時候很多因素都會削弱特定的因果關係。“就拿狂犬疫苗這個例子來說,1885年7月6日,法國化學家路易·巴斯德(Louis Pasteur)接診了一個9歲的小孩約瑟夫·梅斯特(Joseph Meister),他被帶有狂犬病毒的狗咬了。那時,巴斯德剛剛研發出狂犬疫苗,也實驗驗證過效果了。梅斯特的父母就懇求巴斯德給他們的兒子注射一針。巴斯德做了,梅斯特活了下來。發布會上,巴斯德因為把一個小男孩從死神手中救出而大受褒獎。”但真的是因為他嗎?事實證明,一般來說,人被狂犬病狗咬後患上狂犬病的概率隻有七分之一。即使巴斯德的疫苗有效,這也隻適用於七分之一的案例中。無論如何,就算沒有狂犬疫苗,這個小男孩活下來的概率還是有85%。在這個例子中,大家都認為是注射疫苗救了梅斯特一命。但這裡卻有兩個因果關係值得商榷。第一個是疫苗和狂犬病毒之間的因果關係,第二個就是被帶有狂犬病毒的狗咬和患狂犬病之間的因果關係。即便是說疫苗能夠醫好狂犬病,第二個因果關係也隻適用於極少數情況。不過,科學家已經克服了用實驗來證明因果關係的難題。實驗是通過是否有誘因這兩種情況,分彆來觀察所產生的結果是不是和真實情況相符,如果相符就說明確實存在因果關係。這個衡量假說的驗證情況控製得越嚴格,你就會發現因果關係越有可能是真實存在的。因此,與相關關係一樣,因果關係被完全證實的可能性幾乎是沒有的,我們隻能說,某兩者之間很有可能存在因果關係。但兩者之間又有不同,證明因果關係的實驗要麼不切實際,要麼違背社會倫理道德。比方說,我們怎麼從5億詞條中找出和流感傳播最相關的呢?我們難道真能為了找出被咬和患病之間的因果關係而置成百上千的病人的生命於不顧嗎?因為實驗會要求把部分病人當成未被咬的“控製組”成員來對待,但是就算給這些病人打了疫苗,我們又能保證萬無一失嗎?而且就算這些實驗可以操作,操作成本也非常的昂貴。不像因果關係,證明相關關係的實驗耗資少,費時也少。與之相比,分析相關關係,我們既有數學方法,也有統計學方法,同時,數字工具也能幫我們準確地找出相關關係。相關關係分析本身意義重大,同時它也為研究因果關係奠定了基礎。通過找出可能相關的事物,我們可以在此基礎上進行進一步的因果關係分析,如果存在因果關係的話,我們再進一步找出原因。這種便捷的機製通過嚴格的實驗降低了因果分析的成本。我們也可以從相互聯係中找到一些重要的變量,這些變量可以用到驗證因果關係的實驗中去。可是,我們必須非常認真。“例如,Kaggle,一家為所有人提供數據挖掘競賽平台的公司,舉辦了關於二手車的質量競賽。二手車經銷商將二手車數據提供給參加比賽的統計學家,統計學家們用這些數據建立一個算法係統來預測經銷商拍賣的哪些車有可能出現質量問題。相關關係分析表明,橙色的車有質量問題的可能性隻有其他車的一半。”當我們讀到這裡的時候,不禁也會思考其中的原因。難道是因為橙色車的車主更愛車,所以車被保護得更好嗎?或是這種顏色的車子在製造方麵更精良些嗎?還是因為橙色的車更顯眼、出車禍的概率更小,所以轉手的時候,各方麵的性能保持得更好?馬上,我們就陷入了各種各樣謎一樣的假設中。若要找出相關關係,我們可以用數學方法,但如果是因果關係的話,這卻是行不通的。所以,我們沒必要一定要找出相關關係背後的原因,當我們知道了“是什麼”的時候,“為什麼”其實沒那麼重要了,否則就會催生一些滑稽的想法。比方說上麵提到的例子裡,我們是不是應該建議車主把車漆成橙色呢?畢竟,這樣就說明車子的質量更過硬啊!考慮到這些,如果把以確鑿數據為基礎的相關關係和通過快速思維構想出的因果關係相比的話,前者就更具有說服力。但在越來越多的情況下,快速清晰的相關關係分析甚至比慢速的因果分析更有用和更有效。慢速的因果分析集中體現為通過嚴格控製的實驗來驗證的因果關係,而這必然是非常耗時耗力的。近年來,科學家一直在試圖減少這些實驗的花費,比如說,通過巧妙地結合相似的調查,做成“類似實驗”。這樣一來,因果關係的調查成本就降低了,但還是很難與相關關係體現的優越性相抗衡。還有,正如我們之前提到的,在專家進行因果關係的調查時,相關關係分析本來就會起到幫助的作用。因果關係還是有用的,但是它將不再被看成是意義來源的基礎。在大數據時代,即使很多情況下,我們依然指望用因果關係來說明我們所發現的相互聯係,但是,我們知道因果關係隻是一種特殊的相關關係。相反,大數據推動了相關關係分析。相關關係分析通常情況下能取代因果關係起作用,即使不可取代的情況下,它也能指導因果關係起作用。曼哈頓沙井蓋(即下水道的修檢口)的爆炸就是一個很好的例子。每年,因沙井蓋內部失火,紐約每年有很多沙井蓋會發生爆炸。重達300磅的沙井蓋在轟然塌在地上之前可以衝出幾層樓高。這可不是什麼好事。為紐約提供電力支持的聯合愛迪生電力公司( Edison)每年都會對沙井蓋進行常規檢查和維修。過去,這完全看運氣,如果工作人員檢查到的正好是即將爆炸的就最好了,因為沙井蓋爆炸威力可不小。2007年,聯合愛迪生電力公司向哥倫比亞大學的統計學家求助,希望他們通過對一些曆史數據的研究,比如說通過研究以前出現過的問題、基礎設施之間的聯係,進而預測出可能會出現問題並且需要維修的沙井蓋。如此一來,它們就隻要把自己的人力物力集中在維修這些沙井蓋上。這是一個複雜的大數據問題。光在紐約,地下電纜就有15萬公裡,都足夠環繞地球三周半了。而曼哈頓有大約51000個沙井蓋和服務設施,其中很多設施都是在愛迪生那個時代建成的,而且有二十分之一的電纜在1930年之前就鋪好了。儘管1880以來的數據都保存著,卻很雜亂,因為從沒想過要用來進行數據分析。這些數據都是由會計人員或進行整修的工作人員記錄下來的,因為是手記,所以說這些數據雜亂一點也不為過。比如說,常見的“服務設施”代碼就有38個之多,而計算機算法需要處理的就是這麼混亂的數據:SB,S,S/B,S.B,S?B,S.B.,SBX,S/BX,SB/X,S/XB,/SBX,S.BX,S&BX,S?BX,S BX,S/B/X,S BOX,SVBX,SERV BX,SERV-BOX,SERV/BOX,SERVICE BOX……負責這個項目的統計學家辛西亞·魯丁(thia Rudin)回憶道:“乍看這些數據的時候,我們從未想過能從這些未經處理的數據中找出想要的信息。我打印了一個關於所有電纜的表格。如果把這個表格卷起來的話,除非你在地上拖,不然你絕對提不起它來。而我們需要處理的就是這麼多沒有處理過的數據。隻有理解了這些數據,才能從中淘金,並傾己所有創建一個好的預測模型。”魯丁和她的同事必須在工作中使用所有的數據,而不能是樣本,因為說不定,這成千上萬個沙井蓋中的某一個就是一個定時炸彈,所以隻有使用“樣本=總體”的方法才可以。雖然找出因果關係也是不錯的,但是這可能需要一個世紀之久,而且還不一定找得對。要完成這項任務,比較好的辦法就是,找出它們之間的相關關係。相比“為什麼”,她更關心“是什麼”。但是她也知道當麵對聯合愛迪生電力公司高層的時候,她需要證明選擇方案的正確性。預測可能是由機器完成的,但是消費者是人類,而人就習慣性地想通過找出原因來理解事物。魯丁希望儘快找到整理這些數據的便捷方法。她們將雜亂的數據整理好給機器處理,由此發現了大型沙井蓋爆炸的106種預警情況。在布朗克斯(Bronx)的電網測試中,他們對2008年中期之前的數據都進行了分析,並利用這些數據預測了2009年會出現問題的沙井蓋。預測效果非常好,在他們列出的前10%的高危沙井蓋名單裡,有44%的沙井蓋都發生了嚴重的事故。最終,最重要的因素是這些電纜的使用年限和有沒有出現過問題。諷刺的是,這個發現非常有意義,因為聯合愛迪生電力公司的高層們可以在此基礎上,迅速進行沙井蓋事故可能性排序。但是,這些因素看起來會不會太過明顯了?好吧,既是又不是。因為一方麵,就像數學家鄧肯·沃茨(Dun Watts)說的,“一旦你知道了結果,一切都很容易。”但是另一方麵,我們不能忘記最開始的時候我們可是找出了106種預警情況。如何權衡以及優先修理成千上萬個沙井蓋中的哪一個,這不是那麼容易做出決定的,因為各種各樣的因素加入到了這個龐大的數據庫中,而且這些數據記錄的方式使得它本來就不適合處理分析。這個例子說明了數據正在以新的方式幫助我們解決現實生活中的難題。在小數據時代,我們會假想世界是怎麼運作的,然後通過收集和分析數據來驗證這種假想。在不久的將來,我們會在大數據的指導下探索世界,不再受限於各種假想。我們的研究始於數據,也因為數據我們發現了以前不曾發現的聯係。假想通常來自自然理論或社會科學,它們也是幫助我們解釋和預測周遭世界的基礎。隨著由假想時代到數據時代的過渡,我們也很可能認為我們不再需要理論了。2008年,《連線》雜誌主編克裡斯·安德森(Chris Anderson)就指出:“數據爆炸使得科學的研究方法都落伍了。”後來,他又在《拍字節時代》(The Petabyte Age)的封麵故事中講到,大量的數據從某種程度上意味著“理論的終結”。安德森也表示,用一係列的因果關係來驗證各種猜想的傳統研究範式已經不實用了,如今它已經被無需理論指導的純粹的相關關係研究所取代。“為了支撐自己的觀點,安德森闡述了量子物理學已變成一門純理論學科的原因,就是因為實驗複雜、耗費多而且不可行。他潛在的觀點就是,量子物理學的理論已經脫離實際。(評價自己不了解的學科,一定要謙虛謹慎,最好是不要做這樣的評價。其實,目前的電子產業、納米加工以及大部分先進的醫療技術都直接來源於量子理論。——譯者注)他提到了穀歌的搜索引擎和基因排序工程,指出:“現在已經是一個有海量數據的時代,應用數學已經取代了其他的所有學科工具。而且隻要數據足夠,就能說明問題。如果你有一拍字節的數據,隻要掌握了這些數據之間的相關關係,一切就都迎刃而解了。””這篇文章引發了激烈的爭論,雖然安德森本人很快就意識到自己的言辭過於激烈了,但是他的觀點確實值得深思。安德森的核心思想是,直到目前為止,我們一直都是把理論應用到實踐中來分析和理解世界,而如今處在大數據時代,我們不再需要理論了,隻要關注數據就足夠了。這就意味著所有的普遍規則都不重要了,比方說世界的運作、人類的行為、顧客買什麼、東西什麼時候會壞等。如今,重要的就是數據分析,它可以揭示一切問題。大數據是在理論的基礎上形成的。比方說,大數據分析就用到了統計和數學理論,有時候也會用到計算機科學理論。是的,這不是關於像地心引力這樣特定現象的產生原因的理論,但是無論如何這依然是理論。而且如我們所見,建立在這些理論上的大數據分析模式是實現大數據預測能力的重要因素。事實上,就是首先就是關於我們怎麼收集數據。我們會不會僅僅看數據收集的方便程度來決定呢?或者看數據收集的成本?我們做這些決定的時候就被理論所影響著,而就如達納·博伊德(Danah Boyd)和凱特·克勞福德(Kate Crawford)說的,我們的選擇一定程度上決定了結果。畢竟,穀歌是用檢索詞來預測流感而不是鞋碼。同樣,我們在分析數據的時候,也依賴於理論來選擇我們使用的工具。最後,我們解讀研究結果的時候同樣會使用理論。大數據時代絕對不是一個理論消亡的時代,相反地,理論貫穿於大數據分析的方方麵麵。作為第一提出問題的人,安德森應該獲得掌聲——儘管他的答案不怎麼樣!大數據絕不會叫囂“理論已死”,但它毫無疑問會從根本上改變我們理解世界的方式。很多舊有的習慣將被顛覆,很多舊有的製度將麵臨挑戰。高科技行業裡的很多人認為是依靠新的工具,從高速芯片到高效軟件等。當然,這可以理解為因為他們自己是工具創造者。這些問題固然重要,但不是我們需要考慮的問題。大數據趨勢的深層原因,就是海量數據的存在以及越來越多的事物是以數據形式存在的,這也是我們下一章要談論的內容。
03 更好:不是因果關係 而是相關關係(1 / 1)