“大數據開啟了一次重大的時代轉型。就像望遠鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測微生物一樣,大數據正在改變我們的生活以及理解世界的方式,成為新發明和新服務的源泉,而更多的改變正蓄勢待發……”2009年出現了一種新的流感病毒。這種甲型H1N1流感結合了導致禽流感和豬流感的病毒的特點,在短短幾周之內迅速傳播開來。全球的公共衛生機構都擔心一場致命的流行病即將來襲。有的評論家甚至警告說,可能會爆發大規模流感,類似於1918年在西班牙爆發的影響了5億人口並奪走了數千萬人性命的大規模流感。更糟糕的是,我們還沒有研發出對抗這種新型流感病毒的疫苗。公共衛生專家能做的隻是減慢它傳播的速度。但要做到這一點,他們必須先知道這種流感出現在哪裡。美國,和所有其他國家一樣,都要求醫生在發現新型流感病例時告知疾病控製與預防中心。但由於人們可能患病多日實在受不了了才會去醫院,同時這個信息傳達回疾控中心也需要時間,因此,通告新流感病例時往往會有一兩周的延遲。而且,疾控中心每周隻進行一次數據彙總。然而,對於一種飛速傳播的疾病,信息滯後兩周的後果將是致命的。這種滯後導致公共衛生機構在疫情爆發的關鍵時期反而無所適從。在甲型H1N1流感爆發的幾周前,互聯網巨頭穀歌公司的工程師們在《自然》雜誌上發表了一篇引人注目的論文。它令公共衛生官員們和計算機科學家們感到震驚。文中解釋了穀歌為什麼能夠預測冬季流感的傳播:不僅是全美範圍的傳播,而且可以具體到特定的地區和州。穀歌通過觀察人們在網上的搜索記錄來完成這個預測,而這種方法以前一直是被忽略的。穀歌保存了多年來所有的搜索記錄,而且每天都會收到來自全球超過30億條的搜索指令,如此龐大的數據資源足以支撐和幫助它完成這項工作。穀歌公司把5000萬條美國人最頻繁檢索的詞條和美國疾控中心在2003年至2008年間季節性流感傳播時期的數據進行了比較。他們希望通過分析人們的搜索記錄來判斷這些人是否患上了流感,其他公司也曾試圖確定這些相關的詞條,但是他們缺乏像穀歌公司一樣龐大的數據資源、處理能力和統計技術。雖然穀歌公司的員工猜測,特定的檢索詞條是為了在網絡上得到關於流感的信息,如“哪些是治療咳嗽和發熱的藥物”,但是找出這些詞條並不是重點,他們也不知道哪些詞條更重要。更關鍵的是,他們建立的係統並不依賴於這樣的語義理解。他們設立的這個係統唯一關注的就是特定檢索詞條的使用頻率與流感在時間和空間上的傳播之間的聯係。穀歌公司為了測試這些檢索詞條,總共處理了4.5億個不同的數學模型。在將得出的預測與2007年、2008年美國疾控中心記錄的實際流感病例進行對比後,穀歌公司發現,他們的軟件發現了45條檢索詞條的組合,將它們用於一個特定的數學模型後,他們的預測與官方數據的相關性高達97%。和疾控中心一樣,他們也能判斷出流感是從哪裡傳播出來的,而且判斷非常及時,不會像疾控中心一樣要在流感爆發一兩周之後才可以做到。所以,2009年甲型H1N1流感爆發的時候,與習慣性滯後的官方數據相比,穀歌成為了一個更有效、更及時的指示標。公共衛生機構的官員獲得了非常有價值的數據信息。驚人的是,穀歌公司的方法甚至不需要分發口腔試紙和聯係醫生——它是建立在大數據的基礎之上的。這是當今社會所獨有的一種新型能力:基於這樣的技術理念和數據儲備,下一次流感來襲的時候,世界將會擁有一種更好的預測工具,以預防流感的傳播。大數據不僅改變了公共衛生領域,整個商業領域都因為大數據而重新洗牌。購買飛機票就是一個很好的例子。2003年,奧倫·埃齊奧尼(Orezioni)準備乘坐從西雅圖到洛杉磯的飛機去參加弟弟的婚禮。他知道飛機票越早預訂越便宜,於是他在這個大喜日子來臨之前的幾個月,就在網上預訂了一張去洛杉磯的機票。在飛機上,埃齊奧尼好奇地問鄰座的乘客花了多少錢購買機票。當得知雖然那個人的機票比他買得更晚,但是票價卻比他便宜得多時,他感到非常氣憤。於是,他又詢問了另外幾個乘客,結果發現大家買的票居然都比他的便宜。對大多數人來說,這種被敲竹杠的感覺也許會隨著他們走下飛機而消失。然而,埃齊奧尼是美國最有名的計算機專家之一,從他擔任華盛頓大學人工智能項目的負責人開始,他創立了許多在今天看來非常典型的大數據公司,而那時候還沒有人提出“大數據”這個概念。1994年,埃齊奧尼幫助創建了最早的互聯網搜索引擎MetaCrawler,該引擎後來被InfoSpace公司收購。他聯合創立了第一個大型比價網站,後來把它賣給了Excite公司。他創立的從文本中挖掘信息的公司ClearForest則被路透社收購了。在他眼中,世界就是一係列的大數據問題,而且他認為自己有能力解決這些問題。作為哈佛大學首屆計算機科學專業的本科畢業生,自1986年畢業以來,他也一直致力於解決這些問題。飛機著陸之後,埃齊奧尼下定決心要幫助人們開發一個係統,用來推測當前網頁上的機票價格是否合理。作為一種商品,同一架飛機上每個座位的價格本來不應該有差彆。但實際上,價格卻千差萬彆,其中緣由隻有航空公司自己清楚。埃齊奧尼表示,他不需要去解開機票價格差異的奧秘。他要做的僅僅是預測當前的機票價格在未來一段時間內會上漲還是下降。這個想法是可行的,但操作起來並不是那麼簡單。這個係統需要分析所有特定航線機票的銷售價格並確定票價與提前購買天數的關係。如果一張機票的平均價格呈下降趨勢,係統就會幫助用戶做出稍後再購票的明智選擇。反過來,如果一張機票的平均價格呈上漲趨勢,係統就會提醒用戶立刻購買該機票。換言之,這是埃齊奧尼針對9000米高空開發的一個加強版的信息預測係統。這確實是一個浩大的計算機科學項目。不過,這個項目是可行的。於是,埃齊奧尼開始著手啟動這個項目。埃齊奧尼創立了一個預測係統,它幫助虛擬的乘客節省了很多錢。這個預測係統建立在41天之內的12000個價格樣本基礎之上,而這些數據都是從一個旅遊網站上爬取過來的。這個預測係統並不能說明原因,隻能推測會發生什麼。也就是說,它不知道是哪些因素導致了機票價格的波動。機票降價是因為有很多沒賣掉的座位、季節性原因,還是所謂的“周六晚上不出門”,它都不知道。這個係統隻知道利用其他航班的數據來預測未來機票價格的走勢。“買還是不買,這是一個問題。”埃齊奧尼沉思著。他給這個研究項目取了一個非常貼切的名字,叫“哈姆雷特”。這個小項目逐漸發展成為一家得到了風險投資基金支持的科技創業公司,名為Farecast。通過預測機票價格的走勢以及增降幅度,Farecast票價預測工具能幫助消費者抓住最佳購買時機,而在此之前還沒有其他網站能讓消費者獲得這些信息。這個係統為了保障自身的透明度,會把對機票價格走勢預測的可信度標示出來,供消費者參考。係統的運轉需要海量數據的支持。為了提高預測的準確性,埃齊奧尼找到了一個行業機票預訂數據庫。而係統的預測結果是根據美國商業航空產業中,每一條航線上每一架飛機內的每一個座位一年內的綜合票價記錄而得出的。如今,Farecast已經擁有驚人的約2000億條飛行數據記錄。利用這種方法,Farecast為消費者節省了一大筆錢。(有趣的是,這些飛行記錄和穀歌的搜索記錄一樣,也可以用來預測和評估疾病的流行。有興趣的讀者可以參考2010年第12期《科學通報》上名為“H1N1甲型流感全球航空傳播與早期預警研究”的研究論文以及2011年Bajardi等人在PLoS ONE上發表的名為“Human Mobility works,Travel Restris,and the Global Spread of 2009 H1N1 Pandemic”的研究論文。——譯者注)棕色的頭發,露齒的笑容,無邪的麵孔,這就是奧倫·埃齊奧尼。他看上去完全不像是一個會讓航空業損失數百萬潛在收入的人。但事實上,他的目光放得更長遠。2008年,埃齊奧尼計劃將這項技術應用到其他領域,比如賓館預訂、二手車購買等。隻要這些領域內的產品差異不大,同時存在大幅度的價格差和大量可運用的數據,就都可以應用這項技術。但是在他實現計劃之前,微軟公司找上了他並以1.1億美元的價格收購了Farecast公司。而後,這個係統被並入必應搜索引擎。Farecast是大數據公司的一個縮影,也代表了當今世界發展的趨勢。五年或者十年之前,奧倫·埃齊奧尼是無法成立這樣的公司的。他說:“這是不可能的。”那時候他所需要的計算機處理能力和存儲能力太昂貴了!雖說技術上的突破是這一切得以發生的主要原因,但也有一些細微而重要的改變正在發生,特彆是人們關於如何使用數據的理念。人們不再認為數據是靜止和陳舊的。但在以前,一旦完成了收集數據的目的之後,數據就會被認為已經沒有用處了。比方說,在飛機降落之後,票價數據就沒有用了(對穀歌而言,則是一個檢索命令完成之後)。(設計人員如果沒有大數據的理念,就會丟失掉很多有價值的數據。譬如中國某城市的公交車因為價格不依賴於起點和終點,所以能夠反映重要通勤信息的數據被工作人員“自作主張”地丟棄了。——譯者注)信息社會所帶來的好處是顯而易見的:每個人口袋裡都揣有一部手機,每台辦公桌上都放有一台電腦,每間辦公室內都擁有一個大型局域網。但是,信息本身的用處卻並沒有如此引人注目。半個世紀以來,隨著計算機技術全麵融入社會生活,信息爆炸已經積累到了一個開始引發變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息總量的變化還導致了信息形態的變化——量變引發了質變。最先經曆信息爆炸的學科,如天文學和基因學,創造出了“大數據”這個概念(有興趣的讀者可以參考2008年9月4日《自然》推出的名為“大數據”的專刊。——譯者注)。如今,這個概念幾乎應用到了所有人類致力於發展的領域中。大數據並非一個確切的概念。最初,這個概念是指需要處理的信息量過大,已經超出了一般電腦在處理數據時所能使用的內存量,因此工程師們必須改進處理數據的工具。這導致了新的處理技術的誕生,例如穀歌的MapReduce和開源Hadoop平台(最初源於雅虎)。這些技術使得人們可以處理的數據量大大增加。更重要的是,這些數據不再需要用傳統的數據庫表格來整齊地排列——一些可以消除僵化的層次結構和一致性(這些都是傳統數據庫結構化查詢語言(SQL)的要求,非關係型數據庫(NoSQL)不再有這些要求。——譯者注)的技術也出現了。同時,因為互聯網公司可以收集大量有價值的數據,而且有利用這些數據的強烈的利益驅動力,所以互聯網公司順理成章地成為了最新處理技術的領頭實踐者。它們甚至超過了很多有幾十年經驗的線下公司,成為新技術的領銜使用者。今天,一種可能的方式是,亦是本書采取的方式,認為大數據是人們在大規模數據的基礎上可以做到的事情,而這些事情在小規模數據的基礎上是無法完成的。大數據是人們獲得新的認知、創造新的價值的源泉;大數據還是改變市場、組織機構,以及政府與公民關係的方法。大數據開啟了一次重大的時代轉型。與其他新技術一樣,大數據也必然要經曆矽穀臭名昭著的技術成熟度曲線(技術成熟度曲線又叫技術循環曲線,或者直接叫做炒作周期,是指新技術、新概念在媒體上曝光度隨時間的變化曲線。——譯者注):經過新聞媒體和學術會議的大肆宣傳之後,新技術趨勢一下子跌到穀底,許多數據創業公司變得岌岌可危。當然,不管是過熱期還是幻想破滅期,都非常不利於我們正確理解正在發生的變革的重要性。就像望遠鏡能夠讓我們感受宇宙,顯微鏡能夠讓我們觀測微生物,這種能夠收集和分析海量數據的新技術將幫助我們更好地理解世界——這種理解世界的新方法我們現在才意識到。本書旨在如實表達出大數據的內涵,而不會過分熱捧它。當然,真正的革命並不在於分析數據的機器,而在於數據本身和我們如何運用數據。天文學領域的變化在各個領域都在發生。2003年,人類第一次破譯人體基因密碼的時候,辛苦工作了十年才完成了三十億對堿基對的排序。大約十年之後,世界範圍內的基因儀每15分鐘就可以完成同樣的工作。在金融領域,美國股市每天的成交量高達70億股,而其中三分之二的交易都是由建立在數學模型和算法之上的計算機程序自動完成的。這些程序運用海量數據來預測利益和降低風險。互聯網公司更是要被數據淹沒了。穀歌公司每天要處理超過24拍字節(拍字節,一般記作PB,等於250字節。——譯者注)的數據,這意味著其每天的數據處理量是美國國家圖書館所有紙質出版物所含數據量的上千倍。Facebook這個創立時間不足十年的公司,每天更新的照片量超過1000萬張,每天人們在網站上點擊“喜歡”(Like)按鈕或者寫評論大約有三十億次,這就為Facebook公司挖掘用戶喜好提供了大量的數據線索。與此同時,穀歌子公司YouTube每月接待多達8億的訪客,平均每一秒鐘就會有一段長度在一小時以上的視頻上傳。Twitter上的信息量幾乎每年翻一番,截止到2012年,每天都會發布超過4億條微博。從科學研究到醫療保險,從銀行業到互聯網,各個不同的領域都在講述著一個類似的故事,那就是爆發式增長的數據量。這種增長超過了我們創造機器的速度,甚至超過了我們的想象。我們周圍到底有多少數據?增長的速度有多快?許多人試圖測量出一個確切的數字。儘管測量的對象和方法有所不同,但他們都獲得了不同程度的成功。南加利福尼亞大學安嫩伯格通信學院的馬丁·希爾伯特(Martin Hilbert)進行了一個比較全麵的研究,他試圖得出人類所創造、存儲和傳播的一切信息的確切數目。他的研究範圍不僅包括書籍、圖畫、電子郵件、照片、音樂、視頻(模擬和數字),還包括電子遊戲、電話、汽車導航和信件。馬丁·希爾伯特還以收視率和收聽率為基礎,對電視、電台這些廣播媒體進行了研究。有趣的是,在2007年,所有數據中隻有7%是存儲在報紙、書籍、圖片等媒介上的模擬數據(模擬數據也稱為模擬量,相對於數字量而言,指的是取值範圍是連續的變量或者數值,例如聲音、圖像、溫度、壓力等。模擬數據一般采用模擬信號,例如用一係列連續變化的電磁波或電壓信號來表示。——譯者注),其餘全部是數字數據(數字數據也稱為數字量,相對於模擬量而言,指的是取值範圍是離散的變量或者數值。數字數據則采用數字信號,例如用一係列斷續變化的電壓脈衝(如用恒定的正電壓表示二進製數1,用恒定的負電壓表示二進製數0)或光脈衝來表示。——譯者注)。但在不久之前,情況卻完全不是這樣的。雖然1960年就有了“信息時代”和“數字村鎮”的概念,但實際上,這些概念仍然是相當新穎的。甚至在2000年的時候,數字存儲信息仍隻占全球數據量的四分之一;當時,另外四分之三的信息都存儲在報紙、膠片、黑膠唱片和盒式磁帶這類媒介上。早期數字信息的數量是不多的。對於長期在網上衝浪和購書的人來說,那隻是一個微小的部分。事實上,在1986年的時候,世界上約40%的計算能力都被運用在袖珍計算器上,那時候,所有個人電腦的處理能力之和還沒有所有袖珍計算器處理能力之和高。但是因為數字數據的快速增長,整個局勢很快就顛倒過來了。按照希爾伯特的說法,數字數據的數量每三年多就會翻一倍。相反,模擬數據的數量則基本上沒有增加。事情真的在快速發展。人類存儲信息量的增長速度比世界經濟的增長速度快4倍,而計算機數據處理能力的增長速度則比世界經濟的增長速度快9倍。難怪人們會抱怨信息過量,因為每個人都受到了這種極速發展的衝擊。把眼光放遠一點,我們可以把時下的信息洪流與1439年前後古登堡發明印刷機(據《中國出版史》記載,中國的畢昇早在11世紀40年代就發明了泥活字印刷,遠遠早於古登堡15世紀30年代發明的鉛活字。——編者注)時造成的信息爆炸相對比。曆史學家伊麗莎白·愛森斯坦(Elizabeth Eisenstein)發現,1453—1503年,這50年之間大約有800萬本書籍被印刷,比1200年之前君士坦丁堡建立以來整個歐洲所有的手抄書還要多。換言之,歐洲的信息存儲量花了50年才增長了一倍(當時的歐洲還占據了世界上相當部分的信息存儲份額),而如今大約每三年就能增長一倍。藏書網這種增長意味著什麼呢?彼特·諾維格(Peter N)是穀歌的人工智能專家,也曾任職於美國宇航局噴氣推進實驗室,他喜歡把這種增長與圖畫進行類比。首先,他要我們想想來自法國拉斯科洞穴壁畫上的標誌性的馬。這些畫可以追溯到一萬七千年之前的舊石器時代。然後,想想一張馬的照片,再想想畢加索的畫也可以,看起來和那些洞穴壁畫沒有多大的差彆。事實上,畢加索看到那些洞穴壁畫的時候就曾開玩笑說:“自那以後,我們就再也沒有創造出什麼東西了。”他的話既正確又不完全正確。你回想一下壁畫上的那匹馬。當時要畫一幅馬需要花費很久的時間,而現在不需要那麼久了。這就是一種改變,雖然改變的可能不是最核心的部分——畢竟這仍然是一幅馬的圖像。但是諾維格說,想象一下,現在我們能每秒鐘播放24幅不同形態的馬的圖片,這就是一種由量變導致的質變:一部電影與一幅靜態的畫有本質上的區彆!大數據也一樣,量變導致質變。物理學和生物學都告訴我們,當我們改變規模時,事物的狀態有時也會發生改變。“我們就以納米技術為例。納米技術專注於把東西變小而不是變大。其原理就是當事物到達分子的級彆時,它的物理性質就會發生改變。一旦你知道這些新的性質,你就可以用同樣的原料來做以前無法做的事情。銅本來是用來導電的物質,但它一旦到達納米級彆就不能在磁場中導電了。銀離子具有抗菌性,但當它以分子形式存在的時候,這種性質會消失。一旦到達納米級彆,金屬可以變得柔軟,陶土可以具有彈性。同樣,當我們增加所利用的數據量時,我們就可以做很多在小數據量的基礎上無法完成的事情。”有時候,我們認為約束我們生活的那些限製,對於世間萬物都有著同樣的約束力。事實上,儘管規律相同,但是我們能夠感受到的約束,很可能隻對我們這樣尺度的事物起作用。對於人類來說,唯一一個最重要的物理定律便是萬有引力定律。這個定律無時無刻不在控製著我們。但對於細小的昆蟲來說,重力是無關緊要的。(這是一個美妙有趣的例子,但是對於學習物理的人來說總是有些怪異。顯然,萬有引力一如既往起著作用,不過是因為空氣阻力在不同密度和體積的物體上產生了不同的效果。如果把蟑螂從真空環境的高樓往下扔,恐怕也是凶多吉少。——譯者注)對它們而言,物理宇宙中有效的約束是表麵張力,這個張力可以讓它們在水上自由行走而不會掉下去。但人類對於表麵張力毫不在意。對於萬有引力產生的約束效果而言,生物體的大小是非常重要的。類似地,對於信息而言,規模也是非常重要的。穀歌能夠幾近完美地給出和基於大量真實病例信息所得到的流感情況一致的結果,而且幾乎是實時的,比疾控中心快多了。同樣,Farecast可以預測機票價格的波動,從而讓消費者真正在經濟上獲利。它們之所以如此給力,都因為存在供其分析的數千億計的數據項。儘管我們仍處於大數據時代來臨的前夕,但我們的日常生活已經離不開它了。垃圾郵件過濾器可以自動過濾垃圾郵件,儘管它並不知道“發#票#銷#售”是“發票銷售”的一種變體。交友網站根據個人的性格與之前成功配對的情侶之間的關聯來進行新的配對。具有“自動改正”功能的智能手機通過分析我們以前的輸入,將個性化的新單詞添加到手機詞典裡。然而,對於這些數據的利用還僅僅隻是一個開始。從可以自動轉彎和刹車的汽車,到IBM沃森超級電腦在遊戲節目《危險邊緣》(Jeopardy)中打敗人類來看,這項技術終將改變我們所居住的星球上的許多東西。大數據的核心就是預測。它通常被視為人工智能的一部分,或者更確切地說,被視為一種機器學習。但是這種定義是有誤導性的。大數據不是要教機器像人一樣思考。相反,它是把數學算法運用到海量的數據上來預測事情發生的可能性。一封郵件被作為垃圾郵件過濾掉的可能性,輸入的“teh”應該是“the”的可能性,從一個人亂穿馬路時行進的軌跡和速度來看他能及時穿過馬路的可能性,都是大數據可以預測的範圍。當然,如果一個人能及時穿過馬路,那麼他亂穿馬路時,車子就隻需要稍稍減速就好。這些預測係統之所以能夠成功,關鍵在於它們是建立在海量數據的基礎之上的。此外,隨著係統接收到的數據越來越多,它們可以聰明到自動搜索最好的信號和模式,並自己改善自己。(係統可以通過一種“反饋學習”的機製,利用自己產生的數據判斷自身算法和參數選擇的有效性,並實時進行調整,持續改進自身的表現。——譯者注)在不久的將來,世界許多現在單純依靠人類判斷力的領域都會被計算機係統所改變甚至取代。計算機係統可以發揮作用的領域遠遠不止駕駛和交友,還有更多更複雜的任務。彆忘了,亞馬遜可以幫我們推薦想要的書,穀歌可以為關聯網站排序,Facebook知道我們的喜好,而LinkedIn可以猜出我們認識誰。(這些任務都和個性化技術相關,包括個性化排序和個性化推薦。個性化技術是大數據時代最重要的技術,這裡向專業讀者推薦呂琳媛等人2012年在《Physics Reports》上發表的名為“Reender Systems”的綜述。——譯者注)當然,同樣的技術也可以運用到疾病診斷、推薦治療措施,甚至是識彆潛在犯罪分子上。就像互聯網通過給計算機添加通信功能而改變了世界,大數據也將改變我們生活中最重要的方麵,因為它為我們的生活創造了前所未有的可量化的維度。大數據已經成為了新發明和新服務的源泉,而更多的改變正蓄勢待發。大數據的精髓在於我們分析信息時的三個轉變,這些轉變將改變我們理解和組建社會的方法。這部分內容將在第1章闡述。19世紀以來,當麵臨大量數據時,社會都依賴於采樣分析。但是采樣分析是信息缺乏時代和信息流通受限製的模擬數據時代的產物。以前我們通常把這看成是理所當然的限製,但高性能數字技術的流行讓我們意識到,這其實是一種人為的限製。與局限在小數據範圍相比,使用一切數據為我們帶來了更高的精確性,也讓我們看到了一些以前無法發現的細節——大數據讓我們更清楚地看到了樣本無法揭示的細節信息。這部分內容將在第2章闡述。當我們測量事物的能力受限時,關注最重要的事情和獲取最精確的結果是可取的。如果購買者不知道牛群裡有80頭牛還是100頭牛,那麼交易就無法進行。直到今天,我們的數字技術依然建立在精準的基礎上。我們假設隻要電子數據表格把數據排序,數據庫引擎就可以找出和我們檢索的內容完全一致的檢索記錄。這種思維方式適用於掌握“小數據量”的情況,因為需要分析的數據很少,所以我們必須儘可能精準地量化我們的記錄。在某些方麵,我們已經意識到了差彆。例如,一個小商店在晚上打烊的時候要把收銀台裡的每分錢都數清楚,但是我們不會、也不可能用“分”這個單位去精確度量國民生產總值。隨著規模的擴大,對精確度的癡迷將減弱。達到精確需要有專業的數據庫。針對小數據量和特定事情,追求精確性依然是可行的,比如一個人的銀行賬戶上是否有足夠的錢開具支票。但是,在這個大數據時代,很多時候,追求精確度已經變得不可行,甚至不受歡迎了。當我們擁有海量即時數據時,絕對的精準不再是我們追求的主要目標。大數據紛繁多樣,優劣摻雜,分布在全球多個服務器上。擁有了大數據,我們不再需要對一個現象刨根究底,隻要掌握大體的發展方向即可。當然,我們也不是完全放棄了精確度,隻是不再沉迷於此。適當忽略微觀層麵上的精確度會讓我們在宏觀層麵擁有更好的洞察力。這部分內容將在第3章闡述。尋找因果關係是人類長久以來的習慣。即使確定因果關係很困難而且用途不大,人類還是習慣性地尋找緣由。相反,在大數據時代,我們無須再緊盯事物之間的因果關係,而應該尋找事物之間的相關關係,這會給我們提供非常新穎且有價值的觀點。相關關係也許不能準確地告知我們某件事情為何會發生,但是它會提醒我們這件事情正在發生。在許多情況下,這種提醒的幫助已經足夠大了。如果數百萬條電子醫療記錄顯示橙汁和阿司匹林的特定組合可以治療癌症,那麼找出具體的藥理機製就沒有這種治療方法本身來得重要。同樣,隻要我們知道什麼時候是買機票的最佳時機,就算不知道機票價格瘋狂變動的原因也無所謂了。大數據告訴我們“是什麼”而不是“為什麼”。在大數據時代,我們不必知道現象背後的原因,我們隻要讓數據自己發聲。我們不再需要在還沒有收集數據之前,就把我們的分析建立在早已設立的少量假設的基礎之上。讓數據發聲,我們會注意到很多以前從來沒有意識到的聯係的存在。“例如,對衝基金通過剖析社交網絡Twitter上的數據信息來預測股市的表現;亞馬遜和奈飛(flix)(flix,也常譯作網狸公司。——譯者注)根據用戶在其網站上的類似查詢來進行產品推薦;Twitter,Facebook和LinkedIn通過用戶的社交網絡圖來得知用戶的喜好。”當然,人類從數千年前就開始分析數據。古代美索不達米亞平原的記賬人員為了有效地跟蹤記錄信息發明了書寫。自從聖經時代開始,政府就通過進行人口普查來建立大型的國民數據庫。兩百多年來,精算師們也一直通過搜集大量的數據來進行風險規避。模擬時代的數據收集和分析極其耗時耗力,新問題的出現通常要求我們重新收集和分析數據。數字化的到來使得數據管理效率又向前邁出了重要的一步。數字化將模擬數據轉換成計算機可以讀取的數字數據,使得存儲和處理這些數據變得既便宜又容易,從而大大提高了數據管理效率。過去需要幾年時間才能完成的數據搜集,現在隻要幾天就能完成。但是,光有改變還遠遠不夠。數據分析者太沉浸於模擬數據時代的設想,即數據庫隻有單一的用途和價值,而正是我們使用的技術和方法加深了這種偏見。雖然數字化是促成向大數據轉變的重要原因,但僅有計算機的存在卻不足以實現大數據。我們沒有辦法準確描述現在正在發生的一切,但是在第4章將提到的“數據化”概念可以幫助我們大致了解這次變革。比方說,一個人所在的位置、引擎的振動、橋梁的承重等。我們要通過量化的方法把這些內容轉化為數據。這就使得我們可以嘗試許多以前無法做到的事情,如根據引擎的散熱和振動來預測引擎是否會出現故障。這樣,我們就激發出了這些數據此前未被挖掘的潛在價值。新興技術工具的使用使這一切成為可能。寶貝不止一件,每個數據集內部都隱藏著某些未被發掘的價值。這場發掘和利用數據價值的競賽正開始在全球上演。第5章和第6章將講述大數據如何改變了商業、市場和社會的本質。20世紀,價值已經從實體基建轉變為無形財產,從土地和工廠轉變為品牌和產權。如今,一個新的轉變正在進行,那就是電腦存儲和分析數據的方法取代電腦硬件成為了價值的源泉。數據成為了有價值的公司資產、重要的經濟投入和新型商業模式的基石。雖然數據還沒有被列入企業的資產負債表,但這隻是一個時間問題。雖然有些數據處理技術已經出現了一段時間,但是它們隻為調查局、研究所和世界上的一些巨頭公司所掌握。沃爾瑪和美國第一資本銀行(CapitalOne)率先將大數據運用在了零售業和銀行業,因此改變了整個行業。如今這些技術大多都實現了大眾化。大數據對個人的影響是最驚人的。在一個可能性和相關性占主導地位的世界裡,專業性變得不那麼重要了。行業專家不會消失,但是他們必須與數據表達的信息進行博弈。如同在電影《點球成金》(Moneyball)裡,棒球星探們在統計學家麵前相形見絀——直覺的判斷被迫讓位於精準的數據分析。這將迫使人們調整在管理、決策、人力資源和教育方麵的傳統理念。我們大部分的習俗和慣例都建立在一個預設好的立場上,那就是我們用來進行決策的信息必須是少量、精確並且至關重要的。但是,當數據量變大、數據處理速度加快,而且數據變得不那麼精確時,之前的那些預設立場就不複存在了。此外,因為數據量極為龐大,最後做出決策的將是機器而不是人類自己。第7章將會討論大數據的負麵影響。在了解和監視人類的行為方麵,社會已經有了數千年的經驗。但是,如何來監管一個算法係統呢?在信息化時代的早期,有一些政策專家就看到了信息化給人們的隱私權帶來的威脅,社會也已經建立起了龐大的規則體係來保障個人的信息安全。但是在大數據時代,這些規則都成了無用的馬其諾防線(馬奇諾防線是法國在第一次世界大戰後,為防德軍入侵而在其東北邊境地區構築的築壘配係,以其陸軍部長姓氏命名。1940年5月至6月,德國主力通過阿登山脈,從馬奇諾防線左翼迂回,進抵馬奇諾防線的後方,使防線喪失了作用。“馬奇諾防線”現在用來意指看似表麵堅固,實際毫無價值的東西。——譯者注)。人們自願在網絡上分享信息,而這種分享的能力成為了網絡服務的一個中心特征,而不再是一個需要規避的薄弱點了。對我們而言,危險不再是隱私的泄露,而是被預知的可能性——這些能預測我們可能生病、拖欠還款和犯罪的算法會讓我們無法購買保險、無法貸款、甚至在實施犯罪前就被預先逮捕。顯然,統計把大數據放在了首位,但即便如此,個人意誌是否應該淩駕於大數據之上呢?就像出版印刷行業的發展推動國家立法保護言論自由(在此之前沒有出台類似法律的必要,因為沒有太多的言論需要保護),大數據時代也需要新的規章製度來保衛權勢麵前的個人權利。政府機構和社會在控製和處理數據的方法上必須有全方位的改變。不可否認,我們進入了一個用數據進行預測的時代,雖然我們可能無法解釋其背後的原因。如果一個醫生隻要求病人遵從醫囑,卻沒法說明醫學乾預的合理性的話,情況會怎麼樣呢?實際上,這是依靠大數據取得病理分析的醫生們一定會做的事情。還有司法係統的“合理證據”是不是應該改為“可能證據”呢?如果真是這樣,會對人類自由和尊嚴產生什麼影響呢?我們在大數據時代倡導的一係列規範將在第8章進行介紹。這些規範建立在我們很熟悉的“小數據”時代發展並保留下來的規範的基礎之上。新環境要求舊規範與時俱進。大數據標誌著人類在尋求量化和認識世界的道路上前進了一大步。過去不可計量、存儲、分析和共享的很多東西都被數據化了。擁有大量的數據和更多不那麼精確的數據為我們理解世界打開了一扇新的大門。社會因此放棄了尋找因果關係的傳統偏好,開始挖掘相關關係的好處。尋找原因是一種現代社會的一神論,大數據推翻了這個論斷。但我們又陷入了一個曆史的困境,那就是我們活在一個“上帝已死”的時代。也就是說,我們曾經堅守的信念動搖了。諷刺的是,這些信念正在被“更好”的證據所取代。那麼,從經驗中得來的與證據相矛盾的直覺、信念和迷惘應該充當什麼角色呢?當世界由探求因果關係變成挖掘相關關係,我們怎樣才能既不損壞建立在因果推理基礎之上的社會繁榮和人類前行的基石,又取得實際的進步呢?本書意在解釋我們身在何處,我們從何而來,並且提供當下亟需的指導,以應對眼前的利益和危險。
引言 一場生活、工作與思維的大變革(1 / 1)