02 更雜:不是精確性 而是混雜性(1 / 1)

“執迷於精確性是信息缺乏時代和模擬時代的產物。隻有5%的數據是結構化且能適用於傳統數據庫的。如果不接受混亂,剩下95%的非結構化數據都無法被利用,隻有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶。”在越來越多的情況下,使用所有可獲取的數據變得更為可能,但為此也要付出一定的代價。數據量的大幅增加會造成結果的不準確,與此同時,一些錯誤的數據也會混進數據庫。然而,重點是我們能夠努力避免這些問題。我們從不認為這些問題是無法避免的,而且也正在學會接受它們。這就是由“小數據”到“大數據”的重要轉變之一。對“小數據”而言,最基本、最重要的要求就是減少錯誤,保證質量。因為收集的信息量比較少,所以我們必須確保記錄下來的數據儘量精確。無論是確定天體的位置還是觀測顯微鏡下物體的大小,為了使結果更加準確,很多科學家都致力於優化測量的工具。在采樣的時候,對精確度的要求就更高更苛刻了。因為收集信息的有限意味著細微的錯誤會被放大,甚至有可能影響整個結果的準確性。曆史上很多時候,人們會把通過測量世界來征服世界視為最大的成就。事實上,對精確度的高要求始於13世紀中期的歐洲。那時候,天文學家和學者對時間、空間的研究采取了比以往更為精確的量化方式,用曆史學家阿爾弗雷德·克羅斯比(Alfred Crosby)的話來說就是“測量現實”。我們研究一個現象,是因為我們相信我們能夠理解它。後來,測量方法逐漸被運用到科學觀察、解釋方法中,體現為一種進行量化研究、記錄,並呈現可重複結果的能力。偉大的物理學家開爾文男爵曾說過:“測量就是認知。”這已成為一條至理名言。培根也曾說過:“知識就是力量。”同時,很多數學家以及後來的精算師和會計師都發展了可以準確收集、記錄和管理數據的方法。“19世紀,科技率先發展起來的法國開發了一套能準確計量時間、空間單位的係統,並逐漸成為其他國家普遍采用的標準,這套係統還為後來國際公認的測量條約奠定了基礎,成為測量時代的巔峰。僅半個世紀之後,20世紀20年代,量子力學的發現永遠粉碎了“測量臻於至善”的幻夢。然而,在物理學這個小圈子以外的一些測量工程師和科學家仍沉湎在完美測量的夢中。隨著理性學科,如數學和統計學逐漸影響到商業領域,商業界更加崇尚這種思想。”然而,在不斷湧現的新情況裡,允許不精確的出現已經成為一個新的亮點,而非缺點。因為放鬆了容錯的標準,人們掌握的數據也多了起來,還可以利用這些數據做更多新的事情。這樣就不是大量數據優於少量數據那麼簡單了,而是大量數據創造了更好的結果。同時,我們需要與各種各樣的混亂做鬥爭。混亂,簡單地說就是隨著數據的增加,錯誤率也會相應增加。所以,如果橋梁的壓力數據量增加1000倍的話,其中的部分讀數就可能是錯誤的,而且隨著讀數量的增加,錯誤率可能也會繼續增加。在整合來源不同的各類信息的時候,因為它們通常不完全一致,所以也會加大混亂程度。例如,與服務器處理投訴時的數據進行比較,用語音識彆係統識彆某個呼叫中心接到的投訴會產生一個不太準確的結果,但也是有助於我們把握整個事情的大致情況的。混亂還可以指格式的不一致性,因為要達到格式一致,就需要在進行數據處理之前仔細地清洗數據,而這在大數據背景下很難做到。“大數據”專家帕堤爾(D.J.Patil)指出,I.B.M.、T.J.Watson Labs、Iional Business Maes都可以用來指代IBM,甚至可能有成千上萬種方法稱呼IBM。當然,在萃取或處理數據的時候,混亂也會發生。因為在進行數據轉化的時候,我們是在把它變成另外的事物。比如,我們在對Twitter的信息進行情感分析來預測好萊塢票房的時候,就會出現一定的混亂。其實,混亂的起源和類型本來就是一團亂麻。“假設你要測量一個葡萄園的溫度,但是整個葡萄園隻有一個溫度測量儀,那你就必須確保這個測量儀是精確的而且能夠一直工作。反過來,如果每100棵葡萄樹就有一個測量儀,有些測試的數據可能會是錯誤的,可能會更加混亂,但眾多的讀數合起來就可以提供一個更加準確的結果。因為這裡麵包含了更多的數據,而它不僅能抵消掉錯誤數據造成的影響,還能提供更多的額外價值。”現在想想增加讀數頻率的這個事情。如果每隔一分鐘就測量一下溫度,我們至少還能夠保證測量結果是按照時間有序排列的。如果變成每分鐘測量十次甚至百次的話,不僅讀數可能出錯,連時間先後都可能搞混掉。試想,如果信息在網絡中流動,那麼一條記錄很可能在傳輸過程中被延遲,在其到達的時候已經沒有意義了,甚至乾脆在奔湧的信息洪流中徹底迷失。雖然我們得到的信息不再那麼準確,但收集到的數量龐大的信息讓我們放棄嚴格精確的選擇變得更為劃算。在第一個例子裡,我們為了獲得更廣泛的數據而犧牲了精確性,也因此看到了很多如若不然無法被關注到的細節。在第二個例子裡,我們為了高頻率而放棄了精確性,結果觀察到了一些本可能被錯過的變化。雖然如果我們能夠下足夠多的工夫,這些錯誤是可以避免的,但在很多情況下,與致力於避免錯誤相比,對錯誤的包容會帶給我們更多好處。為了擴大規模,我們接受適量錯誤的存在。正如技術谘詢公司Forrester所認為的,有時得到2加2約等於3.9的結果,也很不錯了。當然,數據不可能完全錯誤,但為了了解大致的發展趨勢,我們願意對精確性做出一些讓步。我們可以在大量數據對計算機其他領域進步的重要性上看到類似的變化。我們都知道,如摩爾定律所預測的,過去一段時間裡計算機的數據處理能力得到了很大的提高。摩爾定律認為,每塊芯片上晶體管的數量每兩年就會翻一倍。這使得電腦運行更快速了,存儲空間更大了。大家沒有意識到的是,驅動各類係統的算法也進步了——美國總統科技顧問委員會的報告顯示,在很多領域這些算法帶來的進步還要勝過芯片的進步。然而,社會從“大數據”中所能得到的,並非來自運行更快的芯片或更好的算法,而是更多的數據。“由於象棋的規則家喻戶曉,且走子限製良多,在過去的幾十年裡,象棋算法的變化很小。計算機象棋程序總是步步為贏是由於對殘局掌握得更好了,(計算機象棋的殘局的確可以做到完美,但其摧枯拉朽的表現主要還不在於殘局。有訓練的棋手都能在6個子的情況下不犯錯誤。這方麵的分析和思索,不妨參照一代棋王加裡·卡斯帕羅夫(Garry Kasparov)的作品,他亦是對壘“深藍”的棋王。——譯者注)而之所以能做到這一點也隻是因為往係統裡加入了更多的數據。實際上,當棋盤上隻剩下六枚棋子或更少的時候,這個殘局得到了全麵的分析,並且接下來所有可能的走法(樣本=總體)都被製入了一個龐大的數據表格(所有包含不超過6子的殘局譜最早是由Unix創造者肯·湯普森發明的,目前的全量殘局譜已經可以包含不超過7子的全量局麵。——譯者注)。這個數據表格如果不壓縮的話,會有一太字節那麼多。所以,計算機在這些重要的象棋殘局中表現得完美無缺和不可戰勝。”大數據在多大程度上優於算法這個問題在自然語言處理上表現得很明顯(這是關於計算機如何學習和領悟我們在日常生活中使用語言的學科方向)。在2000年的時候,微軟研究中心的米歇爾·班科(Michele Banko)和埃裡克·布裡爾(Eric Bill)一直在尋求改進Word程序中語法檢查的方法。但是他們不能確定是努力改進現有的算法、研發新的方法,還是添加更加細膩精致的特點更有效。所以,在實施這些措施之前,他們決定往現有的算法中添加更多的數據,看看會有什麼不同的變化。很多對計算機學習算法的研究都建立在百萬字左右的語料庫基礎上。最後,他們決定往4種常見的算法中逐漸添加數據,先是一千萬字,再到一億字,最後到十億。結果有點令人吃驚。他們發現,隨著數據的增多,4種算法的表現都大幅提高了。後來,班科和布裡爾在他們發表的研究論文中寫到,“如此一來,我們得重新衡量一下更多的人力物力是應該消耗在算法發展上還是在語料庫發展上。”所以,數據多比少好,更多數據比算法係統更智能還要重要。那麼,混亂呢?在班科和布裡爾開始研究數據幾年後,微軟的最大競爭對手,穀歌,也開始更大規模地對這些問題進行探討。穀歌用的是上萬億的語料庫,而不是十億的。穀歌做這類研究不是因為語法檢查,而是為了解決翻譯這個更棘手的難題。20世紀40年代,電腦由真空管製成,要占據整個房間這麼大的空間。而機器翻譯也隻是計算機開發人員的一個想法。在冷戰時期,美國掌握了大量關於蘇聯的各種資料,但缺少翻譯這些資料的人手。所以,計算機翻譯也成了亟須解決的問題。最初,計算機研發人員打算將語法規則和雙語詞典結合在一起。1954年,IBM以計算機中的250個詞語和六條語法規則為基礎,將60個俄語詞組翻譯成了英語,結果振奮人心。IBM 701通過穿孔卡片讀取了“Mi pyeryedayem mislyi posryedstvom ryechyi”這句話,並且將其譯成了“我們通過語言來交流思想”。在慶祝這個成就的發布會上,一篇報道就有提到,這60句話翻譯得很流暢。這個程序的指揮官利昂·多斯特爾特(Leon Dostert)表示,他相信“在三五年後,機器翻譯將會變得很成熟”。事實證明,計算機翻譯最初的成功誤導了人們。1966年,一群機器翻譯的研究人員意識到,翻譯比他們想象的更困難,他們不得不承認自己的失敗。機器翻譯不能隻是讓電腦熟悉常用規則,還必須教會電腦處理特殊的語言情況。畢竟,翻譯不僅僅隻是記憶和複述,也涉及選詞,而明確地教會電腦這些非常不現實。法語中的“bonjour”就一定是“早上好”嗎?有沒有可能是“今天天氣不錯”、“吃了嗎”或者“喂”?事實上都有可能——這需要視情況而定。在20世紀80年代後期,IBM的研發人員提出了一個新的想法。與單純教給計算機語言規則和詞彙相比,他們試圖讓計算機自己估算一個詞或一個詞組適合於用來翻譯另一種語言中的一個詞和詞組的可能性,然後再決定某個詞和詞組在另一種語言中的對等詞和詞組。20世紀90年代,IBM這個名為dide的項目花費了大概十年的時間,將大約有300萬句之多的加拿大議會資料譯成了英語和法語並出版。由於是官方文件,翻譯的標準就非常高。用那個時候的標準來看,數據量非常之龐大。統計機器學習從誕生之日起,就聰明地把翻譯的挑戰變成了一個數學問題,而這似乎很有效!計算機翻譯能力在短時間內就提高了很多。然而,在這次飛躍之後,IBM公司儘管投入了很多資金,但取得的成效不大。最終,IBM公司停止了這個項目。穀歌的翻譯之所以更好並不是因為它擁有一個更好的算法機製。和微軟的班科和布裡爾一樣,這是因為穀歌翻譯增加了很多各種各樣的數據。從穀歌的例子來看,它之所以能比IBM的dide係統多利用成千上萬的數據,是因為它接受了有錯誤的數據。2006年,穀歌發布的上萬億的語料庫,就是來自於互聯網的一些廢棄內容。這就是“訓練集”,可以正確地推算出英語詞彙搭配在一起的可能性。20世紀60年代,擁有百萬英語單詞的語料庫——布朗語料庫算得上這個領域的開創者,而如今穀歌的這個語料庫則是一個質的突破,後者使用龐大的數據庫使得自然語言處理這一方向取得了飛躍式的發展。自然語言處理能力是語音識彆係統和計算機翻譯的基礎。彼得·諾維格(Peter N),穀歌公司人工智能方麵的專家,和他的同事在一篇題為《數據的非理性效果》(The Unreasonable Effectiveness of Data)的文章中寫道,“大數據基礎上的簡單算法比小數據基礎上的複雜算法更加有效。”他們就指出,混雜是關鍵。““從某種意義上,穀歌的語料庫是布朗語料庫的一個退步。因為穀歌語料庫的內容來自於未經過濾的網頁內容,所以會包含一些不完整的句子、拚寫錯誤、語法錯誤以及其他各種錯誤。況且,它也沒有詳細的人工糾錯後的注解。但是,穀歌語料庫是布朗語料庫的好幾百萬倍大,這樣的優勢完全壓倒了缺點。””傳統的樣本分析師們很難容忍錯誤數據的存在,因為他們一生都在研究如何防止和避免錯誤的出現。在收集樣本的時候,統計學家會用一整套的策略來減少錯誤發生的概率。在結果公布之前,他們也會測試樣本是否存在潛在的係統性偏差。這些策略包括根據協議或通過受過專門訓練的專家來采集樣本。但是,即使隻是少量的數據,這些規避錯誤的策略實施起來還是耗費巨大。尤其是當我們收集所有數據的時候,這就行不通了。不僅是因為耗費巨大,還因為在大規模的基礎上保持數據收集標準的一致性不太現實。就算是不讓人們進行溝通爭吵,也不能解決這個問題。如果將傳統的思維模式運用於數字化、網絡化的21世紀,就會錯過重要的信息。執迷於精確性是信息缺乏時代和模擬時代的產物。在那個信息貧乏的時代,任意一個數據點的測量情況都對結果至關重要。所以,我們需要確保每個數據的精確性,才不會導致分析結果的偏差。“在華盛頓州布萊恩市的英國石油公司(BP)切裡波因特(Cherry Point)煉油廠裡,無線感應器遍布於整個工廠,形成無形的網絡,能夠產生大量實時數據。酷熱的惡劣環境和電氣設備的存在有時會對感應器讀數有所影響,形成錯誤的數據。但是數據生成的數量之多可以彌補這些小錯誤。隨時監測管道的承壓使得BP能夠了解到,有些種類的原油比其他種類更具有腐蝕性。以前,這都是無法發現也無法防止的。”有時候,當我們掌握了大量新型數據時,精確性就不那麼重要了,我們同樣可以掌握事情的發展趨勢。然而,除了一開始會與我們的直覺相矛盾之外,接受數據的不精確和不完美,我們反而能夠更好地進行預測,也能夠更好地理解這個世界。值得注意的是,錯誤性並不是大數據本身固有的。它隻是我們用來測量、記錄和交流數據的工具的一個缺陷。如果說哪天技術變得完美無缺了,不精確的問題也就不複存在了。因為擁有更大數據量所能帶來的商業利益遠遠超過增加一點精確性,所以通常我們不會再花大力氣去提升數據的精確性。這又是一個關注焦點的轉變,正如以前,統計學家們總是把他們的興趣放在提高樣本的隨機性而不是數量上。如今,大數據給我們帶來的利益,讓我們能夠接受不精確的存在了。MIT的這個項目彙集了數百萬的產品,它們被數百個零售商賣到了70多個國家。這個項目產生的一個名為PriceStats的商業方案也經常被一些銀行和其他經濟決策人用到。當然,收集到的數據需要仔細的分析,而且這些數據更善於表明價格的發展趨勢而不是精確的價格。但是因為PriceStats收集到了更多的價格信息而且大多是即時的,所以這對決策者來說就非常有益了。確切地說,在許多技術和社會領域,我們更傾向於紛繁混雜。我們來看看內容分類方麵的情況。幾個世紀以來,人們一直用分類法和索引法來幫助自己存儲和檢索數據資源。這樣的分級係統通常都不完善——各位讀者沒有忘記圖書館卡片目錄給你們帶來的痛苦回憶吧?在“小數據”範圍內,這些方法就很有效,但一旦把數據規模增加好幾個數量級,這些預設一切都各就各位的係統就會崩潰。“相片分享網站Flickr在2011年擁有來自大概1億用戶的60億張照片。根據預先設定好的分類來標注每張照片就沒有意義了。難道真會有人為他的照片取名“像希特勒一樣的貓”嗎?”恰恰相反,清楚的分類被更混亂卻更靈活的機製所取代了。這些機製才能適應改變著的世界。當我們上傳照片到Flickr網站的時候,我們會給照片添加標簽。也就是說,我們會使用一組文本標簽來編組和搜索這些資源。人們用自己的方式創造和使用標簽,所以它是沒有標準、沒有預先設定的排列和分類,也沒有我們必須遵守的類彆的。任何人都可以輸入新的標簽,標簽內容事實上就成為了網絡資源的分類標準。標簽被廣泛地應用於Facebook、博客等社交網絡上。因為它們的存在,互聯網上的資源變得更加容易找到,特彆是像圖片、視頻和音樂這些無法用關鍵詞搜索的非文本類資源。(雖然完全由用戶自由添加,標簽的形成和組織也有自身的規律。好的標簽使用習慣會幫助用戶更好管理資源,也會讓用戶的照片、博客等受到更多關注。相反,胡亂添加標簽也會傷害自己。與此同時,標簽可以幫助係統提供更好的搜索和推薦服務。關於標簽係統的最新研究成果彙總,可以參考張子柯等人2011年在Journal of puter Sd Teology上發表的“Tag-aware reender systems:A state-of-the-art survey”一文。——譯者注)當然,有時人們錯標的標簽會導致資源編組的不準確,這會讓習慣了精確性的人們很痛苦。但是,我們用來編組照片集的混亂方法給我們帶來了很多好處。比如,我們擁有了更加豐富的標簽內容,同時能更深更廣地獲得各種照片。我們可以通過合並多個搜索標簽來過濾我們需要尋找的照片,這在以前是無法完成的。我們添加標簽時所固帶的不準確性從某種意義上說明我們能夠接受世界的紛繁複雜。這是對更加精確係統的一種對抗。這些精確的係統試圖讓我們接受一個世界貧乏而規整的慘象——假裝世間萬物都是整齊地排列的。而事實上現實是紛繁複雜的,天地間存在的事物也遠遠多於係統所設想的。另外,數據更新得非常快,甚至在剛剛顯示出來的時候可能就已經過時了。所以,同樣的原理適用於時間的顯示。穀歌的Gmail郵箱會確切標注在很短時間內收到的信件,比方說“11分鐘之前”。但是,對於已經收到一段時間的信件,則會標注如“兩個小時之前”這種不太確切的時間信息。2000年以來,商務智能和分析軟件領域的技術供應商們一直承諾給客戶“一個唯一的真理”。執行官們用這個詞組並沒有諷刺的意思,現在也依然有技術供應商這樣說。他們說這個詞組的意思就是,每個使用該公司信息技術係統的人都能利用同樣的數據資源,這樣市場部和營銷部的人員們就不需要再在會議開始前爭論,到底是誰掌握了正確的客戶和銷售數據了。這個想法就是說,如果他們知道的數據是一致的,那麼他們的利益也會更一致。但是,“一個唯一的真理”這種想法已經徹底被改變了。現在不但出現了一種新的認識,即“一個唯一的真理”的存在是不可能的,而且追求這個唯一的真理是對注意力的分散。我們甚至發現,不精確已經滲入了數據庫設計這個最不能容忍錯誤的領域。傳統的數據庫引擎要求數據高度精確和準確排列。數據不是單純地被存儲,它往往被劃分為包含“域”的記錄,每個域都包含了特定種類和特定長度的信息。比方說,某個數值域是7個數字長,一個1000萬或者更大的數值就無法被記錄。一個人想在某個記錄手機號碼的域中輸入一串漢字是“不被允許”的。想要被允許也可以,需要改變數據庫結構才可以。現在,我們依然在和電腦以及智能手機上的這些限製進行鬥爭,比如軟件可能拒絕記錄我們輸入的數據。索引是事先就設定好了的,這也就限製了人們的搜索。增加一個新的索引往往既消耗時間,又惹人討論,因為需要改變底層的設計。傳統的關係數據庫是為數據稀缺的時代設計的,所以能夠也需要仔細策劃。在那個時代,人們遇到的問題無比清晰,所以數據庫被設計用來有效地回答這些問題。但是,這種數據存儲和分析的方法越來越和現實相衝突。我們現在擁有各種各樣、參差不齊的海量數據。很少有數據完全符合預先設定的數據種類。而且,我們想要數據回答的問題,也隻有在我們收集和處理數據的過程中才會知道。這些現實條件導致了新的數據庫設計的誕生,它們打破了關於記錄和預設場域的成規。預設場域顯示的是數據的整齊排列。最普遍的數據庫查詢語言是結構化查詢語言,英文縮寫為“SQL”——它的名字就顯示了它的僵化。但是,近年的大轉變就是非關係型數據庫的出現,它不需要預先設定記錄結構,允許處理超大量五花八門的數據。因為包容了結構多樣性,這些數據庫設計就要求更多的處理和存儲資源。但是,一旦考慮到大大降低的存儲和處理成本,這就是一個我們支付得起的公平交易。帕特·赫蘭德(Pat Helnd)是來自微軟的世界上最權威的數據庫設計專家之一,在一篇題為《如果你有足夠多的數據,那麼“足夠好”真的足夠好》(If You Have Too Much Data,then‘Good Enough’Is Good Enough)的文章中,他把這稱為一個重大的轉變。分析了被各種各樣質量參差不齊的數據所侵蝕的傳統數據庫設計的核心原則,他得出的結論是,“我們再也不能假裝活在一個齊整的世界裡”。他認為,處理海量數據會不可避免地導致部分信息的缺失。雖然這本來就是有“損耗性”的,但是能快速得到想要的結果彌補了這個缺陷。赫蘭德總結說:“略有瑕疵的答案並不會傷了商家的胃口,因為他們更看重高頻率。”傳統數據庫的設計要求在不同的時間提供一致的結果。比方說,如果你查詢你的賬戶結餘,它會提供給你確切的數目;而你幾秒鐘之後查詢的時候,係統應該提供給你同樣的結果,沒有任何改變。但是,隨著數據數量的大幅增加以及係統用戶的增加,這種一致性將越來越難保持。大的數據庫並不是固定在某個地方的,它一般分散在多個硬盤和多台電腦上。為了確保其運行的穩定性和速度,一個記錄可能會分開存儲在兩三個地方。如果一個地方的記錄更新了,其他地方的記錄則隻有同步更新才不會產生錯誤。傳統的係統會一直等到所有地方的記錄都更新,然而,當數據廣泛地分布在多台服務器上而且服務器每秒鐘都會接受成千上萬條搜索指令的時候,同步更新就比較不現實了。因此,多樣性是一種解決的方法。ZestFinance,一個由穀歌前任首席信息官道格拉斯·梅裡爾創立的公司,用自己的經驗再次驗證了“寬容錯誤會給我們帶來更多價值”這一觀點。這家公司幫助決策者判斷是否應該向某些擁有不良信用記錄的人提供小額短期貸款。傳統的信用評分機製關注少量突出的事件,比如一次還款的延遲,而ZestFinance則分析了大量不那麼突出的事件。2012年,讓ZestFinance引以為豪的就是,它的貸款拖欠率比行業平均水平要低三分之一左右。唯一的得勝之道還是擁抱混雜。梅裡爾說:“有趣的是,對我們而言,基本沒有任何一個人的信息是齊備的,事實上,總有大量的數據缺失。”由ZestFinance創建的用來記錄客戶信息的矩陣是難以想象得稀疏,裡麵充滿了數據的空洞,但ZestFinance在這些支離破碎的數據中如魚得水。舉個例子,有10%的客戶屬性信息顯示“已經死亡”,但是依然可以從他們身上收回貸款。梅裡爾一臉壞笑地說:“顯然,沒有人會企盼僵屍複活並且主動還貸。但是我們的數據顯示,放貸給僵屍是一項不錯的生意。”接受混亂,我們就能享受極其有用的服務,這些服務如果使用傳統方法和工具是不可能做到的,因為那些方法和工具處理不了這麼大規模的數據。據估計,隻有5%的數字數據是結構化的且能適用於傳統數據庫。如果不接受混亂,剩下95%的非結構化數據都無法被利用,比如網頁和視頻資源。社會將兩個折中的想法不知不覺地滲入了我們的處事方法中,我們甚至不再把這當成一種折中,而是把它當成了事物的自然狀態。但是,數據量的限製正在逐漸消失,而且通過無限接近“樣本=總體”的方式來處理數據,我們會獲得極大的好處。在小數據時代,追求精確度是合理的。因為當時我們收集的數據很少,所以需要越精確越好。如今這依然適用於一些事情。但是對於其他事情,快速獲得一個大概的輪廓和發展脈絡,就要比嚴格的精確性要重要得多。現在,我們能夠容忍模糊和不確定出現在一些過去依賴於清晰和精確的領域,當然過去可能也隻是有清晰的假象和不完全的精確。隻要我們能夠得到一個事物更完整的概念,我們就能接受模糊和不確定的存在。就像印象派的畫風一樣,近看畫中的每一筆都感覺是混亂的,但是退後一步你就會發現這是一幅偉大的作品,因為你退後一步的時候就能看出畫作的整體思路了。相比依賴於小數據和精確性的時代,大數據因為更強調數據的完整性和混雜性,幫助我們進一步接近事實的真相。“部分”和“確切”的吸引力是可以理解的。但是,當我們的視野局限在我們可以分析和能夠確定的數據上時,我們對世界的整體理解就可能產生偏差和錯誤。不僅失去了去儘力收集一切數據的動力,也失去了從各個不同角度來觀察事物的權利。所以,局限於狹隘的小數據中,我們可以自豪於對精確性的追求,但是就算我們可以分析得到細節中的細節,也依然會錯過事物的全貌。這些思想上的重大轉變導致了第三個變革,這個變革有望顛覆很多傳統觀念。這些傳統觀念更加基本,往往被認為是社會建立的根基:找到一切事情發生背後的原因。然而其實很多時候,尋找數據間的關聯並利用這種關聯就足夠了。這是我們下一個章節將要討論的。

举报本章错误( 无需登录 )