“當數據處理技術已經發生了翻天覆地的變化時,在大數據時代進行抽樣分析就像在汽車時代騎馬一樣。一切都改變了,我們需要的是所有的數據,“樣本=總體”。”“大數據”全在於發現和理解信息內容及信息與信息之間的關係,然而直到最近,我們對此似乎還是難以把握。IBM的資深“大數據”專家傑夫·喬納斯(Jeff Jonas)提出要讓數據“說話”。從某種層麵上來說,這聽起來很平常。人們使用數據已經有相當長一段時間了,無論是日常進行的大量非正式觀察,還是過去幾個世紀裡在專業層麵上用高級算法進行的量化研究,都與數據有關。在數字化時代,數據處理變得更加容易、更加快速,人們能夠在瞬間處理成千上萬的數據。但當我們談論能“說話”的數據時,我們指的遠遠不止這些。實際上,大數據與三個重大的思維轉變有關,這三個轉變是相互聯係和相互作用的。“●首先,要分析與某事物相關的所有數據,而不是依靠分析少量的數據樣本。”“●其次,我們樂於接受數據的紛繁複雜,而不再追求精確性。”“●最後,我們的思想發生了轉變,不再探求難以捉摸的因果關係,轉而關注事物的相關關係。”本章就將介紹第一個轉變:很長一段時間以來,準確分析大量數據對我們而言都是一種挑戰。過去,因為記錄、儲存和分析數據的工具不夠好,我們隻能收集少量數據進行分析,這讓我們一度很苦惱。為了讓分析變得簡單,我們會把數據量縮減到最少。這是一種無意識的自省:我們把與數據交流的困難看成是自然的,而沒有意識到這隻是當時技術條件下的一種人為的限製。如今,技術條件已經有了非常大的提高,雖然人類可以處理的數據依然是有限的,也永遠是有限的,但是我們可以處理的數據量已經大大地增加,而且未來會越來越多。在某些方麵,我們依然沒有完全意識到自己擁有了能夠收集和處理更大規模數據的能力。我們還是在信息匱乏的假設下做很多事情,建立很多機構組織。我們假定自己隻能收集到少量信息,結果就真的如此了。這是一個自我實現的過程。我們甚至發展了一些使用儘可能少的信息的技術。彆忘了,統計學的一個目的就是用儘可能少的數據來證實儘可能重大的發現。事實上,我們形成了一種習慣,那就是在我們的製度、處理過程和激勵機製中儘可能地減少數據的使用。為了理解大數據時代的轉變意味著什麼,我們需要首先回顧一下過去。直到最近,私人企業和個人才擁有了大規模收集和分類數據的能力。在過去,這是隻有教會或者政府才能做到的。當然,在很多國家,教會和政府是等同的。有記載的、最早的計數發生在公元前8000年的,當時蘇美爾的商人用黏土珠來記錄出售的商品。大規模的計數則是政府的事情。數千年來,政府都試圖通過收集信息來管理國民。以人口普查為例。據說古代埃及曾進行過人口普查,《舊約》和《新約》中對此都有所提及。那次由奧古斯都愷撒主導實施的人口普查,提出了“每個人都必須納稅”,這使得約瑟夫和瑪麗搬到了耶穌的出生地伯利恒。1086年的《末日審判書》(The Doomsday Book)對當時英國的人口、土地和財產做了一個前所未有的全麵記載。皇家委員穿越整個國家對每個人、每件事都做了記載,後來這本書用《聖經》中的《末日審判書》命名,因為每個人的生活都被赤裸裸地記載下來的過程就像接受“最後的審判”一樣。然而,人口普查是一項耗資且費時的事情。國王威廉一世(King William I)在他發起的《末日審判書》完成之前就去世了。但是,除非放棄收集信息,否則在當時沒有其他辦法。儘管如此,當時收集的信息也隻是一個大概情況,實施人口普查的人也知道他們不可能準確記錄下每個人的信息。實際上,“人口普查”這個詞來源於拉丁語的“sere”,意思就是推測、估算。“三百多年前,一個名叫約翰·格朗特(John Graunt)(約翰·格朗特的嘗試可以參見他聞名世界的著作Natural and Political Observations Made upon the Bills of Mortality。儘管他並未真正給出一種有效的辦法來推斷疾病流行時的人口數或死亡率,但是他首次建立了區分各年齡段的存活率表,因此被認為是人口統計學的主要創始人之一。——譯者注)的英國縫紉用品商提出了一個很有新意的方法。他采用了一個新方法推算出鼠疫時期倫敦的人口數,這種方法就是後來的統計學。這個方法不需要一個人一個人地計算。雖然這個方法比較粗糙,但采用這個方法,人們可以利用少量有用的樣本信息來獲取人口的整體情況。”雖然後來證實他能夠得出正確的數據僅僅是因為運氣好,但在當時他的方法大受歡迎。樣本分析法一直都有較大的漏洞,因此無論是進行人口普查還是其他大數據類的任務,人們還是一直使用一一清點這種“野蠻”的方法。考慮到人口普查的複雜性以及耗時耗費的特點,政府極少進行普查。古羅馬在擁有數十萬人口的時候每5年普查一次。美國憲法規定每10年進行一次人口普查,而隨著國家人口越來越多,隻能以百萬計數。但是到19世紀為止,即使這樣不頻繁的人口普查依然很困難,因為數據變化的速度超過了人口普查局統計分析的能力。這就是問題所在,是利用所有的數據還是僅僅采用一部分呢?最明智的自然是得到有關被分析事物的所有數據,但是當數量無比龐大時,這又不太現實。那如何選擇樣本呢?有人提出有目的地選擇最具代表性的樣本是最恰當的方法。1934年,波蘭統計學家耶日·奈曼(Jerzy Neyman)指出,這隻會導致更多更大的漏洞。事實證明,問題的關鍵是選擇樣本時的隨機性。(在對一個量(例如年收入)進行估計的時候,如果總體可以分為很多層(例如所有人口按照不同年齡或者不同職業分成很多層),一種直觀的想法是每一層隨機抽樣的樣本大小應該正比於這個層所包含人口的多少。奈曼指出,最優分配並非如此簡單,實際上,層越大,層內待估計量的變化越大,該層抽樣的單位費用越小,則該層的抽樣就應該越多。具體的公式和推導過程可以參考1934年奈曼在Journal of the Royal Statistical Society上發表的“Owo different aspects of the representative method:The method of stratified sampling and the method of purposive sele”一文。——譯者注。)統計學家們證明:雖然聽起來很不可思議,但事實上,一個對1100人進行的關於“是否”問題的抽樣調查有著很高的精確性,精確度甚至超過了對所有人進行調查時的97%(此處指對回答“是”的概率的估計精度可以達到97%左右,也就是說估計值的標準差在3%左右。——譯者注)。這是真的,不管是調查10萬人還是1億人,20次調查裡有19次都能猜對。為什麼會這樣?原因很複雜,但是有一個比較簡單的解釋就是,當樣本數量達到了某個值之後,我們從新個體身上得到的信息會越來越少,就如同經濟學中的邊際效應遞減一樣。這種觀點為我們開辟了一條收集信息的新道路。通過收集隨機樣本,我們可以用較少的花費做出高精準度的推斷。因此,政府每年都可以用隨機采樣的方法進行小規模的人口普查,而不是隻能每十年進行一次。事實上,政府也這樣做了。例如,除了十年一次的人口大普查,美國人口普查局每年都會用隨機采樣的方法對經濟和人口進行200多次小規模的調查。當收集和分析數據都不容易時,隨機采樣就成為應對信息采集困難的辦法。很快,隨機采樣就不僅應用於公共部門和人口普查了。在商業領域,隨機采樣被用來監管商品質量。這使得監管商品質量和提升商品品質變得更容易,花費也更少。以前,全麵的質量監管要求對生產出來的每個產品進行檢查,而現在隻需從一批商品中隨機抽取部分樣品進行檢查就可以了。本質上來說,隨機采樣讓大數據問題變得更加切實可行。同理,它將客戶調查引進了零售行業,將焦點討論引進了政治界,也將許多人文問題變成了社會科學問題。(剛才討論的還隻是最簡單的經典抽樣問題。儘管奈曼等人指出了其中非平凡的問題,但畢竟存在最優抽樣的判斷標準和最優方法。最近,祝建華教授在一次討論中指出,如果抽樣的對象更複雜,例如是一個網絡,那麼根本找不到一個“最優抽樣”的標準,更不可能奢求抽樣得到的小網絡能夠反映總體的所有結構特性。——譯者注)它的成功依賴於采樣的絕對隨機性,但是實現采樣的隨機性非常困難。一旦采樣過程中存在任何偏見,分析結果就會相去甚遠。最近,以固定電話用戶為基礎進行投票民調就麵臨了這樣的問題,采樣缺乏隨機性,因為沒有考慮到隻使用移動電話的用戶——這些用戶一般更年輕和更熱愛自由。沒有考慮到這些用戶,自然就得不到正確的預測。2008年在奧巴馬與麥凱恩之間進行的美國總統大選中,蓋洛普谘詢公司、皮尤研究中心(Pew)、美國廣播公司和《華盛頓郵報》社這些主要的民調組織都發現,如果他們不把移動用戶考慮進來,民意測試結果就會出現三個點的偏差,而一旦考慮進來,偏差就隻有一個點。鑒於這次大選的票數差距極其微弱,這已經是非常大的偏差了。更糟糕的是,隨機采樣不適合考察子類彆的情況。因為一旦繼續細分,隨機采樣結果的錯誤率會大大增加。這很容易理解。倘若你有一份隨機采樣的調查結果,是關於1000個人在下一次競選中的投票意向。如果采樣時足夠隨機,這份調查的結果就有可能在3%的誤差範圍內顯示全民的意向。但是如果這個3%左右的誤差本來就是不確定的,卻又把這個調查結果根據性彆、地域和收入進行細分,結果是不是越來越不準確呢?用這些細分過後的結果來表現全民的意願,是否合適呢?“你設想一下,一個對1000個人進行的調查,如果要細分到“東北部的富裕女性”,調查的人數就遠遠少於1000人了。即使是完全隨機的調查,倘若隻用了幾十個人來預測整個東北部富裕女性選民的意願,還是不可能得到精確結果啊!而且,一旦采樣過程中存在任何偏見,在細分領域所做的預測就會大錯特錯。”因此,當人們想了解更深層次的細分領域的情況時,隨機采樣的方法就不可取了。在宏觀領域起作用的方法在微觀領域失去了作用。隨機采樣就像是模擬照片打印,遠看很不錯,但是一旦聚焦某個點,就會變得模糊不清。隨機采樣也需要嚴密的安排和執行。人們隻能從采樣數據中得出事先設計好的問題的結果——千萬不要奢求采樣的數據還能回答你突然意識到的問題。所以雖說隨機采樣是一條捷徑,但它也隻是一條捷徑。隨機采樣方法並不適用於一切情況,因為這種調查結果缺乏延展性,即調查得出的數據不可以重新分析以實現計劃之外的目的。我們來看一下DNA分析。由於技術成本大幅下跌以及在醫學方麵的廣闊前景,個人基因排序成為了一門新興產業。2012年,基因組解碼的價格跌破1000美元,這也是非正式的行業平均水平。從2007年起,矽穀的新興科技公司23andme就開始分析人類基因,價格僅為幾百美元。這可以揭示出人類遺傳密碼中一些會導致其對某些疾病抵抗力差的特征,如乳腺癌和心臟病。23andme希望能通過整合顧客的DNA和健康信息,了解到用其他方式不能獲取的新信息。公司對某人的一小部分DNA進行排序,標注出幾十個特定的基因缺陷。這隻是該人整個基因密碼的樣本,還有幾十億個基因堿基對未排序。最後,23andme隻能回答其標注過的基因組表現出來的問題。發現新標注時,該人的DNA必須重新排序,更準確地說,是相關的部分必須重新排列。隻研究樣本而不是整體,有利有弊:能更快更容易地發現問題,但不能回答事先未考慮到的問題。在信息處理能力受限的時代,世界需要數據分析,卻缺少用來分析所收集數據的工具,因此隨機采樣應運而生,它也可以被視為那個時代的產物。如今,計算和製表不再像過去一樣困難。感應器、手機導航、網站點擊和Twitter被動地收集了大量數據,而計算機可以輕易地對這些數據進行處理。采樣的目的就是用最少的數據得到最多的信息。當我們可以獲得海量數據的時候,它就沒有什麼意義了。數據處理技術已經發生了翻天覆地的改變,但我們的方法和思維卻沒有跟上這種改變。采樣一直有一個被我們廣泛承認卻又總有意避開的缺陷,現在這個缺陷越來越難以忽視了。采樣忽視了細節考察。雖然我們彆無選擇,隻能利用采樣分析法來進行考察,但是在很多領域,從收集部分數據到收集儘可能多的數據的轉變已經發生了。如果可能的話,我們會收集所有的數據,即“樣本=總體”。正如我們所看到的,“樣本=總體”是指我們能對數據進行深度探討,而采樣幾乎無法達到這樣的效果。上麵提到的有關采樣的例子證明,用采樣的方法分析整個人口的情況,正確率可達97%。對於某些事物來說,3%的錯誤率是可以接受的。但是你無法得到一些微觀細節的信息,甚至還會失去對某些特定子類彆進行進一步研究的能力。我們不能滿足於正態分布一般中庸平凡的景象。生活中真正有趣的事情經常藏匿在細節之中,而采樣分析法卻無法捕捉到這些細節。“穀歌流感趨勢預測並不是依賴於對隨機樣本的分析,而是分析了整個美國幾十億條互聯網檢索記錄。分析整個數據庫,而不是對一個小樣本進行分析,能夠提高微觀層麵分析的準確性,甚至能夠推測出某個特定城市的流感狀況,而不隻是一個州或是整個國家的情況。Farecast的初始係統使用的樣本包含12000個數據,所以取得了不錯的預測結果。隨著奧倫·埃齊奧尼不斷添加更多的數據,預測的結果越來越準確。最終,Farecast使用了每一條航線整整一年的價格數據來進行預測。埃齊奧尼說:“這隻是一個暫時性的數據,隨著你收集的數據越來越多,你的預測結果會越來越準確。””所以,我們現在經常會放棄樣本分析這條捷徑,選擇收集全麵而完整的數據。我們需要足夠的數據處理和存儲能力,也需要最先進的分析技術。同時,簡單廉價的數據收集方法也很重要。過去,這些問題中的任何一個都很棘手。在一個資源有限的時代,要解決這些問題需要付出很高的代價。但是現在,解決這些難題已經變得簡單容易得多。曾經隻有大公司才能做到的事情,現在絕大部分的公司都可以做到了。通過使用所有的數據,我們可以發現如若不然則將會在大量數據中淹沒掉的情況。例如,信用卡詐騙是通過觀察異常情況來識彆的,隻有掌握了所有的數據才能做到這一點。在這種情況下,異常值是最有用的信息,你可以把它與正常交易情況進行對比。這是一個大數據問題。而且,因為交易是即時的,所以你的數據分析也應該是即時的。然而,使用所有的數據並不代表這是一項艱巨的任務。大數據中的“大”不是絕對意義上的大,雖然在大多數情況下是這個意思。穀歌流感趨勢預測建立在數億的數學模型上,而它們又建立在數十億數據節點的基礎之上。完整的人體基因組有約30億個堿基對。但這隻是單純的數據節點的絕對數量,並不代表它們就是大數據。穀歌流感趨勢和喬布斯的醫生們采取的就是大數據的方法。日本國民體育運動“相撲”中非法操縱比賽結果的發現過程,就恰到好處地說明了使用“樣本=總體”這種全數據模式的重要性。消極比賽一直被極力禁止,備受譴責,很多運動員深受困擾。芝加哥大學的一位很有前途的經濟學家斯蒂夫·列維特(Steve),在《美國經濟評論》上發表了一篇研究論文,其中提到了一種發現這種情況的方法:查看運動員過去所有的比賽資料。他的暢銷書《魔鬼經濟學》(Freakonomics)中也提到了這個觀點,他認為檢查所有的數據是非常有價值的。列維特和他的同事馬克·達根(Mark Duggan)使用了11年中超過64000場摔跤比賽的記錄,來尋找異常性。他們獲得了重大的發現。非法操縱比賽結果的情況確實時有發生,但是不會出現在大家很關注的比賽上。冠軍賽也有可能被操縱,但是數據顯示消極比賽主要還是出現在不太被關注的聯賽的後幾場中。這時基本上沒有什麼風險,因為很多選手根本就沒有獲獎的希望。相撲比賽的一個比較特殊的地方是,選手需要在15場賽事中的大部分場次取得勝利才能保持排名和收入。這樣一來就會出現利益不對稱的問題。當一名7勝7負的摔跤手碰到一個8勝6負的對手時,比賽結果對第一個選手來說極其重要,對他的對手而言則沒有那麼重要。列維特和達根發現,在這樣的情況下,需要贏的那個選手很可能會贏。這看起來像是對手送的“禮物”,因為在聯係緊密的相撲界,幫彆人一把就是給自己留了一條後路。有沒有可能是要贏的決心幫助這個選手獲勝呢?答案是,有可能。但是數據顯示的情況是,需要贏的選手的求勝心也隻能把勝率提高25%。所以,把勝利完全歸功於求勝心是不妥當的。對數據進行進一步分析可能會發現,與他們在先前比賽中的表現相比,當他們再相遇時,上次失利的一方要擁有比對方更高的勝率。因為在相撲界,你的付出總會有所“回報”,所以第一次的勝利看上去更像是一名選手送給另一名選手的禮物。這個情況是顯而易見的。但是如果采用隨機采樣分析法,就無法發現這個情況。而大數據分析通過使用所有比賽的極大數據捕捉到了這個情況。這就像捕魚一樣,開始時你不知道是否能捕到魚,也不知道會捕到什麼魚。一個數據庫並不需要有以太字節(太字節,一般記作TB,等於240字節。——譯者注)計的數據。在這個相撲案例中,整個數據庫包含的字節量還不如一張普通的數碼照片包含得多。但是大數據分析法不隻關注一個隨機的樣本。這裡的“大”取的是相對意義而不是絕對意義,也就是說這是相對所有數據來說的。很長一段時間內,隨機采樣都是一條好的捷徑,它使得數字時代之前的大量數據分析變得可能。但就像把一張數碼照片或者一首數碼歌曲截取成多個小文件似的,在采樣分析的時候,很多信息就丟失了——你能欣賞一首歌的抽樣嗎?擁有全部或幾乎全部的數據,我們就能夠從不同的角度,更細致地觀察和研究數據的方方麵麵。“我們可以用Lytro相機來打一個恰當的比方。Lytro相機是具有革新性的,因為它把大數據運用到了基本的攝影中。與傳統相機隻可以記錄一束光不同,Lytro相機可以記錄整個光場裡所有的光,達到1100萬束之多。具體生成什麼樣的照片則可以在拍攝之後再根據需要決定。用戶沒必要在一開始就聚焦,因為該相機可以捕捉到所有的數據,所以之後可以選擇聚焦圖像中的任一點。整個光場的光束都被記錄了,也就是收集了所有的數據,“樣本=總體”。因此,與普通照片相比,這些照片就更具“可循環利用性”。如果使用普通相機,攝影師就必須在拍照之前決定好聚焦點。”同理,因為大數據是建立在掌握所有數據,至少是儘可能多的數據的基礎上的,所以我們就可以正確地考察細節並進行新的分析。在任何細微的層麵,我們都可以用大數據去論證新的假設。是大數據讓我們發現了相撲中的非法操縱比賽結果、流感的傳播區域和對抗癌症需要針對的那部分DNA。它讓我們能清楚分析微觀層麵的情況。當然,有些時候,我們還是可以使用樣本分析法,畢竟我們仍然活在一個資源有限的時代。但是更多時候,利用手中掌握的所有數據成為了最好也是可行的選擇。社會科學是被“樣本=總體”撼動得最厲害的學科。隨著大數據分析取代了樣本分析,社會科學不再單純依賴於分析實證數據。這門學科過去曾非常依賴樣本分析、研究和調查問卷。當記錄下來的是人們的平常狀態,也就不用擔心在做研究和調查問卷時存在的偏見(這種偏見既包括研究者設計實驗和問卷時的偏差,也包括被試人員由於了解自己作為被試的角色而產生的不同於日常的心理和行為。——譯者注)了。現在,我們可以收集過去無法收集到的信息,不管是通過移動電話表現出的關係,還是通過Twitter信息表現出的感情。更重要的是,我們現在也不再依賴抽樣調查了。艾伯特-拉斯洛·巴拉巴西(Albert-László Barabási)(全球最權威的複雜網絡研究專家之一,其最新作品《爆發》(Bursts)是大數據新科學範式的典型代表,該書的簡體中文版已由湛廬文化策劃、中國人民大學出版社出版,推薦與本書參照。——譯者注),和他的同事想研究人與人之間的互動。於是他們調查了四個月內所有的移動通信記錄——當然是匿名的,這些記錄是一個為全美五分之一人口提供服務的無線運營商提供的。這是第一次在全社會層麵用接近於“樣本=總體”的數據資料進行網絡分析。通過觀察數百萬人的所有通信記錄,我們可以產生也許通過任何其他方式都無法產生的新觀點。有趣的是,與小規模的研究相比,這個團隊發現,如果把一個在社區內有很多連接關係的人從社區關係網中剔除掉,這個關係網會變得沒那麼高效但卻不會解體;但如果把一個與所在社區之外的很多人有著連接關係的人從這個關係網中剔除,整個關係網很快就會破碎成很多小塊。(作者對這項研究的理解稍有不妥。該研究並未關注從網絡中移除節點()的情形,而是考察從網絡中移除鏈路(通話關係)對網絡結構的影響。借鑒滲流理論(Percotion Theory),作者發現,移除弱關係而非強關係反而會導致快速破碎成若乾小碎片。詳細分析可以參考Onne等人2007年在《美國科學院院刊》上發表的“Structure and tie strengths in mobile unicatioworks”一文。——譯者注)這個研究結果非常重要也非常得出人意料。誰能想象一個在關係網內有著眾多好友的人的重要性還不如一個隻是與很多關係網外的人有聯係的人呢?(就個人而言,可以通過重疊社區挖掘的方法找到同時屬於多個社區的節點,這些人往往對網絡連通性至關重要。就聯係而言,可以挖掘起橋接作用的連邊,這些連邊往往對網絡連通性至關重要。這方麵的概念和算術可參考2005年Pal等人在《自然》上發表的名為“Unc the overpping unity structure of plex works in nature and society”一文及2010年程學旗等人在《統計力學雜誌》上發表的名為“Bridgeness:a local index on edge signifi maintaining global ectivity”一文。——譯者注)這說明一般來說無論是針對一個小團體還是整個社會,多樣性是有額外價值的。這個結果促使我們重新審視一個人在社會關係網中的存在價值。
01 更多:不是隨機樣本 而是全體數據(1 / 1)