07 風險:讓數據主宰一切的隱憂(1 / 1)

“我們時刻都暴露在“第三隻眼”之下:亞馬遜監視著我們的購物習慣,穀歌監視著我們的網頁瀏覽習慣,而微博似乎什麼都知道,不僅竊聽到了我們心中的“TA”,還有我們的社交關係網。”1989年,柏林牆倒塌,之前的近40年間,民主德國國家安全局“Stasi”雇用了十萬左右的全職間諜,時刻在街上開車監視著成千上萬民眾的一舉一動。他們拆看信件、偷窺銀行賬戶信息、在民眾家中安裝竊聽器並且竊聽電話。他們還會讓情人、夫婦、父母和孩子相互監視,導致人與人之間喪失了最基本的信任。結果,詳細記錄普通人最私密生活信息的文件至少包括了3900萬張索引卡片和鋪開足有113公裡長的文檔。民主德國是一個史無前例的受到如此全麵監控的國家。德國統一20年之後,更多的個人信息被采集和存儲了下來。我們時刻都暴露在“第三隻眼”之下,不管我們是在用信用卡支付、打電話還是使用身份證。2007年,英國的一家報社曾諷刺地報道,在喬治·奧威爾創作《一九八四》的地方,也就是他的倫敦公寓外60米範圍內,起碼有30多架攝像機在監視著他的一舉一動。互聯網出現之前,如艾可飛和益百利這樣的專業數據收集公司就采集、記錄了全球範圍內大約幾百萬人口的數據,而它們提供的每個人的個人數據就多達好幾百份。而互聯網的出現使得監視變得更容易、成本更低廉也更有用處。如今,已經不隻是政府在暗中監視我們了。亞馬遜監視著我們的購物習慣,穀歌監視著我們的網頁瀏覽習慣,Twitter竊聽到了我們心中的“TA”,Facebook似乎什麼都知道,包括我們的社交關係網。進行大數據分析的人可以輕鬆地看到大數據的價值潛力,這極大地刺激著他們進一步采集、存儲、循環利用我們個人數據的野心。隨著存儲成本繼續暴跌而分析工具越來越先進,采集和存儲數據的數量和規模將爆發式地增長。如果說在互聯網時代我們的隱私受到了威脅,那麼大數據時代是否會加深這種威脅呢?這就是大數據的不利影響嗎?答案是肯定的。我們也將分析它是如何加深對我們隱私的威脅的,同時還將麵對一個新的挑戰,即運用大數據預測來判斷和懲罰人類的潛在行為。這是對公平公正以及自由意誌的一種褻瀆,同時也輕視了決策過程中深思熟慮的重要性。除了對隱私和傾向的不良影響,大數據還有一個弊端。我們冒險把罪犯的定罪權放在了數據手中,借以表達我們對數據和我們的分析結果的崇尚,但是這實際上是一種濫用。應用得當,大數據會是我們合理決策過程中的有力武器;倘若運用不當,它就可能會變成權貴用來鎮壓民眾的工具,輕則傷害顧客和員工的利益,重則損害公民的人身安全。我們所冒的風險比想象中還要大。如果在隱私和預測方麵對大數據管理不當,或者出現數據分析錯誤,會導致的不良後果比定製化的在線廣告要嚴重得多。“20世紀,我們見證了太多由於數據利用不合理所導致的慘劇。比如1943年,美國人口普查局遞交了地址數據來幫助美國政府拘留日裔美國人(當時它沒有提交街道名字和具體街號的數據,居然幻想著這樣能保護隱私);荷蘭著名的綜合民事記錄數據則被納粹分子用來搜捕猶太人;納粹集中營裡罪犯的前臂上刺青的五位數號碼與IBM的霍瑞斯穿孔卡片上的號碼是一致的,這一切都表明是數據處理幫助實現了大規模的屠殺。”我們傾向於從數字數據的增長和奧威爾寫《1984》時所處“監視煉獄”的角度去理解大數據給個人隱私帶來的威脅。但是事實上,不是所有的數據都包含了個人信息。其實,不管是傳感器從煉油廠采集的數據、來自工廠的機器數據、機場的氣象數據,還是沙井蓋爆炸數據都不包含個人信息。英國石油公司和紐約愛迪生聯合電力公司不需要(也不想要)個人信息,就能分析挖掘出他們所需要的數據價值。事實上,這方麵的數據分析並不威脅個人隱私。當然,目前所采集的大部分數據都包含有個人信息,而且存在著各種各樣的誘因,讓我們想儘辦法去采集更多、存儲更久、利用更徹底,甚至有的數據表麵上並不是個人數據,但是經由大數據處理之後就可以追溯到個人了。“比方說,如今在美國和歐洲部署的一些智能電表每6秒鐘采集一個實時讀數,這樣一天所得到的數據比過去傳統電表收集到的所有數據還要多。因為每個電子設備通電時都會有自己獨特的“負荷特征”,比如熱水器不同於電腦,而它們與Led大麻生長燈(這是一種植物補光燈,也是植物生長燈的一種,依照植物生長需要太陽光的規律,代替太陽光給植物提供更好的生長發育環境。——編者注)又不一樣,所以能源使用情況就能暴露諸如一個人的日常習慣、醫療條件和非法行為這樣的個人信息。”然而,我們要探討的主要是大數據是否改變了這種威脅的性質,而不是是否加劇了這種威脅。如果僅僅是加劇了這種威脅,那麼我們現在采用的保護隱私的法律法規依然是有效的,我們隻需要付出加倍的努力來確保有效性就可以。然而,倘若威脅的性質已經改變了,我們就需要尋求新的解決方案。不幸的是,我們的擔憂一語中的。這就顛覆了當下隱私保護法以個人為中心的思想:數據收集者必須告知個人,他們收集了哪些數據、作何用途,也必須在收集工作開始之前征得個人的同意。雖然這不是進行合法數據收集的唯一方式,“告知與許可”已經是世界各地執行隱私政策的共識性基礎(雖然實際上很多的隱私聲明都沒有達到效果,但那是另一回事)。更重要的是,所以,公司無法告知個人尚未想到的用途,而個人亦無法同意這種尚是未知的用途。但是隻要沒有得到許可,任何包含個人信息的大數據分析都需要向個人征得同意。因此,如果穀歌要使用檢索詞預測流感的話,必須征得數億用戶的同意,這簡直無法想象。就算沒有技術障礙,又有哪個公司能負擔得起這樣的人力物力支出呢?同樣,一開始的時候就要用戶同意所有可能的用途,也是不可行的。因為這樣一來,“告知與許可”就完全沒有意義了。大數據時代,告知與許可這個經過了考驗並且可信賴的基石,要麼太狹隘,限製了大數據潛在價值的挖掘,要麼就太空泛而無法真正地保護個人隱私。同時,想在大數據時代中用技術方法來保護隱私也是天方夜譚。我們把穀歌街景作為一個例子來看,穀歌的圖像采集車在很多國家采集了道路和房屋的圖像(以及很多備受爭議的數據)。但是,德國媒體和民眾強烈地抗議了穀歌的行為,因為民眾認為這些圖片會幫助黑幫竊賊選擇有利可圖的目標。有的業主不希望他的房屋或花園出現在這些圖片上,頂著巨大的壓力,穀歌同意將他們的房屋或花園的影像模糊化。但是這種模糊化卻起到了反作用,因為你可以在街景上看到這種有意識的模糊化,對盜賊來說,這又是一個此地無銀三百兩的例子。數據時代這樣確實可行,但是隨著數據量和種類的增多,大數據促進了數據內容的交叉檢驗。2006年8月,美國在線(AOL)公布了大量的舊搜索查詢數據,本意是希望研究人員能夠從中得出有趣的見解。這個數據庫是由從3月1日到5月31日之間的65.7萬用戶的2000萬搜索查詢記錄組成的,整個數據庫進行過精心的匿名化——用戶名稱和地址等個人信息都使用特殊的數字符號進行了代替。這樣,研究人員可以把同一個人的所有搜索查詢記錄聯係在一起來分析,而並不包含任何個人信息。儘管如此,《紐約時報》還是在幾天之內通過把“60歲的單身男性”、“有益健康的茶葉”、“利爾本的園丁”等搜索記錄綜合分析考慮後,發現數據庫中的4417749號代表的是佐治亞州利爾本的一個62歲寡婦塞爾瑪·阿諾德(Thelma Arnold)。當記者找到她家的時候,這個老人驚歎道:“天呐!我真沒想到一直有人在監視我的私人生活。”這引起了公憤,最終美國在線的首席技術官和另外兩名員工都被開除了。事隔僅僅兩個月之後,也就是2006年10月,DVD租賃商奈飛公司做了一件差不多的事,就是宣布啟動“flix Prize”算法競賽。該公司公布了大約來自50萬用戶的一億條租賃記錄,並且公開懸賞100萬美金,舉辦一個軟件設計大賽來提高他們的電影推薦係統的準確度,勝利的條件是把準確度提高10%。同樣,奈飛公司也對數據進行了精心的匿名化處理。然而還是被一個用戶認出來了,一個化名“無名氏”的未出櫃的同性戀母親起訴了奈飛公司,她來自保守的美國中西部。通過把奈飛公司的數據與其他公共數據進行對比分析,得克薩斯大學的研究人員很快發現,匿名用戶進行的收視率排名與互聯網電影數據庫(IMDb)上實名用戶所排的是匹配的。在美國在線的案例中,我們被我們所搜索的內容出賣了。而奈飛公司的情況則是因為不同來源數據的結合暴露了我們的身份。這兩種情況的出現,都是因為公司沒有意識到匿名化對大數據的無效性。科羅拉多大學的法學教授保羅·歐姆(Paul Ohm),同時也是研究反匿名化危害的專家,認為針對大數據的反匿名化(是指通過技術手段從匿名化數據中挖出用戶的真實身份。——譯者注),現在還沒有很好的辦法。畢竟,隻要有足夠的數據,那麼無論如何都做不到完全的匿名化。更糟的是,最近的研究表明,不隻是傳統數據容易受到反匿名化的影響,人們的社交關係圖,也就是人們的相互聯係也將同受其害。與25年之前的民主德國相比,現在我們所受的監控沒有減少,反而變得越來越容易、嚴密以及低成本。采集個人數據的工具就隱藏在我們日常生活所必備的工具當中,比如網頁和智能手機應用程序。我們知道大多數的汽車中都裝了一個“黑盒子”——用來監測安全氣囊激活的情況,而如今,一旦出現具有爭議的交通案件,這個黑盒子所采集的數據就可以在法庭上充當證據。當然,如果企業采集數據隻是來提高績效,我們就不用像被Stasi竊聽那樣而感到那麼害怕。畢竟企業再強大,也不如國家強製力。不過,即使它們不具備國家強製力,想到各種各樣的公司在我們不知情的情況下采集了我們日常生活方方麵麵的數據,並且進行了數據共享以及一些我們未知的運用,這還是很恐怖的。對大數據大加利用的不隻是私營企業,政府也不甘落後。“據《華盛頓郵報》2010年的研究表明,美國國家安全局每天攔截並存儲的電子郵件、電話和其他通信記錄多達17億條。前美國安全局官員威廉·賓尼(William Binney)估計政府采集的美國及他國公民的通信互動記錄有20萬億次之多,其中包括誰和誰通過話、發過電子郵件、進行過電彙等信息。為了弄明白這所有的數據,美國建立了龐大的數據中心,其中美國國家安全局就耗資12億美元在猶他州的威廉姆斯堡建立了一個。”如今,不再隻是負責反恐的秘密機關需要采集更多的數據,所有的政府部門都需要,所以,數據采集擴展到了金融交易、醫療記錄和Facebook狀態更新等各個領域,數據量之巨可想而知。政府其實處理不了這麼多數據,那為什麼要費力采集呢?這是因為在大數據時代,監控的方式已經改變了。過去,調查員為了儘可能多地知道嫌疑人的信息,需要把鱷魚夾夾到電話線上。當時最重要的是能深入調查某個人,而現在情況不一樣了,比如穀歌和Facebook的理念則是人就是社會關係、網上互動和內容搜索的加和。所以,為了全麵調查一個人,調查員需要得到關於這個人的最廣泛的信息,不僅是他們認識的人,還包括這些人又認識哪些人等。過去的技術條件沒法做到這樣的分析,但是今非昔比了。不過,雖然企業和政府擁有的這種采集個人信息的能力,讓我們感到很困擾,但也還是沒有大數據所引起的另一個新問題讓我們更恐慌,那就是用預測來判斷我們。約翰·安德頓(John Aon)是華盛頓特區警局預防犯罪組的負責人。這是特彆的一天,早上,他衝進了住在郊區的霍華德·馬克斯(Howard Marks)的家中並逮捕了他,後者打算用剪刀刺殺他的妻子,因為他發現他妻子給他戴了“綠帽子”。安德頓又防止了一起暴力犯罪案件的發生。他大聲說:“我以哥倫比亞特區預防犯罪科的名義逮捕你,你即將在今天謀殺你的妻子薩拉·馬克斯(Sarah Marks)……”其他的警察開始控製霍華德,霍華德大喊冤枉,“我什麼都沒有做啊!”這是電影《少數派報告》(Minority Report)開始時的場景,這部電影描述的是一個未來可以準確預知的世界,而罪犯在實施犯罪前就已受到了懲罰。雖然電影中預測依靠的不是數據分析,而是三個超自然人的想象,但是《少數派報告》所描述的這個令人不安的社會正是不受限製的大數據分析可能會導致的:罪責的判定是基於對個人未來行為的預測。我們已經看到了這種社會模式的萌芽。30多個州的假釋委員正使用數據分析來決定是釋放還是繼續監禁某人。越來越多的美國城市,從洛杉磯的部分地區到整個裡士滿(美國弗吉尼亞州首府),都采用了“預測警務”(也就是大數據分析)來決定哪些街道、群體還是個人需要更嚴密的監控,僅僅因為算法係統指出他們更有可能犯罪。“在孟菲斯市,一個名為“藍色粉碎”(Blue CRUSH,來自Crime Redu Utilizing Statistical History的縮寫,意為利用統計曆史減少犯罪。——作者注)的項目為警員提供情報,關於哪些地方更容易發生犯罪事件,什麼時候更容易逮到罪犯。這個係統幫助執法部門更好地分配其有限的資源。這個項目自2006年啟動以來,孟菲斯的重大財產和暴力犯罪發生率約下降了26%(雖然這與這個項目不一定有因果關係)。”“在裡士滿市的另一個項目中,警察把犯罪數據與其他數據相關聯,比方說市裡的大公司何時給員工發工資,當地舉辦音樂會或者運動賽事的時間。這證實了警方對犯罪趨勢的預測,有時也會幫助警方推算出更準確的犯罪趨勢。例如,裡士滿市的警察一直覺得在槍擊事件之後會出現一個犯罪高峰期,大數據證明了這種想法,但是也發現了一個漏洞,即高峰不是緊隨槍擊事件而來的,而是兩個星期之後才會出現。”這些係統通過預測來預防犯罪,最終要精準到誰會犯罪這個級彆。這是大數據的新用途。眾多科幻的豐富演繹進一步揭示了機場日常安檢的平庸和困境。美國國土安全部正在研發一套名為未來行為檢測科技(Future Attribute Sing Teology,簡稱FAST)的安全係統,通過監控個人的生命體征、肢體語言和其他生理模式,發現潛在的恐怖分子。研究者認為,通過監控人類的行為可以發現他們的不良意圖。美國國土安全部聲稱,在研究測試中,係統檢測的準確度可以達到70%。(測試方法並不可知,難道是要誌願者假扮恐怖分子,然後看看係統是否能發現他們的不良意圖嗎?)儘管這些研究還處於早期階段,執法者和監管部門還是對其給予了高度重視。我們可以用大數據來預防犯罪,聽起來真不錯。畢竟在犯罪發生之前及時製止比事後再懲罰要好得多,不是嗎?因為我們避免了犯罪的發生,也就挽救了可能被傷害的人,同時社會整體也受益了。但是這很危險,因為如果我們可以用大數據來預防犯罪,我們就可能會想進一步懲罰這個未來的罪犯。這也是符合邏輯的,因為我們會覺得如果隻是阻止了他的犯罪行為而不采取懲罰措施的話,他就可能因為不受損失而再次犯罪;如果我們因為他未實施的犯罪行為而懲罰他的話,可能就會威懾到他。基於預測基礎上的懲罰似乎也是我們現在慣行方法的一種提升。現代社會是建立在預防不健康、危險和非法行為基礎上的。我們為了預防肺癌而減少吸煙率、為了避免在車禍中死亡而係安全帶、為了避免被劫機而不允許帶槍支登機,所有這些預防措施都限製了我們的自由,但是我們願意為了防止更大的災難而做出適當的犧牲。大多數情況下,我們已經在以預測之名采用大數據分析。它把我們放在一個特定的人群之中來對我們進行界定。保險精算表上指出,超過50歲的男性更容易患前列腺癌,所以你如果不幸正好處於這個年齡段,就需要支付更多的保險費用,即使你根本就沒得過這個病。沒有高中文憑的人更容易償還不起債務,所以如果你沒有高中文憑,就可能貸不到款或者必須支付更高的保險費。有的人在過安檢的時候,可能會需要進行額外的檢查,僅僅是因為他帶有某種特定的特征。這都是如今的小數據時代所采用的“畫像”背後的指導思想。在一個數據庫中找到普遍聯係,然後對適用於這種普遍聯係的個人深入勘察。這適用於團體內的每個人,是一條普遍規則。當然,“畫像”意義頗多,不隻意味著對一個特定群體的區分,而且指“牽連犯罪”,不過這是一種濫用,所以“畫像”有嚴重的缺陷。其實,我們一直在用“畫像”來幫助我們確定個人的罪責,大數據所做的並沒有本質的差彆,隻是讓這種方法更完善、更精準、更具體和更個性化。因此,如果大數據預測隻是幫助我們預防不良行為,我們似乎是可以接受的。但是,倘若我們使用大數據預測來判定某人有罪並對其尚未實施的行為進行懲罰,就可能讓我們陷入一個危險的境地。基於未來可能行為之上的懲罰是對公平正義的褻瀆,因為公平正義的基礎是人隻有做了某事才需要對它負責。畢竟,想做而未做不是犯罪。社會關於個人責任的基本信條是,人為其選擇的行為承擔責任。如果有人在被彆人用槍威脅的情況下打開了公司的保險櫃,他並不需要承擔責任,因為他彆無選擇。如果大數據分析完全準確,那麼我們的未來會被精準地預測,因此在未來,我們不僅會失去選擇的權利,而且會按照預測去行動。如果精準的預測成為現實的話,我們也就失去了自由意誌,失去了自由選擇生活的權利。既然我們彆無選擇,那麼我們也就不需要承擔責任,這不是很諷刺嗎?當然,精準的預測是不現實的。大數據分析隻能預測一個人未來很有可能進行的行為。“比方說,賓夕法尼亞大學教授理查德·伯克(Richard Berk)建立了一個大數據模型,他聲稱這個模型可以預測一個判緩刑或者假釋的人一旦提前釋放會不會再次殺人。他輸入了海量的特定案件變量,包括監禁的原因、首次犯罪的時間、年齡、性彆等個人數據。伯克說他的模型對未來行為預測的準確率可以達到75%。這聽起來似乎還不錯。但是,這也意味著如果假釋委員會依靠他的分析,就會在每4個人中出現一次失誤。”但是,主要的問題並不是出在社會需要麵對更多威脅上,而是我們在人們真正犯罪之前對他進行懲罰否定了人的自由權利。我們永遠不會知道這個受懲罰的人是否會真正犯罪,因為我們已經通過預測預先製止了這種行為,如此一來,我們就沒有讓他按照他的意願去做,但是我們卻依然堅持他應該為自己尚未實施的未來行為付出代價,而我們的預測也永遠無法得到證實。這否定了法律係統或者說我們的公平意識的基石——無罪推定原則。因為我們被追究責任,居然是為了我們可能永遠都不會實施的行為。對預測到的未來行為判罪也否認了我們進行道德選擇的能力。大數據預測給我們帶來的威脅,不僅僅局限於司法公正上,它還會威脅到任何運用大數據預測對我們的未來行為進行罪責判定的領域,比如民事法庭案件中判定過失以及公司解雇員工的決策。大數據有利於我們理解現在和預見未來的風險,如此一來,我們就可以相對應地采取應對措施。大數據預測可以幫助患者、保險公司、銀行和顧客,但是大數據不能告訴我們因果關係。相對地,進行個人罪責推定需要行為人選擇某種特定的行為,他的選擇是造成這個行為的原因。但大數據並不是建立在因果關係基礎上的,所以它完全不應該用來幫助我們進行個人罪責推定。麻煩的是,人們習慣性地從因果關係的視角來理解世界。因此,大數據總是被濫用於因果分析,而且我們往往非常樂觀地認為,隻要有了大數據預測的幫助,我們進行個人罪責判定就會更高效。這是一個典型的滑坡,可能直接導致《少數派報告》中的情況成為現實——我們將生活在一個沒有獨立選擇和自由意誌的社會,在這裡我們的道德指標將被預測係統所取代,個人一直受到集體意誌的衝擊。簡單地說,如果一切都成為現實,大數據就會把我們禁錮在可能性之中。大數據大大地威脅到了我們的隱私和自由,這都是大數據帶來的新威脅。但是與此同時,它也加劇了一個舊威脅:過於依賴數據,而數據遠遠沒有我們所想的那麼可靠。要揭示大數據分析的不可靠性,恐怕沒有比羅伯特·麥克納馬拉(Robert Mamara)的例子更貼切的了。麥克納馬拉是一個執迷於數據的人。20世紀60年代早期,在越南局勢變得緊張的時候,他被任命為美國國防部長。任何事情,隻要可以,他都會執意得到數據。他認為,隻有運用嚴謹的統計數據,決策者才能真正理解複雜的事態並做出正確的決定。他眼中的世界就是一堆桀驁不馴的信息的總和,一旦劃定、命名、區分和量化之後,就能被人類馴服並加以利用。麥克納馬拉追求真理,而數據恰好能揭示真理。他所掌握的數據中有一份就是“死亡名單”。麥克納馬拉對數字的執迷從年輕的時候就開始了,當時他還是哈佛商學院的學生,後來,他以24歲的年紀成為了最年輕的副教授。第二次世界大戰期間,他把這種嚴密的數字意識運用到了工作之中,當時他是五角大樓裡被稱為“統計控製隊”中的一名精英,這個隊伍讓世界權力的中心人物都開始依靠數據進行決策。在這之前,部隊一直很盲目。比方說,它們不知道飛機備用零件的種類、數量和放置位置。1943年製作的綜合清單為部隊節省了36億美元。現代戰爭需要資源的合理分配,他們所做的非常了不起。戰爭結束的時候,他們決定通力合作拯救瀕臨倒閉的福特汽車公司。福特二世(Henry Ford Ⅱ)絕望地交出了自己的控製權。就像他們投入戰爭的時候完全不懂軍事一樣,這一次,他們也不關心如何製作汽車。但是奇妙的是,這群精明小子居然救活了福特公司。麥克納馬拉對數據的執迷迅速升溫,開始凡事都考慮數據集。工廠經理迅速地生成麥克納馬拉所要求的數字,不管對錯。他規定隻有在舊車型的所有零件的存貨用完之後才能生產新車型,憤怒的生產線經理們一股腦將剩餘的零件全部倒進了附近的河裡。當前線員工把數據返回的時候,總部的高管們都滿意地點了點頭,因為規定執行得很到位。但是工廠裡盛行一個笑話,是說河麵上可以走人了,因為河裡有很多1950年或者1951年生產的車型的零件,在河麵上走就是在生鏽的零件上走。麥克納馬拉是典型的20世紀經理人——完全依賴數字而非感情的理智型高管,他可以把他的數控理論運用到任何領域。1960年,他被任命為福特汽車公司的總裁,在位隻有幾周,他就被肯尼迪總統任命為美國國防部部長。隨著越南戰爭升級和美軍加派部隊,這變成了一場意誌之戰而非領土之爭。美軍的策略是逼迫越共走上談判桌。於是,評判戰爭進度的方法就是看對方的死亡人數。每天報紙都會公布死亡人數。支持戰爭的人把這作為戰爭勝利的標誌,反戰的人把它作為道德淪喪的證據。死亡人數是代表了一個時代的數據集。1977年,一架直升機從西貢的美國大使館屋頂上撤離了最後一批美國公民。兩年之後,一位退休的將軍道格拉斯·金納德(Dougs Kinnard)發表了《戰爭管理者》(The War Managers)。這是一個關於將軍們對越戰看法的裡程碑式的調查。它揭露了量化的困境。僅僅隻有2%的美國將軍們認為用死亡人數衡量戰爭成果是有意義的,而三分之二的人認為大部分情況下數據都被誇大了。一個將軍評論稱,“那都是假的,完全沒有意義”;另一個說道,“公開撒謊”;還有一個將軍則認為是像麥克納馬拉這樣的人表現出了對數據的極大熱忱,導致很多部門一層一層地將數字擴大化了。就像福特的員工將零件投入河中一樣,下級軍官為了達成命令或者升官,會彙報可觀的數字給他們的上級,隻要那是他們的上級希望聽到的數字。(更典型而悲痛的例子是“大躍進”時期各地瘋狂虛報糧食產量,以至於中央完全沒有意識到20世紀60年代初可怕的饑荒,還在大量出口糧食以換取其他戰略物資。——譯者注)麥克納馬拉和他身邊的人都依賴並且執迷於數據,他認為隻有通過電子表格上有序的行、列、計算和圖表才能真正了解戰場上發生了什麼。他認為掌握了數據,也就進一步接近了真理(上帝)。隨著越來越多的事物被數據化,決策者和商人所做的第一件事就是得到更多的數據。“我們相信上帝,除了上帝,其他任何人都必須用數據說話。”這是現代經理人的信仰,也回響在矽穀的辦公室、工廠和市政廳的門廊裡。善加利用,這是極好的事情,但是一旦出現不合理利用,後果將不堪設想。教育似乎在走下坡路?用標準化測試來檢驗學生的表現和評定對老師或學校的獎懲是不合理的。考試是否能全麵展示一個學生的能力?是否能有效檢測教學質量?是否能反映出一個有創造力、適應能力強的現代師資隊伍所需要的品質?這些都飽受爭議,但是,數據不會承認這些問題的存在。如何防止恐怖主義?創造一層層的禁飛名單、阻止任何與恐怖主義有關的個人搭乘飛機,這真的有用嗎?回答是:值得懷疑。想想那件非常出名的事情,馬薩諸塞州參議員特德·肯尼迪(Ted Kennedy)不就因為僅僅與該數據庫中的一個人名字相同而被誘捕、拘留並且調查了嗎?與數據為伴的人可以用一句話來概括這些問題,“錯誤的前提導致錯誤的結論。”有時候,是因為用來分析的數據質量不佳;但在大部分情況下,是因為我們誤用了數據分析結果。大數據要麼會讓這些問題高頻出現,要麼會加劇這些問題導致的不良後果。我們在書中舉過無數穀歌的例子,我們明白它的一切運作都是基於數據基礎之上的。很明顯,它大部分的成功都是數據造就的,但是偶爾穀歌也會因為數據栽跟頭。穀歌公司的創始人拉裡·佩奇和謝爾蓋·布林一直強調要得到每個應聘者申請大學時的SAT成績以及大學畢業時的平均績點。他們認為,前者能彰顯潛能,後者則展現成就。因此,當40多歲、成績斐然的經理人在應聘時被問到大學成績的時候,就完全無法理解這種要求。儘管公司內部研究早就表明,工作表現和這些分數根本沒有關係,穀歌依然冥頑不化。穀歌本應該懂得抵製數據的獨裁。考試結果可能一生都不會改變,但是它並不能測試出一個人的知識深度,也展示不出一個人的人文素養,學習技能之外,科學和工程知識才是更適合考量的。穀歌在招聘人才方麵如此依賴數據讓人很是費解,要知道,它的創始人可是接受過注重學習而非分數的蒙台梭利教育。穀歌就是在重蹈前人覆轍,過去美國的科技巨頭們也把個人簡曆看得比個人能力重要。如果按穀歌的做法,其創始人都沒有資格成為傳奇性的貝爾實驗室的經理,因為他們都在博士階段輟學了;比爾·蓋茨和馬克·紮克伯格也都會被淘汰,因為他們都沒有大學文憑。穀歌對數據的依賴有時太誇張了。瑪麗莎·邁爾(Marissa Mayer)曾任穀歌高管職位,居然要求員工測試41種藍色的陰影效果中,哪種被人們使用最頻繁,從而決定網頁工具欄的顏色。穀歌的數據獨裁就是這樣達到了頂峰,同時也激起了反抗。2009年,穀歌首席設計師道格·鮑曼(Doug Bowman)因為受不了隨時隨地的量化,憤然離職。“最近,我們竟然爭辯邊框是用3、4還是5倍像素,我居然被要求證明我的選擇的正確性。天呐!我沒辦法在這樣的環境中工作,”她離職後在博客上麵大發牢騷,“穀歌完全是工程師的天下,所以隻會用工程師的觀點解決問題——把所有決策簡化成一個邏輯問題。數據成為了一切決策的主宰,束縛住了整個公司。”史蒂夫·喬布斯多年來持續不斷地改善Mac筆記本,依賴的可能是行業分析,但是他發行的iPod、iPhone和iPad靠的就不是數據,而是直覺——他依賴於他的第六感。當記者問及喬布斯蘋果推出iPad之前做了多少市場調研時,他那個著名的回答是這樣的:“沒做!消費者沒義務去了解自己想要什麼。”詹姆斯·斯科特(James Scott)教授是耶魯大學政治學和人類學教授,他在《國家的視角》(Seeing Like a State)一書中記錄了政府如何因為它們對量化和數據的盲目崇尚而陷人民的生活於水深火熱之中。它們使用地圖來確定社區重建,卻完全不知道其中民眾的生活狀態。它們使用大量的農收數據來決定采取集體農莊的方式,但是它們完全不懂農業。它們把所有人們一直以來用之交流的不健全和係統的方式按照自己的需求進行改造,隻是為了滿足可量化規則的需要。在斯科特看來,大數據使用成了權力的武器。這是數據獨裁放大了的寫照。同樣,也是這種自大導致美國基於死亡人數而不是更理智的衡量標準來擴大越南戰爭的規模。1976年,在與日俱增的國內壓力下,麥克納馬拉在一次演講中說道,“事實上,真的不是每一個複雜的人類情況都能簡化為曲線圖上的線條、圖表上的百分點或者資產負債表上的數字。但是如果不對可量化的事物進行量化,我們就會失去全麵了解該事物的機會。”20世紀70年代,羅伯特·麥克納馬拉一直擔任世界銀行行長。20世紀80年代,他儼然變成了和平的象征。他為反核武器和環境保護搖旗呐喊。然後,他經曆了一次思想的轉變並且出版了一本回憶錄《回顧:越戰的悲劇與教訓》(Irospect:The Tragedy and Lessons of Vietnam),書中批判了戰爭的錯誤指導思想並承認了他當年的行為“非常錯誤”,他寫道,“我們錯了,大錯特錯!”但書中還是隻承認了戰爭的整體策略的錯誤,並未具體流露出對數據和“死亡人數”飽含感情的懺悔。他承認統計數據具有“誤導或者迷惑性”,“但是對於你能計算的事情,你應該計算;死亡數就屬於應該計算的……”2009年,享年93歲的麥克納馬拉去世,他被認為是一個聰明卻並不睿智的人。把大數據等同於死亡人數,我們隻需要想想上文提到的穀歌流感趨勢。設想一下致命的流感正肆虐全國,而這並不是完全不可能出現的;醫學專家們會非常感激通過檢索詞條,我們能夠實時預測流感重災地,他們也就能及時去到最需要他們的地方。但是在危急時刻,政府領導可能會認為隻知道哪裡流感疫情最嚴重還遠遠不夠。如果試圖抑製流感的傳播,就需要更多的數據。所以他們呼籲大規模的隔離,當然不是說隔離這個地區的所有人,這樣既無必要也太費事。大數據能給我們更精確的信息,所以我們隻需隔離搜索了和流感有最直接關係的人。如此,我們有了需要隔離的人的數據,聯邦特工隻需通過IP地址和移動GPS提供的數據,找出該用戶並送入隔離中心。我們可能覺得,這種做法很合理,但是事實上,這是完全錯誤的。相關性並不意味著有因果關係。通過這種方式找出的人,可能根本就沒有感染流感。他們隻是被預測所害,更重要的是,他們成了誇大數據作用同時又沒有領會數據真諦的人的替罪羊。穀歌流感趨勢的核心思想是這些檢索詞條和流感爆發相關,但是這也可能隻是醫療護工在辦公室聽到有人打噴嚏,然後上網查詢如何防止自身感染,而不是因為他們自己真的生病了。大數據為監測我們的生活提供了便利,同時也讓保護隱私的法律手段失去了應有的效力。麵對大數據,保護隱私的核心技術不再適用了。同樣,通過大數據預測,對我們的未來想法而非實際行為采取懲罰措施,也讓我們惶恐不安,因為這否認了自由意誌並傷害了人類尊嚴。同時,那些嘗到大數據益處的人,可能會把大數據運用到它不適用的領域,而且可能會過分膨脹對大數據分析結果的信賴。隨著大數據預測的改進,我們會越來越想從大數據中掘金,最終導致一種盲目崇拜,畢竟它是如此的無所不能。這就是我們必須從麥克納馬拉的故事中引以為戒的。必須杜絕對數據的過分依賴,以防我們重蹈伊卡洛斯(希臘神話人物,是希臘神話中代達羅斯的兒子。與代達羅斯使用蠟和羽毛造的雙翼逃離克裡特島時,因過於自信,飛得太高,雙翼上的蠟遭太陽炙烤融化而跌落水中喪生,被埋葬在一個海島上。為了紀念伊卡洛斯,埋葬伊卡洛斯的海島被命名為伊卡利亞。——編者注)的覆轍。他就是因為過分相信自己的飛行技術,最終誤用了數據而落入了海中。下一章,我們將探討如何讓數據為我們所用,而不讓我們成為數據的奴隸。

举报本章错误( 无需登录 )