04 數據化:一切皆可“量化”(1 / 1)

“大數據發展的核心動力來源於人類測量、記錄和分析世界的渴望。信息技術變革隨處可見,但是如今的信息技術變革的重點在“T”(技術)上,而不是在“I”(信息)上。現在,我們是時候把聚關燈打向“I”,開始關注信息本身了。”馬修·方丹·莫裡(Matthew Fontaine Maury)是一位很有前途的美國海軍軍官。1839年,在他前往雙桅船“合奏號”(sort)接受一個新任務時,他乘坐的馬車突然滑出了車道,瞬間傾倒,把他拋到了空中。他重重地摔到了地上,大腿骨粉碎性骨折,膝蓋也脫臼了。當地的醫生幫他複位了膝蓋關節,但大腿受傷過重,幾天後還需要重新手術。直到33歲,他的傷才基本痊愈,但是受傷的腿卻留下了殘疾,變得有點兒跛,再也無法在海上工作。經過近三年的休養,美國海軍把他安排進了辦公室,並任命他為圖表和儀器廠的負責人。誰也想不到,這裡竟成了他的福地。作為一位年輕的航海家,莫裡曾經對船隻在水上繞彎兒不走直線而感到十分不解。當他向船長們問及這個問題時,他們回答說,走熟悉的路線比冒險走一條不熟悉而且可能充滿危險的路線要好得多。他們認為,海洋是一個不可預知的世界,人隨時都可能被意想不到的風浪困住。但是從他的航行經驗來看,莫裡知道這並不完全正確。他經曆過各種各樣的風暴。一次,他聽到來自智利瓦爾帕萊索擴展港口的預警,親眼目睹了當時刮成圓形的風就像鐘表一樣;但在下午晚些或日落的時候,大風突然結束,靜下來變成一陣微風,仿佛有人關了風的開關一樣。在另一次遠航中,他穿過墨西哥藍色海域的暖流,感覺就像在大西洋黑黢黢的水牆之間穿行,又好像在密西西比河靜止不動的河麵上挺進。當莫裡還是一個海軍軍官學校的學生時,他每次到達一個新的港口,總會向老船長學習經驗知識,這些經驗知識是代代相傳下來的。他從這些老船長那裡學到了潮汐、風和洋流的知識,這些都是在軍隊發的書籍和地圖中無法學到的。相反,海軍依賴於陳舊的圖表,有的都使用了上百年,其中的大部分還有很重大的遺漏和離譜的錯誤。在他新上任為圖表和儀器廠負責人時,他的目標就是解決這些問題。他清點了庫房裡的氣壓計、指南針、六分儀和天文鐘。他發現,庫房裡存放著許多航海書籍、地圖和圖表;還有塞滿了舊日誌的發黴木箱,這些都是以前的海軍上尉寫的航海日誌。剛開始的時候,他覺得這些都是垃圾,但當他拍掉被海水浸泡過的書籍上的灰塵,凝視著裡麵的內容時,莫裡突然變得非常激動。這裡有他所需要的信息,例如對特定日期、特定地點的風、水和天氣情況的記錄。大部分信息都非常有價值。莫裡意識到,如果把它們整理到一起,將有可能呈現出一張全新的航海圖。這些日誌是無章可循的;頁麵邊上儘是奇怪的打油詩和亂七八糟的信手塗鴉,與其說它們是對航海行程的記錄,還不如說它們是船員在航海途中無聊的娛樂而已。儘管如此,仍然可以從中提取出有用的數據。莫裡和他的20台“計算機”——那些進行數據處理的人,一起把這些破損的航海日誌裡記錄的信息繪製成了表格,這是一項非常繁重的工作。莫裡整合了數據之後,把整個大西洋按經緯度劃分成了五塊,並按月份標出了溫度、風速和風向,因為根據時間的不同這些數據也有所不同。整合之後,這些數據顯示出了有價值的模式,也提供了更有效的航海路線。“有經驗的海員有時依靠經驗能安全航海,但有時也會陷入危險之中。在從紐約到裡約熱內盧這條繁忙的航線上,水手們往往傾向於與自然鬥爭而不是順應自然。美國船長一直被勸導前往裡約熱內盧不能通過海峽,因為那樣存在很大風險,所以船長會選擇在東南方向的航線上航行,再穿過赤道駛向西南方向。而這樣一來,航行的距離就相當於穿越大西洋兩次。這是很荒謬的,其實直接沿著海峽向南航行就可以了。”為了提高精確度,莫裡需要更多的信息,因此他創建了一個標準的表格來記錄航海數據,並且要求美國所有的海軍艦艇在海上使用,返航後再提交表格。商船也拚命地想得到他的圖表,莫裡就要求以他們的航海日誌作為回報(病毒型社交網絡(一種在線社交網絡,其典型營銷方式是,一旦你加入了,係統會自動從你注冊或關聯的郵箱中找到聯係人,並發信邀請他們加入。很多讀者應該都收到過LinkedIn的邀請信,就是一個典型的例子。——譯者注)的早期版本)。他宣稱:“每艘航行在公海上的船舶從此以後都可以被視為一個浮動的天文台,一個科學的殿堂。”為了改進和完善圖表,他需要尋求更多的數據(正如穀歌利用網頁排名來獲得更多的數據)。莫裡讓船長定期向海裡扔擲標有日期、位置、風向以及當時洋流情況的瓶子,然後再來尋找這些瓶子。通過分析這些數據,莫裡知道了一些良好的天然航線,這些航線上的風向和洋流都非常利於航行。他所繪製的圖表幫助商人們節省了一大筆錢,因為航海路程減少了三分之一左右。一個船長感激地說:“我在得到你的圖表之前都是在盲目地航行,你的圖表真的指引了我。”有一些頑固的人拒絕使用這個新製的圖表,而當他們因為使用舊方法航行到半路出了事故或者花費的航行時間長很多的時候,他們反而幫助證明了莫裡係統的實用性。1855年,莫裡的權威著作《關於海洋的物理地理學》(The Physical Geography of the Sea)出版,當時他已經繪製了120萬數據點了。莫裡寫道,在這些圖表的幫助下,年輕的海員們不用再親自去探索和總結經驗,而能夠通過這些圖表立即得到來自成千上萬名經驗豐富的航海家的指導。他的工作為第一根跨大西洋電報電纜的鋪設奠定了基礎。同時,在公海上發生了一次災難性的碰撞事件之後,他馬上修改了他的航線分析係統,這個修改後的係統一直沿用至今。他的方法甚至應用到了天文學領域,1846年當海王星被發現的時候,莫裡有了一個好點子,那就是把錯把海王星當成一顆恒星時的數據都彙集起來,這樣就可以畫出海王星的運行軌跡了。這個土生土長的弗吉尼亞人在美國曆史上並不受關注,這也許是因為他在美國內戰期間不再為海軍效力,而是搖身一變成為了美國聯邦政府在英國的間諜。但是多年前,當他前去到歐洲為他繪製的圖表尋求國際支持的時候,四個國家授予了他爵士爵位,包括梵蒂岡在內的其他八個國家還頒給了他金牌。即使到今天,美國海軍頒布的導航圖上仍然有他的名字。龐大的數據庫有著小數據庫所沒有的價值,莫裡中校是最早發現這一點的人之一。大數據的核心就是挖掘出龐大的數據庫獨有的價值。更重要的是,他深知隻要相關信息能夠提取和繪製出來,這些臟亂的航海日誌就可以變成有用的數據。通過這樣的方式,他重複利用了彆人眼裡完全沒有意義的數據信息。從這個意義上講,莫裡就是數據化的先驅。就像奧倫·埃齊奧尼對Farecast所做的事情一樣,用航空業過去的價格信息催生了一個大有賺頭的新公司;也像穀歌的工程師所做的一樣,通過過去的檢索記錄預測到了流感的爆發;而莫裡則是發揮出了單純用於記錄航行位置的數據的其他用途。雖然與今天的大數據技術大體類似,但是一想到他是通過人工一筆一畫完成的圖表繪製,就讓人不禁感到驚歎。如今我們經常把“數字化”和“數據化”這兩個概念搞混,但是對這兩個概念的區分實際上非常重要。我們來看一個更加現代的例子,幫助我們理解數據其實可以從看上去最不可能的東西中提取出來。越水重臣教授把一個從不被認為是數據、甚至不被認為和數據沾邊的事物轉化成了可以用數值來量化的數據模式。同樣,莫裡中校從看上去沒什麼用處的事物中提取出了信息,轉化成了極其有用的數據。這樣創新性的應用創造出了這些信息獨特的價值。“數據”(data)這個詞在拉丁文裡是“已知”的意思,也可以理解為“事實”。這是歐幾裡得的一部經典著作的標題,這本書用已知的或者可由已知推導的知識來解釋幾何學。如今,數據代表著對某件事物的描述,數據可以記錄、分析和重組它。我們還沒有合適的詞用來形容莫裡和越水重臣教授所做的這些轉變,所以我們姑且稱其為“數據化”吧——數據化和數字化大相徑庭。為了得到可量化的信息,我們要知道如何計量;為了數據化量化了的信息,我們要知道怎麼記錄計量的結果。這需要我們擁有正確的工具。計量和記錄的需求也是數據化的前提,而我們在數字化時代來臨的幾個世紀前就已經奠定好了數據化的基礎。記錄信息的能力是原始社會和先進社會的分界線之一。早期文明最古老的抽象工具就是基礎的計算以及長度和重量的計量。公元前3000年,信息記錄在印度河流域、埃及和美索不達米亞平原地區就有了很大的發展,而日常的計量方法也大有改善。美索不達米亞平原上書寫的發展促使了一種記錄生產和交易的精確方法的產生,這讓早期文明能夠計量並記載事實情況,並且為日後所用。“計量和記錄能夠再現人類活動。比如通過記錄建築物的建築方式和原材料,我們就能再建同樣的建築,或進行實驗性的操作,比如通過改變一些方式保存其他部分而建造出新的建築物,然後再記錄這些新建築物。交易情況一旦得到記錄,我們就可以知道一塊地豐收時稻穀的產量是多少、需要上繳多少政府稅收。計量和記錄為預測和計劃奠定了基礎,雖然這建立在假定明年的收成和今年一樣的基礎上。有了記錄,交易雙方才會知道他們賒賬的情況,而如果沒有這些憑證的支持,欠債的一方則完全可以不用還錢。”幾百年來,計量從長度和重量不斷擴展到了麵積、體積和時間。公元前的最後一個千年,西方的計量方法已經基本準備就緒,但是還是有著比較嚴重的缺陷。早期文明的計量方法不太適合計算,哪怕是比較簡單的計算。比如羅馬數字的計算係統就不適合數字計算,因為它沒有一個以10為底的記數製或者說是十進製,所以大數目的乘除就算是專家都不知道該怎麼算,而簡單的乘除對一般人來說也不容易。“大約公元1世紀的時候,印度發明了一種自己的數字係統。它傳播到了波斯,並在那裡得到改善,而後傳入阿拉伯國家,得到了極大的改進。這也就是今天使用的阿拉伯數字的前身。十字軍東征給當地人民帶來了徹頭徹尾的災難,但同時也把西歐文明帶到了地中海東部,而其中最重要的引入就是阿拉伯數字。公元1000年,教皇西爾維斯特二世開始倡導使用阿拉伯數字。12世紀,介紹阿拉伯數字的書籍被翻譯成拉丁文,傳播到了整個歐洲地區。這也就開啟了算術的騰飛。”早在阿拉伯數字傳播到歐洲之前,計數板的使用就已經改善了算術。計數板就是在光滑的托盤上放上代幣來表示數量,人們通過移動代幣到某個區域進行加減。但是,這種計數板有著嚴重的缺陷,即過大和過小的計算無法同時進行。最主要的缺陷還在於,這些計數板上的數字變化很快,不小心的碰撞或者是擺錯一位都會導致完全錯誤的結果。而且,即便計數板勉強可以進行計算,它也不適合用來記錄。因為一旦需要將數字記錄在計數板以外的地方,就必須把計數板上的數字轉化成羅馬數字,這可就費時費力了。(歐洲人沒有接觸過東方的算盤,後來證明這是很有利的,因為算盤可能會加劇羅馬數字在西方的盛行。——作者注)算術賦予了數據新的意義,因為它現在不但可以被記錄還可以被分析和再利用。阿拉伯數字從12世紀開始在歐洲出現,而直到16世紀晚期才被廣泛采用。到16世紀的時候,數學家們大肆鼓吹他們使用阿拉伯數字計算能比使用計數板快6倍。但最終讓阿拉伯數字廣為采用的還是複式記賬法(所謂複式記賬法,是指以資產與權益平衡關係作為記賬基礎,對於每一項經濟業務,都要在兩個或兩個以上的賬戶中相互聯係進行登記,係統地反映資金運動變化結果的一種記賬方法。複式記賬的理論依據是會計基本等式,即“資產=負債+所有者權益”。——譯者注)的出現,它也是數據化的一種工具。公元前3000年,會計手稿就出現了。但是,記賬法在接下來的幾百年裡發展緩慢,基本上一直保持在記錄某地的某個特定交易的階段。記賬人和他的雇主最關心的就是判斷某個賬戶或者自己所從事的行業是否賺錢,而這正是當時的記賬手法無法輕易做到的事情。到了14世紀,隨著意大利的會計們開始使用兩個賬本記錄交易明細,這種尷尬的境地開始發生改變。這種記賬法的優勢在於,人們隻需要將借貸相加,就可進行製表並得知每個賬戶的盈虧情況。如此,數據驟然發聲了,雖然僅限於讀出盈虧情況。如今,複式記賬法通常被看成是會計業和金融業不斷發展的成果。事實上,在數據利用的推進過程中,它也是一個裡程碑似的存在。它的出現實現了相關賬戶信息的“分門彆類”記錄。它建立在一係列記錄數據的規則之上,也是最早的信息記錄標準化的例子,使得會計們能夠讀懂彼此的賬本。複式記賬法可以使查詢每個賬戶的盈虧情況變得簡單容易。它會提供交易的記賬線索,這樣就更容易找到需要的數據。它的設計理念中包含了“糾錯”的思想,這也是今天的技術人才們應該學習的。如果一個賬本看著不對勁,我們可以查詢另一個相對應的賬本。但是,和阿拉伯數字一樣,複式記賬法也沒有立即取得成功。直到200年之後,一個數學家和一個商業家族才讓它大受歡迎,他們也改變了數據化的曆史。這個數學家就是方濟各會的修士路薩·帕西奧利(Luca Pacioli)。1494年,他出版了一本為普通讀者和商人所寫的數學教材。這本書大獲成功,成為盛行一時的數學教科書。這是第一本全書都使用阿拉伯數字的書籍,因此也促進了阿拉伯數字在歐洲的傳播。當然,這本書最大的貢獻在於它對複式記賬法的詳儘論述。接下來的幾十年間,這個論述複式記賬法的部分被分彆譯成了6種語言,並且成為幾個世紀的通用範本。而所謂的一個商業家族,就是指美第齊家族——威尼斯商人和藝術資助人。16世紀,這個家族能成為歐洲最有影響力的銀行家族,很大一部分要歸功於他們使用的一種高級數據記錄方法——複式記賬法。伴隨著數據記錄的發展,人類探索世界的想法一直在膨脹,我們渴望能更精準地記錄時間、距離、地點、體積和重量,等等。到了19世紀,隨著科學家們發明了新工具來測量和記錄電流、氣壓、溫度、聲頻之類的自然科學現象,科學已經離不開定量化了。那是一個一切事物都需要被測量、劃分和記錄的時代,人們理解自然的熱情甚至高漲到通過分析測量人的顱骨來試圖分析人的心智能力。好在,對顱相學這類偽科學的熱情最終淡去了,但是人類對於量化一切的熱情卻始終沒有減退。新工具和開放的思維促進了測量事物和記錄數據的繁榮,而現代數據化就誕生於這片沃土之中。數據化的基礎已經奠定完好,隻是在模擬時代這依然是費時費力的。有時候似乎需要無窮無儘的激情和耐心,或者說,起碼也要有奉獻一生的準備,比如16世紀的第穀·布拉赫(Tycho Brahe)就夜夜細心觀察天體運動。數據化在模擬時代成功的例子並不多,因為這需要很好的運氣——一大串的偶然巧妙地結合在一起。中校莫裡就很幸運,他因傷坐進了辦公室,但是卻在那裡發現了珍貴的航海日誌,可不是每個人都能這麼幸運的。然而,數據化的實現有一點必不可少,那就是要從潛在的數據中挖掘出巨大的價值,然後揭示出新的深刻洞見。計算機的出現帶來了數字測量和存儲設備,這樣就大大提高了數據化的效率。計算機也使得通過數學分析挖掘出數據更大的價值變成了可能。簡而言之,數字化是把模擬數據變成計算機可讀的數據,和數據化有本質上的不同。數字化和數據化的差異是什麼?回答這個問題很容易,我們來看一個兩者同時存在並且起作用的領域就可以理解了,這個領域就是書籍。2004年,穀歌發布了一個野心勃勃的計劃:它試圖把所有版權條例允許的書本內容進行數字化,讓世界上所有的人都能通過網絡免費這些書籍。為了完成這個偉大的計劃,穀歌與全球最大和最著名的圖書館進行了合作,並且還發明了一個能自動翻頁的掃描儀,這樣對上百萬書籍的掃描工作才切實可行且不至於太過昂貴。剛開始,穀歌所做的是數字化文本,每一頁都被掃描然後存入穀歌服務器的一個高分辨率數字圖像文件中。書本上的內容變成了網絡上的數字文本,所以任何地方的任何人都可以方便地進行查閱了。然而,這還是需要用戶要麼知道自己要找的內容在哪本書上,要麼必須在浩瀚的內容中尋覓自己需要的片段。因為這些數字文本沒有被數據化,所以它們不能通過搜索詞被查找到,也不能被分析。穀歌所擁有的隻是一些圖像,這些圖像隻有依靠人的才能轉化為有用的信息。雖然這是一個現代的、數字化的亞曆山大圖書館,比曆史上任何一個圖書館都要強大,但穀歌依然希望它能做得更多。穀歌知道,這些信息隻有被數據化,它的巨大潛在價值才會被釋放出來。因此穀歌使用了能識彆數字圖像的光學字符識彆軟件來識彆文本的字、詞、句和段落,如此一來,書頁的數字化圖像就轉化成了數據化文本。如今,不僅人類可以使用這些文本信息,計算機也可以處理和分析這些文本數據了。通過檢索和查詢,我們可以對它進行無窮無儘的文本分析;也可以揭示一個詞以及詞組第一次出現的時間及其成為流行詞的時間,據此發現幾百年來人類思維發展和思想傳播的軌跡。這種分析支持好幾種語言。15世紀中葉,人類發明了印刷機,在這之後大約出版了1.3億冊圖書。到2010年為止,也就是穀歌的數字化圖書計劃實行7年之後,大約有2000萬圖書被掃描成了數字圖書,這幾乎相當於人類所有書寫文明的15%,這是多麼驚人的數字!這誘發了一個新的學術方向——文化組學(文化組學英文叫做culturomics,是“文化”和“基因組學”兩個詞的合並。本書中提到的哈佛研究組是文化組學最早的倡導者,其核心人員艾略茲·利波曼·埃頓(Erez Lieberman Aiden)以前是研究基因組學的。——譯者注)。“文化組學”是一個計算機專業詞彙,指的就是通過文本的定量分析來揭示人類行為和文化發展的趨勢。在一項研究中,哈佛大學的研究員們對幾百萬冊書籍和超過5000億個單詞進行了深入研究,發現這些書中出現過的單詞有一半以上在字典中是無法找到的。(出現一次是出現,出現一億次也是出現。雖然有一半以上的詞都是新詞怪詞,但這些詞語出現的頻率很低,很多就隻出現一兩次,而“the”這個單詞就出現了數百億次。所以說,絕大部分單詞還是我們認識的。——譯者注)他們寫道,這些因為不夠規範而沒有錄入正規詞典中的詞彙如此之多,是一個巨大的寶藏。通過係統分析人們如何提及納粹德國時期的猶太畫家馬克·夏加爾(Marc Chagall)(由於是猶太人,他的很多作品都被查封了。——作者注),他們發現對於思想或是個人的審查和壓製會留下“可量化的痕跡”。詞語就像是藏於書中而非沉積岩中的化石;信奉“文化組學”的人可以像考古學家一般,挖掘它們所蘊藏的財富。當然,這可能會導致一些可能的偏差,比如圖書館的書籍是不是真實地反映了現實呢?還是反映的隻是作者和圖書管理員看到的世界?儘管如此,“文化組學”還是會為人們帶來很多驚喜的發現。但是作為典型的大數據公司,穀歌自然知道收集信息並進行數據化的價值,因為這些數據有非常多的潛在用途。所以,穀歌精明地利用這些數據化了的文本來改進它的機器翻譯服務。就像第3章介紹過的一樣,這個係統會自動掃描譯本,然後找出譯語的單詞和詞組在源語中的對應詞和詞組是什麼。一旦得到答案,係統就可以把翻譯看成是一個簡單的數學問題,隻需要用電腦找出兩種語言之間最恰當的對等詞和詞組。“當然,穀歌並不是第一個夢想在計算機時代喚醒書寫文明所蘊含的財富的公司,它也不是第一個吃螃蟹的人。1971年,一個誌願者提出倡議把公共領域的書籍放上網絡,製成電子書,方便更多的人,這就是古登堡計劃(Project Gutenburg)。這是非常有意義的,但是這個計劃沒有把書籍數據化,也沒有開發出書籍的其他功能;它關注的是,而不是擴充書籍用途。同樣地,出版社多年來也一直致力於電子書領域的開發,但是他們都隻是把書籍內容作為核心價值,而沒有把書籍看作一種數據並納入自己的商業模式中。因此,他們沒有做到把書籍的數據價值挖掘出來,也不允許彆人這樣做。他們沒有看到數據化的需求,也意識不到書籍的數據化潛力。”藏書網現在很多公司都在電子書領域激烈地競爭著,亞馬遜連同它的Kindle電子書就是這個領域的先驅者。同樣在這裡,亞馬遜和穀歌的發展策略差異顯而易見。亞馬遜擁有數據化的書籍,卻不曾挖掘書籍數據化之後的附加價值。該公司創始人兼執行總裁貝索斯說服了上百家出版社在Kindle上發布它們的圖書,所以Kindle的圖書並不是數字圖像,人們可以更改字體大小和用黑白以及彩色兩種方式看書。這些書籍是數據化了的,不隻是數字化。事實上,亞馬遜把上百萬的新書都數據化了,而穀歌卻在費力地數據化很多舊版本的數據。然而,亞馬遜把它的眼光聚焦於用來的書籍內容上,而不是分析數據化文本上。當然,有可能它麵對了來自傳統出版社的壓力,後者可能限製了書籍內容的使用方法,畢竟版權在人家手中。穀歌,作為一個喜歡跨界的叛逆的大數據公司,就沒有這樣的壓力了,畢竟穀歌的資源來源於用戶點擊,而不關出版社什麼事。至少現在,可以不失公允地說,亞馬遜深諳數字化內容的意義,而穀歌觸及了數據化內容的價值。地球本身構成了世界上最基礎的信息。但是,曆史上它幾乎從來沒有被量化和數據化過。其實,人和事物的地理定位自然是信息的組成部分,不然我們如何能夠吟唱“所謂伊人,在水一方”,但是,這些信息需要轉變為數據。在西方,對位置信息的量化起源於希臘。公元前200年,埃拉托色尼發明了用格網線來劃分區域的係統,類似於經緯度法。但是,如同很多古代的好想法一樣,它也在曆史長河中被慢慢遺忘了。大約1500年之後,也就是公元1400年,托勒密著成的《地理學》(Geographia)的複印本從君士坦丁堡傳到了佛羅倫薩,那正是文藝複興和貿易船點燃了對科學和古典知識的熱情的時候。著作轟動一時,而書中提到的係統現在仍被用來解決航海導航的難題。從那以後,地圖上標上了經緯度和比例尺。這套係統在1570年得到了佛蘭德製圖師墨卡托的改善,至此海員們就能利用它畫出筆直的航線了。雖然那時就出現了記錄地理方位的方法,但卻缺乏廣為認可的標記標準,使得信息共享依然難以實現。人們急需一套標準的標記係統,就像互聯網需要有域名才能正常運行一樣。經緯度的標準化是一個漫長的過程。直到1884年,在美國華盛頓召開的國際子午線會議上,25個與會國家中的24個國家一致同意將英格蘭格林尼治定為本初子午線和零度經線所穿過的地方(隻有自命不凡的法國投了棄權票)。20世紀40年代,墨卡托方位法把世界劃分成了60個區域,提高了地理定位的精確性。這樣一來,地理定位信息終於能在標準化的數值範式下進行標記、記錄、測量、分析和共享了。但是因為在模擬數據時代,測量和記錄地理位置信息耗費很大,人們很少執行。因此,發明能低成本測量地理方位的工具迫在眉睫。到20世紀70年代,進行地理位置定位還隻能依靠地標、天文星座、航位推測法和尚顯欠缺的無線電定位技術。“1978年見證了一個偉大的轉變,當時構成全球定位係統(GPS)的24顆衛星第一次發射成功。無論是汽車上的導航係統還是智能手機,地麵上的接收器都能通過計算接收信號所需時間的差異對它們進行三角定位,而這些信號就來自於距離我們20372千米的天空。20世紀80年代,這個係統第一次對民用開放,到90年代才完全投入使用,而同時為了實現商業運用,它的精確度在十年後得到了大幅提升。如今,全球定位係統的地理定位能精確到米,就這樣,它實現了自古以來無數航海家、製圖家和數學家的夢想。通過與技術手段的融合,全球定位係統能夠快速、相對低價地進行地理定位,而且不需要任何專業知識。”定位時時刻刻都可能生成信息。隻要願意,埃拉托色尼或者墨卡托大可以每時每刻都對他們所處的位置進行定位,這誰也管不著。但就算這是可行的,也不現實。同樣地,早期的接收器非常複雜和昂貴,適用於潛艇而不是出租車。幸好,改變發生了,這多虧了數字設備中廉價芯片的普及。GPS導航的價格由20世紀90年代的上百美元驟降到了今天的1美元以下。用GPS進行定位一般僅需要幾秒鐘的時間,它使用的是標準化坐標表示法;所以37°14′06″N 115°48′40″W說明這個人一定是位於內華達州偏遠的51號區域(Area 51),一個美軍超高安全、超級保密的軍事基地——傳說那裡麵關的都是外星人呢!如今,GPS已經隻是眾多定位係統中的一種了。中國和歐洲也正在研發新的衛星定位係統來與之抗衡。這些新係統通過對電塔和無線路由器的信號強度進行三角測量來定位地理位置,從而彌補了GPS無法在室內和高樓之間進行定位的缺陷,這也是穀歌、蘋果和微軟需要自己研發地理定位係統來輔助GPS的原因。穀歌的街景車(Street View Cars)邊拍照邊收集無線路由器信息;iPhone本身就是一個“移動間諜”,一直在用戶不知情的情況下收集位置和無線數據然後傳回蘋果公司;當然,穀歌的安卓手機和微軟的手機操作係統也在收集這一類數據。除了人以外,我們也可以跟蹤事物的地理位置信息。隨著汽車裝上了無線傳感器,地理位置信息的數據化深刻變革了保險的概念。這些數據提供了關於時間、地點和實際行駛路程的詳細信息,使保險公司能更好地為車險定價。在英國,車主可以根據他的實際駕駛地點和時間購買汽車保險,而不是隻能根據他的年齡、性彆和履曆來購買年險。這種保險定價法激勵投保人產生更好的行為習慣。同時,這改變了保險的基礎,從考慮一個群體的平均風險轉變為個性化的分析。通過汽車定位每個人的地理方位也改變了一些固定資產投入的模式,比方說公路和其他基礎設施可以讓使用這些資源的司機和其他人分擔一部分投入。當然,在實現對所有人和事以數據形式保持持續定位之前,這顯然還無法實現,但這是我們的發展方向。萊維斯說,“預測給我們知識,而知識賦予我們智慧和洞見。”他很確信,有一天,這個係統一定能在用戶意識到問題之前預測到並且解決問題。數據化實時位置信息在人身上的運用最為顯著。多年來,無線運營商通過收集和分析這些信息來提升移動互聯網的服務水平。不過,這些數據越來越多地被用於其他事情上,第三方也開始利用這些數據來提供新的服務。比方說,一些智能手機的應用程序也不管它本身是否具有定位功能,就收集位置信息;還有一些應用程序就是為了獲得用戶的位置信息而存在的,比如Foursquare,它讓用戶在最喜愛的地方“che”,通過忠誠度計劃、酒店推薦和“che”地點附近的其他推薦而獲得好處。毋庸置疑,收集用戶地理位置數據的能力已經變得極其具有價值。從個人層麵上來說,根據他所居住的地點和他要去的地方的預測數據,可以為他提供定製廣告。而且,這些信息彙集起來可能會揭示事情的發展趨勢。(通過記錄和分析北京市出租車兩年的GPS數據,微軟亞洲研究院的謝幸及其同事可以向司機提供不同時段的最佳出行路線。——譯者注)比方說,公司可以利用大量的位置數據預測交通情況,你也許無法想象,這是通過高速公路上的手機而不是汽車的數量和移動速度預測出來的。AirSage每天通過處理來自上百萬的150億條位置信息,為超過100個美國城市提供實時交通信息。其他兩個位置數據服務商Seworks和Skyhook使用位置數據揭示城市夜生活最繁榮的地方或者遊行隊伍聚集了多少人。不過,位置數據在商業以外的用途或許才是最重要的。麻省理工學院媒體實驗室人類動力學(人類動力學是一門典型的大數據驅動的定量化學科,它關注人類行為在時間和空間上表現出來的統計規律,以及對這些統計規律的理論解釋和在行為預測與控製上的應用。科學出版社2012年出版的《社會動力學》一書有連續6篇論文綜述該領域的主要代表方向,可供參考。——譯者注)實驗室主任亞曆山大·彭特蘭(Alexander “Sandy”Pentnd)和他的學生南森·伊格爾(Nathan Eagle)是所謂的“現實挖掘”研究的先驅。在一項研究中,他們通過分析每個人去了哪裡、見了誰,成功地區分出了感染了流感的人群,而且在感染者還完全不知道自己已經患病之前就做出了區分。如果出現非常嚴重的流感疫情,這可以挽救無數人的生命,因為我們會知道應該隔離誰,而且隨時都知道去哪裡找到他。但是這些數據一旦落入壞人之手,後果將不堪設想,這個問題我們將在後文中繼續討論。伊格爾是無線數據科技公司Jana的創始人,他使用了來自100多個國家的超過200個無線運營商的手機數據——覆蓋了拉丁美洲、非洲、歐洲的大約35億人口。伊格爾的研究既關注家庭主婦平均每周去幾次洗衣店這樣的肥皂問題,也試圖回答關於疾病如何傳播和城市如何繁榮這樣的重大問題。在一項研究中,他和同事結合分析了非洲預付費用戶的位置信息和他們賬戶的資費金額,發現資費與收入成正比:越富有的人一次性預付費越多。然而,他們還得出了一個與直覺判斷相反的結果,那就是貧民窟不僅僅是永恒不變的貧困中心,還是經濟繁榮的跳板。關鍵就在於,我們要意識到這都是手機所提供的位置信息的間接利用,而和移動通信自身業務沒有絲毫關係,但是這些數據最初又是為了更好地開展移動通信而生成的。總之,位置信息一被數據化,新的用途就猶如雨後春筍般湧現出來,而新價值也會隨之不斷催生。數據化的另一個前沿更加個人化,直接觸摸到了我們的關係、經曆和情感。數據化的構思是許多社交網絡公司的脊梁。社交網絡平台不僅給我們提供了尋找和維持朋友、同事關係的場所,也將我們日常生活的無形元素提取出來,再轉化為可作新用途的數據。正因此,Facebook將關係數據化——社交關係在過去一直被視作信息而存在,但從未被正式界定為數據,直到Facebook“社交圖譜”的出現。Twitter通過創新,讓人們能輕易記錄以及分享他們零散的想法(這些在以前,都會成為遺忘在時光中的碎片),從而使情緒數據化得以實現。LinkedIn將我們過去漫長的經曆進行了數據化處理,就像莫裡轉化舊航海日誌那樣,把信息轉化為對現在和將來的預測:我們可以認識誰,或者哪裡存在一份心儀的工作。然而,數據的使用還遠未成熟。就Facebook的情況來說,因為知道太早泄露用戶數據的許多新用途會讓用戶反應過激,所以它精明地選擇了忍耐。另外,公司仍然在為其收集的數據數量和類型,包括隱私問題進行商業模式和政策上的調整。目前,它所麵對的指責都集中在能采集到什麼,而並非它實際用這些數據乾了什麼。不可否認,其潛在用途非比尋常。一些消費者信貸領域的創業公司正考慮開發以Facebook社交圖譜為依據的信用評分。FICO,信用評分係統,利用15個變量來預測單個借貸者是否會償還一筆債務。但一家獲得了高額風險投資的創業公司(很遺憾這裡必須匿名)的一項內部研究顯示,個人會償還債務的可能性和其朋友會償還債務的可能性呈正相關。正應了一句老話:物以類聚,人以群分。因此,Facebook也可以成為下一個FICO。顯然,社交媒體上的大量數據也許能形成放飛想象的新型商務基礎,其意義遠不止表麵上我們看到的照片分享、狀態上傳以及“喜歡”按鈕。同樣,Twitter也已經開辟了其數據的新用途。從某種程度上說,2012年超過1.4億用戶每天發送的4億條微博幾乎就和隨意的口頭零碎差不多。事實上,它們通常就是如此。然而,Twitter公司實現了人們想法、情緒和溝通的數據化,這些都是以前不曾實現的。Twitter與兩家公司,DataSift和Gnip達成了一項出售數據訪問權限的協議。(儘管所有微博都是公開的,對“firehose”的訪問卻需要付費。——作者注)許多公司對微博做了句法分析,有時還會使用一項叫作情感分析的技術,以獲得顧客反饋意見的彙總或對營銷活動的效果進行判斷。兩家對衝基金,倫敦的英國對衝基金(Derwent Capital)和加利福尼亞的MarketPsych開始分析微博的數據文本,以作為股市投資的信號(他們從未公開自己的商業秘決,也不知道是傾向於投資勢頭良好的公司還是做空)。兩家公司現在都在向經商者出售信息。就MarketPsych而言,它與Thomsoers合作提供了分布在119個國家不低於18864項的獨立指數,比如每分鐘更新的心情狀態,如樂觀、憂鬱、快樂、害怕、生氣,甚至還包括創新、訴訟及衝突情況等。數據被人類利用的頻率遠沒有被計算機利用得多。以“金融工程師”而聞名的華爾街的數學奇才們,將數據傳輸到了他們的算法模式當中,來尋找能被有效利用並實現贏利的隱性聯係。根據“社交網絡分析之父”貝爾納多·哈柏曼(Bernardo Huberman)(貝爾納多·哈柏曼毫無疑問是惠普實驗室最有影響力的科學家之一,但是“社會網絡之父”這個讚譽還是有些不同尋常。在他11歲的時候,J.A.巴恩斯(J.A.Barnes)已經開始係統研究社交關係,並使用了社會網絡這個概念;他10歲到14歲階段,正是蘭普珀特(A.Rapoport)發展關於社交網絡上信息和資源如何擴散、哪些因素導致了社交關係的形成、如何用隨機網絡和其他數學方法刻畫社交網絡等一係列研究的關鍵時間,比哈柏曼更資深、更有影響力的社交網絡學者還有很多,譬如林頓·C·弗裡曼(Linton Freeman)、馬克·格蘭諾維特(Mark Graer)等。社交網絡之父這頂帽子恐怕不應該戴在他的頭上,儘管他毫無疑問是非常傑出的科學家。——譯者注)的分析,微博中單一主題出現的頻率可以用來預測很多事情,比如好萊塢的票房收入。他和一位在惠普實驗室工作的同事開發了一個程序,可以用來監聽新微博的發布頻率,基於此,他們就能預測一部電影的成敗,這往往比其他傳統評估預測方法還要準確。這些數據的用途不勝枚舉。Twitter微博限製在稀少的140個字符中,但與每條微博聯係在一起的元數據是十分豐富的。Twitter的元數據,即“關於信息的信息”,其中包括33個分離的項。雖然一部分信息似乎並沒多大用處,比如Twitter用戶界麵上的“牆紙”或用戶用來訪問這項服務的軟件,但其他的元數據卻很有意思,比如他們參與服務所使用的語言、所處的地理位置、關注的人以及粉絲的數量和名字。2011年《科學》雜誌上的一項研究顯示,來自世界上不同文化背景的人們每天、每周的心情都遵循著相似的模式,這項研究建立在兩年多來對84個國家240萬人的5.09億條微博的數據分析上,這在以前是完全無法做到的。情緒真的已經被數據化了。數據化不僅能將態度和情緒轉變為一種可分析的形式,也可能轉化人類的行為。這些行為難以跟蹤,特彆是在較大的社區和其中的子人群環境中。這些早期的發現預示了數據化將走向何方。和穀歌一樣,一些社交網絡(如Facebook,Twitter,LinkedIn,Foursquare)坐擁了大型數據的寶藏,一旦這些數據信息得到了深入分析,它們就能輕易獲得社會各行各業以及三教九流的幾乎所有的動態信息。隻要一點想象,萬千事物就能轉化為數據形式,並一直帶給我們驚喜。IBM獲得的“觸感技術先導”專利與東京的越水重臣教授對臀部的研究工作具有相同理念。知識產權律師稱那是一塊觸感靈敏的地板,就像一個巨大的智能手機屏幕。其潛在的用途十分廣泛。它能分辨出放置其上的物品。它的基本用途就是適時地開燈和開門。然而更重要的是,它能通過一個人的體重、站姿和走路方式確認他的身份。它還能知道某人在摔倒之後是否一直沒有站起來。有了它,零售商可以知道商店的人流量。當地板數據化了的時候,它就能滋生無窮無儘的用途。其實沒有聽上去那麼荒謬。“自我量化”是一項由一群健身迷、醫學瘋子以及技術狂人發起的運動,通過測量身體的每一個部位和生活中的每一件事來讓生活更美好——或者至少用量化的方式來獲得新知。目前,自我量化運動規模還很小,但正在日益壯大。隨著智能手機和計算機技術的普及,對個人最重要的生活行為進行數據處理從未如現在這般容易。許多創業公司通過測量人們夜間的腦電波來試圖找出他們的睡眠模式。Zeo公司則早已製作出了世界上最大的睡眠活動數據庫,揭示了男性與女性睡眠時快速眼動量的差異。Asthmapolis公司將一個感應器綁定到哮喘病人佩戴的呼吸器上,通過GPS定位,再彙總收集起來的位置數據,可以判斷環境因素(如接近特定的農作物)對哮喘的影響。Fitbit和Jawbone公司讓人們測量他們的體力活動和睡眠。Basis公司用腕帶來監測佩戴者的生命體征,包括其心率和皮膚電傳導率,以此測試他們所承受的壓力。2009年,蘋果公司就申請了一項專利,通過音頻耳塞收集關於血液氧合、心率和體溫的數據。獲取數據正變得比以往任何時候都簡單而不受限製。數據化能幫助我們獲取到更多關於人體運作方式的信息。挪威耶維克大學的研究人員和Derawi Biometrics公司聯合為智能手機開發了一款應用程序,可以分析人走路時的步伐並將其作為手機解鎖的安全係統。同時,佐治亞理工學院的羅伯特·德拉諾(Robert Deno)和布萊恩·派爾思(Brian Parise)開發了一款叫做iTrem的應用程序,用手機內置的測震儀監測人身體的顫動,以應對帕金森和其他神經係統疾病。這個程序給醫生和病人都帶來了好處;它讓患者避免了在醫院做昂貴的體檢,也讓醫學專家們能遠程監控人們的疾病以及治療效果。據東京的調查人員說,用智能手機測量震動雖然沒有三軸測震儀這種專門的醫療器械那麼精確,但也隻差了一點,所以完全可以放心使用。這再一次證明,一點點的不精確比完全精確更有效。在大多數情況下,我們會采集信息並將之存儲為數據形式再加以利用。幾乎所有領域,任何事情都能這樣處理。GreenGoose是一家創業公司,他們銷售能放置在物品上的微型運動感應器,用它監測物品的使用次數。比如把它放置在一捆牙線、一個灑水壺或者一盒貓食上,就能數據化牙齒清潔、植物護理以及寵物喂養的信息。很多人對“物聯網”有著宗教般的狂熱,試圖在一切生活中的事物中都植入芯片、傳感器和通信模塊。這個詞聽起來好像和互聯網親如姐妹,其實不過是一種典型的數據化手段罷了。我們正在進行一個重大的基礎設施項目,它在某種程度上與我們過去所做的都不一樣,無論是羅馬的水渠還是啟蒙運動時期的百科全書。它如此的新穎,而我們又深處其中;同時,又因為它是無形的,不像水渠中能觸摸到的水,所以我們並未意識到它的存在。這個它,就是無處不在的數據化。像其他的基礎設施那樣,它會給社會帶來根本性的變革。水渠讓城市的發展成為可能,印刷機推進了啟蒙運動,報紙為民族國家的興起奠定了基礎。但這些基礎設施都側重於流動——關於水、關於知識。電話和互聯網也是如此。相比較而言,數據化代表著人類認識的一個根本性轉變。整整一個多世紀以來,物理學家們一直宣稱情況應該是這樣的——並非原子而是信息才是一切的本源。(通過Toyabe等人在《自然·物理》上發表的名為“Experimental demonstration of information-to-energy version and validation of the generalized Jarzynski equality”一文必會加深讀者對該問題的理解。——譯者注)不可否認,這也許聽上去無法理解。然而通過數據化,在很多情況下我們就能全麵采集和計算有形物質和無形物質的存在,並對其進行處理。遲早有一天,數據化的影響會使水渠和報紙的影響微乎其微,同時,通過賦予人類數據化世間萬物的工具,它也對印刷機和互聯網的地位提出了挑戰。可是目前,它最主要的用途還是在商業領域。大數據正被用來創造新型價值,這也是下一章的主題。

举报本章错误( 无需登录 )