大數據時代(維克托·邁爾·舍恩伯格)_05 價值：“取之不儘用之不竭”的數據創新（1 / 1）_大數據時代最新章节免费阅读无弹窗

“數據就像一個神奇的鑽石礦，當它的首要價值被發掘後仍能不斷給予。它的真實價值就像漂浮在海洋中的冰山，第一眼隻能看到冰山的一角，而絕大部分都隱藏在表麵之下。”20世紀90年代後期，網絡逐漸變得擁堵起來。有人開發了一款名為“Spambots”的垃圾郵件程序軟件，向成千上萬名用戶批量發送廣告信息，淹沒收件人的電子郵箱。他們會在各種網站上注冊，然後在評論部分留下成百上千條廣告。網絡因此成了一個不守規矩、不受歡迎、不夠友善的地方。而且，這種軟件似乎打破了網絡原有的開放性和易用性模式，要知道，正是這種模式向人們提供了各種便利，比如免費電子郵件。當特瑪捷這一類公司根據“先到先服務”的原則提供演唱會門票網上訂票服務時，作弊軟件會偷偷摸摸跑到真正排隊的人之前，將門票全部買下。2000年，22歲大學剛畢業的路易斯·馮·安（Luis Von Ahn）提出了解決這個問題的想法：要求注冊人提供真實身份證明。他試圖找出一些人類容易辨彆但對機器來說卻很難的東西，最後他想到了一個辦法，即在注冊過程中顯示一些波浪狀、辨識度低的字母。人能夠在幾秒鐘內識彆並輸入正確的文本信息，但電腦卻可能會被難倒。雅虎采用了這個方法以後，一夜之間就減輕了垃圾郵件帶來的苦惱。馮·安將他的這一創作稱為驗證碼（全稱為“全自動區分計算機和人類的圖靈測試”）。五年後，每天約有2億的驗證碼被用戶輸入。這一切給馮·安這位家裡經營糖果廠的危地馬拉人帶來了相當高的知名度，使他能夠在取得博士學位後進入卡內基梅隆大學工作，教授計算機科學；也使他在27歲時獲得了50萬美元的麥克阿瑟基金會“天才獎”。但是，當他意識到每天有這麼多人要浪費10秒鐘的時間輸入這堆惱人的字母，而隨後大量的信息被隨意地丟棄時，他並沒有感到自己很聰明。於是，他開始尋找能使人的計算能力得到更有效利用的方法。他想到了一個繼任者，恰如其分地將其命名為ReCaptcha。和原有隨機字母輸入不同，人們需要從計算機光學字符識彆程序無法識彆的文本掃描項目中讀出兩個單詞並輸入。其中一個單詞其他用戶也識彆過，從而可以從該用戶的輸入中判斷注冊者是人；另一個單詞則是有待辨識和解疑的新詞。為了保證準確度，係統會將同一個模糊單詞發給五個不同的人，直到他們都輸入正確後才確定這個單詞是對的。在這裡，數據的主要用途是證明用戶是人，但它也有第二個目的：破譯數字化文本中不清楚的單詞。ReCaptcha的作用得到了認可，2009年穀歌收購了馮·安的公司，並將這一技術用於圖書掃描項目。ReCaptcha的故事強調了數據再利用的重要性。隨著大數據的出現，數據的價值正在發生變化。信息對於市場交易而言是必不可少的。數據使價格發現成為可能，比如眾所周知的一點，它是決定生產數量的信號。一些特殊類型的信息也早已在市場上交易，如書籍、文章、音樂、電影以及金融信息（如股票價格）等。這些在過去的幾十年中已經通過個人數據加入數據庫。美國的專業數據經紀人，如安客誠（A）、益百利和艾可飛（Equifax）等，專門負責從數億名消費者中收集個人信息加入綜合檔案。隨著Facebook、Twitter、LinkedIn、Foursquare等社交平台的出現，我們的人脈關係、想法、喜好和日常生活模式也逐漸被加入到巨大的個人信息庫中。總之，儘管數據長期以來一直是有價值的，但通常隻是被視為附屬於企業經營核心業務的一部分，或者被歸入知識產權或個人信息中相對狹窄的類彆。但在大數據時代，所有數據都是有價值的。這裡所說的“所有數據”包含了那些最原始的、看似最平凡的信息單位。想一想工廠機器上熱傳感器的讀數，GPS坐標上的實時數據流，某一輛或者60000輛車的加速度傳感器讀數和燃料水平。再想想數十億舊的搜索查詢，或者過去數年美國每趟商務航班上每個座位的價格。但是，直到目前仍然沒有一個簡單的方法來收集、存儲和分析這些數據，這嚴重限製了提取其潛在價值的機會。在亞當·斯密論述18世紀勞動分工時所引用的著名的大頭針製造案例中，監督員需要時刻看管所有工人、進行測量並用羽毛筆在厚紙上記下產出數據，而且測量時間在當時也較難把握，因為可靠的時鐘都尚未普及。技術環境的限製使古典經濟學家在經濟構成的認識上像是戴了一副墨鏡，而他們卻幾乎沒有意識到這一點，就像魚不知道自己是濕的一樣。因此，當他們在考慮生產要素（土地、勞動力和資本）時，信息的作用嚴重地缺失了。雖然在過去的兩個世紀中，數據的采集、存儲和使用成本一直在下降，但直到今天也仍然維持在相當昂貴的水平。我們所處的時代之所以與眾不同，是因為數據的收集不再存在固有的局限性。技術已經發展到一定程度，大量信息可以被廉價地捕捉和記錄。數據經常會得到被動地收集，人們無須投入太多精力甚至不需要認識這些數據。而且，由於存儲成本的大幅下降，保存數據比丟棄數據更加容易。這使得以較低成本獲得更多數據的可能性比以往任何時候都大。在Farecast或穀歌這樣的信息公司眼裡，數據開始被視為一個新的生產要素，原始材料在數字流水線的一端輸入，而處理後的信息則從另一端輸出。大部分數據的直接價值對收集者而言是顯而易見的。事實上，數據通常都是為了某個特定的目的而被收集——商店為了會計核算而收集銷售數據，工廠為了確保產品符合質量標準而監控輸出，網站記錄每一個用戶點擊（即使是鼠標光標的移動）來分析和優化其呈現給訪客的內容。的建議。同樣，Facebook跟蹤用戶的“狀態更新”和“喜好”，以確定最佳的廣告位從而賺取收入。這就是經濟學家所謂的“非競爭性”的好處：個人的使用不會妨礙其他人的使用，而且信息不會像其他物質產品一樣隨著使用而有所耗損。因此，亞馬遜在向其用戶，不論是生成這些數據的客戶或是其他客戶做出建議時，都可以不斷地使用過去的交易數據。當沃爾瑪檢查以往的銷售數據並發現颶風和蛋撻銷售之間存在有利可圖的關係時，這種潛力的一部分已經得到實現。這意味著數據的全部價值遠遠大於其最初的使用價值，也意味著即使首次或之後的每次使用都隻帶來了少量的價值，但隻要數據被多次使用過，企業仍然可以對數據加以有效利用。想知道數據的重複使用對其終極價值有什麼意義嗎？來看看電動汽車的故事吧。電動汽車能否成功地作為一種交通工具成功普及，其決定因素多如牛毛，但一切都與電池的壽命相關。司機需要能夠快速而便捷地為汽車電池充電，電力公司需要確保提供給這些車輛的電力不會影響電網運轉。幾十年的試驗和錯誤才實現了現有加油站的有效分配，但電動汽車充電站的需求和設置點目前還不得而知。有趣的是，與其說這是一個基礎設施問題，不如說這是一個信息問題，因為大數據是解決方案的重要組成部分。明白了這一點，那些創新型企業就能夠提取其潛在價值並獲得潛在的巨大收益。總之，判斷數據的價值需要考慮到未來它可能被使用的各種方式，而非僅僅考慮其目前的用途。在我們強調過多次的例子中這一點體現得非常明顯：Farecast利用機票銷售數據來預測未來的機票價格；穀歌重複使用搜索關鍵詞來監測流感的傳播；麥格雷戈博士用嬰兒的生命體征來預測傳染病的發生；莫裡重新利用老船長的日誌而發現了洋流。儘管如此，數據再利用的重要性還沒有被企業和社會充分認識到。紐約聯合愛迪生公司的高管中很少有誰能夠想到，19世紀的電纜信息和工作人員的維修記錄可以用來預防未來事故的發生。很多互聯網和科技公司甚至直到最近才知道數據再利用具有多大的價值。要解鎖這些數據價值，就必須通過新一代統計人員的不懈努力並借助新一代的方法和工具。用物理學家解釋能量的方法或許可以幫助我們理解數據。他們認為物體擁有“儲存著的”或“潛在的”能量，隻是處於休眠狀態，比如壓縮了的彈簧或放置在小山頂的小球。這些物體中的能量是隱藏著的、潛在的，直到它們被釋放出來。當彈簧被釋放或者小球被輕碰而滾下山坡時，這些物體的能量就變成了“動能”，因為它們在移動並對其他物體施力。同理，在基本用途完成後，數據的價值仍然存在，隻是處於休眠狀態，就像彈簧或小球一樣，直到它被二次利用並重新釋放它的能量。在大數據時代，我們終於有了這種思維、創造力和工具，來釋放數據的隱藏價值。過去，一旦數據的基本用途實現了，我們便認為數據已經達到了它的目的，準備將其刪除，讓它就此消失。畢竟，數據的首要價值已經得以提取。而在大數據時代，數據就像是一個神奇的鑽石礦，在其首要價值被發掘之後仍能不斷產生價值。數據的潛在價值有三種最為常見的釋放方式：基本再利用、數據集整合和尋找“一份錢兩份貨”。而數據的折舊值、數據廢氣和開放數據則是更為獨特的方式。數據創新再利用的一個典型例子是搜索關鍵詞。消費者和搜索引擎之間的瞬時交互形成了一個網站和廣告的列表，實現了那一刻的特定功能。乍看起來，這些信息在實現了基本用途之後似乎變得一文不值。但是，以往的查詢也可以變得非常有價值。有的公司，如數據代理益百利旗下的網頁流量測量公司Hitwise，讓客戶采集搜索流量來揭示消費者的喜好。通過Hitwise營銷人員可以了解到粉紅色是否會成為今夏的潮流色，或者黑色是否會回歸潮流。穀歌整理了一個版本的搜索詞分析，公開供人們查詢，並與西班牙第二大銀行BBVA合作推出了實時經濟指標以及旅遊部門的業務預報服務，這些指標都是基於搜索數據得到的。英國央行通過搜索查詢房地產的相關信息，更好地了解到了住房價格的升降情況。再來看另一個例子，穀歌在2007—2010年之間計劃在本地搜索列表中加入GOOG—411語音識彆服務，但這家搜索巨頭並沒有自己的語音識彆技術，因此急需購買許可。於是，穀歌與該領域的領導者Nuance公司達成合作協議，這家公司因為搭上了這樣一個珍貴的客戶而感到十分高興。但Nuance公司在數據方麵完全是個十足的笨蛋：合同中沒有規定由誰來保存語音翻譯記錄！於是穀歌自己保存了數據。這些數據在改進技術方麵是不可或缺的，穀歌甚至據此從頭創建了一個新的語音識彆服務係統。當時Nuance公司隻考慮到了軟件許可的業務交易，而忽視了數據的處理。當認識到自己犯下的錯誤後，它立即與移動運營商和手機製造商達成其語音識彆服務的使用交易，從而進行數據收集。數據再利用的價值對於那些收集或控製著大型數據集但目前卻很少使用的機構來說是個好消息，比如在那些線下運作的傳統企業。他們或許正坐在尚未開發的信息噴泉上。有些企業可能已經收集了數據並使用過一次（如果可能的話），且因為存儲成本低而將其保存了下來，數據科學家們稱這類保存舊信息的計算機為“數據墳墓”。互聯網和科技公司在利用海量數據方麵走在了最前沿，因為他們僅僅通過在線就能收集大量的信息，分析能力也領先於其他行業。但是，所有的公司都可能會從中獲利。麥肯錫的谘詢顧問們列舉了一家物流公司（名稱保密）。這家公司在交付貨物的過程中積累了大量產品的全球出貨信息。嗅到了這個機會之後，該公司成立了專門的部門，以商業和經濟預測的形式出售彙總數據。換言之，它創造了穀歌過去搜索查詢業務的一個線下版本。由於在信息價值鏈中的特殊位置，有些公司可能會收集到大量的數據，但是他們並不急需使用也並不擅長再次利用這些數據。例如，移動電話運營商收集用戶的位置信息來傳輸電話信號。對於這些公司來說，數據隻具有狹窄的技術用途。但是當它被一些發布個性化位置廣告服務和促銷活動的公司再次利用時，則變得更有價值。有時候，數據的價值並非來自於單個的數據值，而是從數據彙總中體現出來的。因此，AirSage和Seworks這些企業會出售諸如人們周五晚上聚集在哪裡或者汽車在哪個地段行駛多慢等信息，這種信息集合可以用來確定房地產價值或廣告牌的價格。有時，處於休眠狀態的數據的價值隻能通過與另一個截然不同的數據集結合才能釋放出來。用新的方式混合這些數據，我們可以做出很有創意的東西來。一個成功的例子是2011年發表的關於手機是否增加致癌可能性的一項有趣的研究。全球約有60億部手機，幾乎人手一部，因而這個問題是至關重要的。人們做了大量的研究來尋找其中的關聯，但都受困於各種障礙：樣本量太小、研究時間太短或者是被試自己報告的數據中充滿錯誤。然而，丹麥癌症協會的研究團隊基於以往收集的數據想出了一個有趣的方法。如今，互聯網用戶都熟悉基本的混搭式應用，即將兩個或多個數據源以一種新穎的方法結合起來。例如，房地產網站Zillow.將房地產信息和價格添加在美國的社區地圖上，同時還聚合了大量的信息，如社區近期的交易和物業規格，以此來預測區域內具體每套住宅的價值。這個結果極具指導意義，儘管通過視覺展示使得數據更加親和且非常簡單，但采用位置信息並將其置於地圖上畢竟不是一個創造性的飛躍。隨著大數據的出現，我們可以走得更遠，丹麥的癌症研究就為我們提示了更多的可能性。促成數據再利用的方法之一是從一開始就設計好它的可擴展性。雖然這不總是可能的，因為人們可能在數據收集後很長時間才意識到這一點，但的確有一些方法可以鼓勵相同數據集的多種用途。例如，有些零售商在店內安裝了監控攝像頭，這樣不僅能認出商店扒手，還能跟蹤在商店裡購物的客戶流和他們停留的位置。零售商利用後麵的信息可以設計店麵的最佳布局並判斷營銷活動的有效性。在此之前，監控攝像機僅用於安全保衛，是一項純粹的成本支出，而現在卻被視為一項可以增加收入的投資。收集多個數據流或每個數據流中更多數據點的額外成本往往較低，因此，收集儘可能多的數據並在一開始的時候就考慮到各種潛在的二次用途並使其具有擴展性是非常有意義的。這增加了數據的潛在價值。問題的關鍵是尋找“一份錢兩份貨”，即如果以某種方式收集的單一數據集有多種不同的用途，它就具有雙重功能。隨?９９lｉb.著數據存儲成本的大幅下降，企業擁有了更強的經濟動機來保存數據，並再次用於相同或類似的用途。但是，其有效性是有限的。例如，像奈飛和亞馬遜這類公司可以利用客戶購買的產品、瀏覽的頁麵和評論來推薦新的產品，他們可能會年複一年、一遍又一遍地使用這些數據。考慮到這一點，人們可能會認為隻要公司不被隱私保護法等法律法規所限製，就應該永遠保存這些數字記錄，或者至少在經濟條件允許的情況下保存這些記錄。然而，事實並非如此簡單。隨著時間的推移，大多數數據都會失去一部分基本用途。在這種情況下，繼續依賴於舊的數據不僅不能增加價值，實際上還會破壞新數據的價值。比如十年前你在亞馬遜買了一本書，而現在你可能已經對它完全不感興趣。如果亞馬遜繼續用這個數據來向你推薦其他書籍，你就不太可能購買帶有這類標題的書籍，甚至會擔心該網站之後的推薦是否合理。這些推薦的依據既有舊的過時的信息又有近期仍然有價值的數據，而舊數據的存在破壞了新數據的價值。於是，亞馬遜決定隻使用仍有生產價值的數據，這就需要不斷地更新數據庫並淘汰無用信息。這時麵臨的挑戰就是如何得知哪些數據不再有價值。僅僅依據時間來判斷顯然不夠，（即使隻考慮因時間不同而造成新舊數據價值的不同，也不是一個容易的問題。2010年Koren在《ACM通訊》上題為“Colborative Filtering with Temporal Dynamics”的文章向我們展示了這一單一特征亦足以巨大地影響推薦的效果。——譯者注）因此，亞馬遜等公司建立了複雜的模型來幫助自己分離有用和無用的數據。例如，如果客戶瀏覽或購買了一本基於以往購買記錄而推薦的書，電子商務公司就認為這項舊的購買記錄仍然代表著客戶的喜好。這樣，他們就能夠評價舊數據的有用性，並使模型的“折舊率”更具體。然而，並非所有的數據都會貶值。有些公司提倡儘可能長時間地保存數據，即使監管部門或公眾要求它們短時間內刪除或隱匿這些信息。這就解釋了為什麼一直以來，穀歌都拒絕將互聯網協議地址從舊的搜索查詢中完全刪除（它隻是在18個月後刪除了最後四位數以隱匿搜索查詢）。穀歌希望得到每年的同比數據，如假日購物搜索等。此外，通過了解搜索者的位置，可以幫助改善搜索結果的相關性。例如，很多紐約人都會搜索“火雞”，但經常會搜索到與“火雞”無關的關於“土耳其”的網頁（英文中“火雞”與“土耳其”同為turkey）。通過算法可以將他們想要查看的頁麵放在排名靠前的位置，來方便其他紐約人查找。數據再利用的方式可以很巧妙、很隱蔽。網絡公司可以捕捉到用戶在其網站上做的所有事情，然後將每個離散交互當作一個“信號”，作為網站個性化、提高服務或創建全新數字化產品的反饋。兩個關於拚寫檢查的故事給我們提供了一個生動的解釋。這兩家公司的不同做法很能說明問題。微軟隻看到了拚寫檢查作為文字處理這一個目的的價值，而穀歌卻理解了其更深層次的價值。不僅利用錯彆字開發了世界上最好、最新式的拚寫檢查器來提高搜索質量，而且將其應用於許多其他服務中，如搜索的“自動完成”功能、Gmail、穀歌文檔甚至翻譯係統。一個用來描述人們在網上留下的數字軌跡的藝術詞彙出現了，這就是“數據廢氣”。許多公司因此對係統進行了設計，使自己能夠得到數據廢氣並循環利用，以改善現有的服務或開發新服務。毋庸置疑，穀歌是這方麵的領導者，它將不斷地“從數據中學習”這個原則應用到許多服務中。用戶執行的每一個動作都被認為是一個“信號”，穀歌對其進行分析並反饋給係統。數據廢氣是許多電腦化服務背後的機製，如語音識彆、垃圾郵件過濾、翻譯等。當用戶指出語音識彆程序誤解了他們的意思時，他們實際上有效地“訓練”了這個係統，讓它變得更好。很多企業都開始設計他們的係統，以這種方式收集和使用信息。在Facebook的早期，數據科學家們研究了數據廢氣的豐富信息，發現人們會采取某種行動（如回帖、點擊圖標等）的最重要的預測指標就是他們看到了周圍的朋友也在這麼做。緊接著，Facebook重新設計了它的係統，使每個用戶的活動變得可見並廣播出去，這為網站的良性循環做出了新的貢獻。逐漸地，這個想法從互聯網行業傳播至可以收集用戶反饋的任何公司。Udacity、Coursera和EDX等在線教育課程通過跟蹤學生的Web交互來尋找最佳的教學方法。班級人數成千上萬，產生的數據也十分驚人。教授們現在可以看到，如果大部分學生需要再看一遍課程內容，就可能表明某些地方他們還不太清楚。在斯坦福大學教授安德魯·恩格（Andrew Ng）講授的Coursera機器學習課堂上，他注意到約有2000名學生課外作業的答案是錯誤的，但錯誤答案居然是相同的。顯然，他們都犯了相同的錯誤，那麼是什麼呢？隨著一點點的調查，他終於弄清楚了，他們把一個算法裡的兩個代數方程弄反了。（據此猜測是指期望最大化算法，即Expectation Maximization Algorithm。——譯者注）所以如果現在還有其他學生犯同樣錯誤的話，係統不會簡單地告訴他們做錯了，而是會提示他們去檢查算法。這個係統也應用了大數據，通過分析學生看過的每個論壇帖子以及他們是否正確完成課外作業，來預測看過某個帖子之後的學生正確作答的概率，並由此來確定哪些論壇帖子最適合學生。這些都是過去很難得知的，現在卻永遠地改變了教學方式。數據廢氣可以成為公司的巨大競爭優勢，也可能成為對手的強大進入壁壘。試想，如果一家新上市的公司設計了一個比當今行業領先者（如亞馬遜、穀歌或Facebook等）更優秀的電子商務網站、社交網站或搜索引擎，它也難以同對手競爭，這不僅是因為其經濟規模、網絡效應或品牌價值不夠好，而是因為這些公司收集了來自客戶交互的數據廢氣並納入到他們的服務中。一個新的在線教育網站有能力與一個已經具備龐大數據庫並且由此知道什麼最好的對手相抗衡嗎？如今，我們很可能認為穀歌和亞馬遜等網站是大數據的先驅者，但事實上，政府才是大規模信息的原始采集者，並且還在與私營企業競爭他們所控製的大量數據。政府與私營企業數據持有人之間的主要區彆就是，政府可以強迫人們為他們提供信息，而不必加以說服或支付報酬。因此，政府將繼續收集和積累大量的數據。大數據對於公共部門的適用性同對商業實體是一樣的：大部分的數據價值都是潛在的，需要通過創新性的分析來釋放。但是，由於政府在獲取數據中所處的特殊地位，因此他們在數據使用上往往效率很低。最近有一個想法得到了公認，即提取政府數據價值最好的辦法是允許私營部門和社會大眾訪問。這其實是基於一個原則：國家收集數據時代表的是其公民，因此它也理應提供一個讓公民查看的入口，但少數可能會危害到國家安全或他人隱私權的情況除外。這種想法讓“開放政府數據”的倡議響徹全球。開放數據的倡導者主張，政府隻是他們所收集信息的托管人，私營部門和社會對數據的利用會比政府更具有創新性。他們呼籲建立專門的官方機構來公布民用和商業數據；而且數據必須以標準的可機讀形式展現，以方便人們處理。否則，信息的公開隻會是徒有虛名。2008年1月21日，奧巴馬總統在就職的第一天發表了一份總統備忘錄，命令美國聯邦機構的負責人公布儘可能多的數據，這使開放政府數據的想法取得了極大的進展。“麵對懷疑，公開優先。”他這樣指示道。這真是一個了不起的聲明，特彆是與那些作出相反指令的前任們相比。奧巴馬的指令促成了data.gov網站的建立，這是美國聯邦政府的公開信息資料庫。網站從2009年的47個數據集迅速發展起來，到2012年7月三周年時，數據集已達45萬個左右，涵蓋了172個機構。即使是在嚴謹的英國（以往大量的政府信息都封鎖在英國皇家版權（ Cht）手中，使用起來非常困難和昂貴（比如在線地圖公司用到的郵遞區號）。——作者注），現在也出現了實質性的轉變。英國政府已經頒布相關規定鼓勵信息公開，並支持創建由萬維網的發明者蒂姆·伯納斯（Tim Berners-Lee）參與指導的開放式數據中心，這一舉措促進了開放數據的新用途並將數據從國家手中解放出來。歐盟宣布開放數據的舉措很快也會遍及整個歐洲。其他國家，如澳大利亞、巴西、智利等也相繼出台並實施了開放數據策略。同時，世界各地越來越多的城市和地區也已經加入開放數據的熱潮，一些國際組織也是如此，世界銀行就公開了數百個之前被限製的關於經濟和社會指標方麵的數據集。同時，各種Web開發人員和富有遠見的思想家組成了數據團隊來最大化開放數據價值，如美國的陽光基金會和英國的開放知識基金會。無論是向公眾開放還是將其鎖在公司的保險庫中，數據的價值都難以衡量。來看看2012年5月18日星期五發生的事吧。這一天，28歲的Facebook創始人馬克·紮克伯格（Mark Zuckerberg）在位於美國加利福尼亞州門洛帕克市的公司總部，象征性地敲響了納斯達克的開盤鐘。這家宣稱全球約每十人中就有一人是其用戶的全球最大社交網絡公司，開啟了其作為上市公司的征程。和很多新科技股的第一個上市交易日一樣，公司股價立即上漲了11%，翻倍增長甚至已經近在眼前。然而就在這一天，怪事發生了。Facebook的股價開始下跌，期間納斯達克的電腦因出現技術故障曾暫停交易，但仍然於事無補，情況甚至更加惡化。感到異常的股票承銷商在摩根士丹利的帶領下，不得不支撐股價，最終以略高於發行價收盤。上市的前一晚，銀行對Facebook的定價是每股38美元，總估值1040億美元（也就是說，大約是波音公司、通用汽車和戴爾電腦的市值之和）。那麼事實上Facebook價值多少呢？在2011年供投資者評估公司的審核賬目中，Facebook公布的資產為66億美元，包括計算機硬件、專利和其他實物價值。那麼Facebook公司數據庫中存儲的大量信息，其賬麵價值是多少呢？零。它根本沒有被計入其中，儘管除了數據，Facebook幾乎一文不值。這令人匪夷所思。加特納市場研究公司（Gartner）的副總裁道格·萊尼（Doug Laney）研究了Facebook在IPO前一段時間內的數據，估算出Facebook在2009年至2011年間收集了2.1萬億條“獲利信息”，比如用戶的“喜好”、發布的信息和評論等。與其IPO估值相比，這意味著每條信息（將其視為一個離散數據點）都有約4美分的價值。也就是說，每一個Facebook用戶的價值約為100美元，因為他們是Facebook所收集信息的提供者。那麼，如何解釋Facebook根據會計準則計算出的價值（約63億美元）和最初的市場估值（1040億美元）之間會產生如此巨大的差距呢？目前還沒有很好的方法能解釋這一點。然而人們普遍開始認為，通過查看公司“賬麵價值”（大部分是有形資產的價值）來確定企業價值的方法，已經不能充分反映公司的真正價值。事實上，賬麵價值與“市場價值”（即公司被買斷時在股票市場上所獲的價值）之間的差距在這幾十年中一直在不斷地擴大。美國參議院甚至在2000年舉行了關於將現行財務報告模式現代化的聽證會。現行的財務報告模式始於20世紀30年代，當時信息類的企業幾乎不存在。現行財務報表模式與現狀的差異不僅會影響公司的資產負債表，如果不能正確評估企業的價值，還可能會給企業帶來經營風險和市場波動。20世紀80年代中期，無形資產在美國上市公司市值中約占40%，而在2002年，這一數字已經增長為75%。無形資產早期僅包含品牌、人才和戰略這些應計入正規金融會計製度的非有形資產部分。但漸漸地，公司所持有和使用的數據也漸漸納入了無形資產的範疇。最終，這意味著目前還找不到一個有效的方法來計算數據的價值。Facebook開盤當天，其正規金融資產與其未記錄的無形資產之間相差了近1000億美元，差距幾乎是20倍！太可笑了。但是，隨著企業找到在資產負債表上記錄數據資產價值的方法，這樣的差距有一天也必將消除。人們正在朝著這個方向前進。在美國最大的無線運營商之一工作的一位高級管理人員透露說，數據持有人在認識到數據的巨大價值之後會研究是否在正式的會計條款中將其作為企業的資產。但是，一旦公司的律師得知此事，便會加以阻止。因為把數據計入賬麵價值可能會使該公司承擔法律責任，律師們並不認為這是一個好主意。同時，投資者也開始注意到數據的潛在價值。擁有數據或能夠輕鬆收集數據的公司，其股價會上漲；而其他不太幸運的公司，就隻能眼看著自己的市值縮水。因為這種狀況，數據並不要求其價值正式顯示在資產負債表中。儘管做起來有困難，市場和投資者還是會給這些無形資產估價，所以Facebook的股價在最初的幾個月中一直搖擺不定。但隨著會計窘境和責任問題得到緩解，幾乎可以肯定數據的價值將顯示在企業的資產負債表上，成為一個新的資產類彆。那麼，如何給數據估值呢？誠然，計算價值不再是將其基本用途簡單地加總。但是如果數據的大部分價值都是潛在的，需要從未知的二次利用提取，那麼人們目前尚不清楚應該如何估算它。這個難度類似於在20世紀70年代布萊克-舒爾斯期權定價理論出現前金融衍生品的定價。它也類似於為專利估值，因為隨著各種拍賣、交流、私人銷售、許可和大量訴訟的出現，一個知識市場正在逐漸興起。如果不出意外，給數據的潛在價值貼上價格標簽會給金融部門帶來無限商機。在大數據時代，數據持有人傾向於從被提取的數據價值中抽取一定比例作為報酬支付，而不是敲定一個固定的數額。這有點類似於出版商從書籍、音樂或電影的獲利中抽取一定比例，作為支付給作者和表演者的特許權使用費；也類似於生物技術行業的知識產權交易，許可人要求從基於他們技術成果的所有後續發明中抽取一定比例的技術使用費。這樣一來，各方都會努力使數據再利用的價值達到最大。然而，由於被許可人可能無法提取數據全部的潛在價值，因此數據持有人可能還會同時向其他方授權使用其數據，兩邊下注以避免損失。因而，“數據濫交”可能會成為一種常態。一些試圖給數據定價的市場如雨後春筍般出現。2008年在冰島成立的DataMarket向人們提供其他機構（如聯合國、世界銀行和歐盟統計局等）的免費數據集，靠倒賣商業供應商（如市場研究公司）的數據來獲利。另一家新創辦的公司InfoChimps，其總部設在得克薩斯州奧斯汀市，希望成為一個信息中間人，供第三方以免費或付費的方式共享他們的數據。就像易趣給人們提供了一個出售家中擱置不用的物品的平台一樣，這些科技創業公司想為任何手中擁有數據的人提供一個出售數據的平台。例如，Import.io鼓勵公司授權彆人使用自己手中的數據，不然彆人也可以從網上免費收集到這些數據。穀歌的前員工吉爾·埃爾巴茲（Gil Elbaz）創辦的Factual收集數據，然後製成數據庫供需要者使用。微軟也帶著它的Windows Azure DataMarket登上了曆史舞台。它的目標是專注高質量的數據和監督所提供的產品，其方式和蘋果公司監督其應用程序商店中的產品類似。微軟假設，一位銷售主管在準備Excel表格時可能還需要做一份公司內部數據和來自經濟顧問的GDP增長預測的交叉表，那麼她隻要點擊想要購買的數據，後者將瞬間出現在她的電腦屏幕上。到目前為止，沒有人知道估值模型將發揮出怎樣的作用。但可以肯定的是，經濟正漸漸開始圍繞數據形成，很多新玩家可以從中受益，而一些資深玩家則可能會找到令人驚訝的新生機。用矽穀技術專家和科技出版社員工蒂姆·奧萊利（Tim O＆apos；Reilly）的話來說就是，“數據是一個平台”，因為數據是新產品和新商業模式的基石。下一章，我們將考察數據的實際運用和日益崛起的大數據行業。