【維斯塔愛看書】《大數據》:掌握生活的真實樣貌

大數據、巨量資料或者海量資料,談的其實都是同一件事,也就是近年來在資訊領域相當火熱的Big Data。根據維基百科的詮釋,Big Data指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。

網路上每一筆搜尋、交易,或者大家敲打鍵盤、點擊滑鼠的每一個輸入都是數據,把這些資訊整理起來分析排行,它的功能可不僅僅止於事後被動了解市場,蒐集起來的資料還可以被規畫,引導開發更大的消費力量。

至於這些資訊規模有多巨大呢?根據IBM公司的統計,我們每天所建立的資料高達2.5百萬兆位元組,這個難以估量和感受的龐大數字,不只是大家在工作或學術場合所產出的資訊,也包括了你我在Facebook、Twitter等社交網站所張貼和分享的文字、圖片。

一般而言,Big Data包括了三種層次,也就是巨量、即時性和多樣性。前兩者比較容易理解,不需太多解釋;而多樣性則主要是指資料的樣貌非常多元,包括結構與非結構化的部分,像是文字、影音和點擊,當然也包括專門用來統計的日誌檔(Log files)。

市面上,隨著Big Data愈來愈熱門,相關的書籍也愈來愈多了,每本的方向和主題也都不太一樣。而由麥爾荀伯格(Viktor Mayer-Schonberger)和庫基耶(Kenneth Cukier)這兩位專家所合寫的《大數據》,主要在談三種大數據時代的新思維。

第一種新思維是「樣本=母體」,這個概念很有意思,也顛覆許多人對Big Data的想像。過去我們習慣用抽樣的方法來推估母體的全貌,這是一種不得已的做法,但現在的資訊技術已經有能力掌握全體資料,自然也就可以從龐大的數據中去爬梳隱匿的真相。

第二種新思維是「擁抱不精確」,讀到這裡的時候我其實有些詫異,原來在Big Data的時代,資料數量比資料品質更為重要。作者舉了Google翻譯的例子,這下我終於可以理解什麼叫做「先求有,再求好」了!換言之,我們要能夠容忍資料不準確,因為這就是擁抱Big Data必須付出的代價。

而第三種新思維則是「找到相關性,不再追求因果關係」,這一點倒不難理解,書中舉了亞馬遜的例子,以資訊演算法則介入書籍推薦的做法,來說明企業擁抱Big Data可以獲得的好處。如今,「追求相關性」的做法已經被普遍應用在許多購物網站,也由於有巨量資料的佐證,也讓這些智能推薦愈來愈準確。

資料化不只是將態度、情緒轉為可分析的形式,還囊括人類的種種行為。

透過這三種思維的轉換,《大數據》不只讓我們理解Big Data的重要性,更能夠透過書中的多個案例,感受到這股浪潮所帶來的衝擊和影響。是的,我們都活在資訊爆炸的碎片化的時代,學習和巨量資料共處,也將是吾人必須學習的課題。

打開《大數據》這本書,讓我們一起倘佯在資訊流中吧!

☆ 《大數據》試讀區

【維斯塔愛看書】《大數據》:掌握生活的真實樣貌