“大數據”作為時下最火熱的IT行業(yè)的詞匯,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等等圍繞大數據的商業(yè)價值的利用逐漸成為行業(yè)人士爭相追捧的利潤焦點。
早在1980年,著名未來學家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數據熱情地贊頌為“第三次浪
潮的華彩樂章”。不過,大約從2009年開始,“大數據”才成為互聯(lián)網信息技術行業(yè)的流行詞匯。美國互聯(lián)網數據中心指出,互聯(lián)網上的數據每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數據是最近幾年才產生的。此外,數據又并非單純指人們在互聯(lián)網上發(fā)布的信息,全世界的工業(yè)設備、汽車、電表上有著無數的數碼傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化,也產生了海量的數據信息。[2-3]
大數據技術的戰(zhàn)略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業(yè)化處理。換言之,如果把大數據比作一種產業(yè),那么這種產業(yè)實現(xiàn)盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現(xiàn)數據的“增值”。
從技術上看,大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須采用分布式計算架構。它的特色在于對海量數據的挖掘,但它必須依托云計算的分布式處理、分布式數據庫、云存儲和虛擬化技術。
隨著云時代的來臨,大數據(Big data)也吸引了越來越多的關注?!吨婆_》的分析師團隊認為,大數據(Big data)通常用來形容一個公司創(chuàng)造的大量非結構化和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯(lián)系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。
大數據分析相比于傳統(tǒng)的數據倉庫應用,具有數據量大、查詢分析復雜等特點?!队嬎銠C學報》刊登的“架構大數據:挑戰(zhàn)、現(xiàn)狀與展望”一文列舉了大數據分析平臺需要具備的幾個重要特性,對當前的主流實現(xiàn)平臺———并行數據庫、MapReduce及基于兩者的混合架構進行了分析歸納,指出了各自的優(yōu)勢及不足,同時也對各個方向的研究現(xiàn)狀及作者在大數據分析方面的努力進行了介紹,對未來研究做了展望。
對于“大數據”(Big data)研究機構Gartner給出了這樣的定義。“大數據”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。
大數據”這個術語最早期的引用可追溯到apache org的開源項目Nutch。當時,大數據用來描述為更新網絡搜索索引需要同時進行批量處理或分析的大量數據集。隨著谷歌MapReduce和GoogleFile System (GFS)的發(fā)布,大數據不再僅用來描述大量的數據,還涵蓋了處理數據的速度。
從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業(yè)的潛力。
大數據可分成大數據技術、大數據工程、大數據科學和大數據應用等領域。目前人們談論最多的是大數據技術和大數據應用。工程和科學問題尚未被重視。大數據工程指大數據的規(guī)劃建設運營管理的系統(tǒng)工程;大數據科學關注大數據網絡發(fā)展和運營過程中發(fā)現(xiàn)和驗證大數據的規(guī)律及其與自然和社會活動之間的關系。
大數據的4個“V”,或者說特點有四個層面:第一,數據體量巨大。從TB級別,躍升到PB級別;第二,數據類型繁多。前文提到的網絡日志、視頻、圖片、地理位置信息等等。第三,價值密度低,商業(yè)價值高。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數據僅僅有一兩秒。第四,處理速度快。1秒定律。最后這一點也是和傳統(tǒng)的數據挖掘技術有著本質的不同。業(yè)界將其歸納為4個“V”——Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(精確)。
物聯(lián)網、云計算、移動互聯(lián)網、車聯(lián)網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式。
