政府使用大數(shù)據是為了提升和改善公共服務,這與企業(yè)利用其追求利潤異曲同工。
大數(shù)據是從各種各樣來源中搜集得到的海量數(shù)據信息的總稱。對于傳統(tǒng)的關系型數(shù)據分析技術來說,其數(shù)據量太大,未經處理,同時也是非結構化的。據統(tǒng)計,現(xiàn)在每天產生2.5艾字節(jié)(quintillion bytes)的數(shù)據信息,全球將近90%的數(shù)據是過去兩年創(chuàng)造出來的。
此外,從大數(shù)據的數(shù)據結構看,大約90%的數(shù)據是非結構化的。來源于網絡和云的海量數(shù)據,為發(fā)現(xiàn)、創(chuàng)造價值,以及豐富商業(yè)智能支撐機構決策提供了新的機遇。不過,大數(shù)據也面臨復雜性、安全和隱私風險等新挑戰(zhàn)。同時,對于新技術和人類技能的開發(fā)來說,大數(shù)據是一種需要。
大數(shù)據重新定義了數(shù)據管理的范圍,由數(shù)據提取、轉換、加載,或稱為ETL(Extraction-Transformation-Loading),演變?yōu)樵诖髷?shù)據應用中凈化和組織非結構化數(shù)據的新技術(如分布式架構技術)。
盡管企業(yè)部門正引導大數(shù)據應用的發(fā)展,公共部門也開始對迅速增長的大數(shù)據具有洞察力,為實時決策提供幫助和支持。
大數(shù)據有多個來源,包括互聯(lián)網、生物和產業(yè)部門、視頻、電子郵件和社交媒體。許多白皮書、期刊論文和商業(yè)報告已經提出了政府利用大數(shù)據,幫助其服務公眾和應對傳統(tǒng)挑戰(zhàn)(如醫(yī)療成本上升、創(chuàng)造就業(yè)、自然災害和恐怖主義等)的路徑。
也有一些觀點,就大數(shù)據是否真能改進政府運作效率提出質疑,因為政府必須發(fā)展新的能力,并采用新技術(比如分布式和非結構化查詢語言),通過數(shù)據組織和分析,將大數(shù)據轉變?yōu)橛杏玫男畔ⅰ?/p>
本文就政府是否能與企業(yè)一樣,將大數(shù)據應用于公共服務部門進行了研究。我們首先比較了政府和企業(yè)在目標、任務、決策制定過程、決策者、組織架構和戰(zhàn)略的差異,接著考察了部分技術領先的國家當前大數(shù)據應用的狀況,這些國家包括澳大利亞、日本、新加坡、韓國、英國和美國等。
本文也分析了一些企業(yè)的大數(shù)據應用,這些技術也能應用在政府事務中。最后,我們提出了國家和政府部門未來建設大數(shù)據戰(zhàn)略應用項目的建議。
文章主要觀點
企業(yè)、政府和研究機構都能夠從他們搜集的海量大數(shù)據中獲取價值;
大數(shù)據應用領先的國家已實施大數(shù)據應用項目,以提高國家運行效率、透明度、民眾福利和公共事務參與度,確保經濟增長和國家安全;
分析政府部門采用的大數(shù)據應用項目,為其他國家提供未來大數(shù)據行動的引導。
企業(yè)和政府的比較
雖然企業(yè)和政府的主要任務并不沖突,但各自的舉措具有不同的目標和價值。企業(yè)的主要目標是通過提供產品和服務獲取利潤,發(fā)展或維持自身的競爭優(yōu)勢,創(chuàng)造令消費者和其他利益相關者滿意的價值。政府的主要目標則是維持國內穩(wěn)定,實現(xiàn)可持續(xù)發(fā)展,確保公民的基本權利,改善國民福利和促進經濟增長。
在競爭的市場環(huán)境下,大部分企業(yè)著眼于制定短期決策,并且執(zhí)行人員數(shù)量也很有限。而政府的決策制定過程通常需要更長的時間,經過不同群體(包括官員、利益集團和普通民眾)反復討論和磋商,在彼此間達成一致后才能有最終結果。因此,政府制定決策要完成很多程序性步驟,以降低決策風險,提高決策效率和確保其效果。由此看來,大數(shù)據在政府部門和私有部門的應用具有很大不同。
數(shù)據集屬性比較
大數(shù)據環(huán)境是以信息技術為基礎的決策支持系統(tǒng)的演進:從上世紀60年代的數(shù)據處理,到70-80年代的信息應用,再到90年代的決策支持模型,進入2000年后的數(shù)據存儲和挖掘,再就是今天的大數(shù)據。大部分與大數(shù)據相關的技術和分析應用是從2010年左右開始出現(xiàn)的,故大數(shù)據時代正處于早期階段/發(fā)展初期。
大數(shù)據的屬性和挑戰(zhàn)已經用3V來描述:海量(volume)、速度(velocity)和多樣性(variety)。海量是大數(shù)據的基本屬性,各類機構和組織在業(yè)務活動過程中產生數(shù)以百萬億字節(jié)的數(shù)據,數(shù)據容量越來越大。速度是指數(shù)據量增長越來越快,對處理速度和響應速度提出更高要求,運用傳統(tǒng)的信息技術手段難以有效處理,以及從中提取有價值的信息。多樣性是指數(shù)據以各種各樣類型的出現(xiàn),包括結構化的(SQL等傳統(tǒng)的數(shù)據庫);半結構化的(具有關鍵字和規(guī)則,但數(shù)據結構不規(guī)則或不完整)和非結構化的(非組織性的數(shù)據,沒有商業(yè)智能)。
大數(shù)據的概念已經表明,大數(shù)據不僅僅是海量的數(shù)據,還包括通過處理大數(shù)據從中獲取價值。如今,大數(shù)據與商業(yè)智能、商業(yè)分析和數(shù)據挖掘是同義詞,已經使商業(yè)智能從報告和決策支持轉移到預測和制定未來行動綱領。新的數(shù)據管理系統(tǒng)旨在應對大數(shù)據帶來的挑戰(zhàn),如分布式架構技術是一個開源平臺,目前是在管理存儲和接入,以及高速并行處理大規(guī)模數(shù)據集等方面應用最為廣泛的技術。然而,對于很多企業(yè),特別是不少中小企業(yè)來說,分布式技術是一個挑戰(zhàn)。因為這些中小企業(yè)往往不具備應用大數(shù)據需要的專業(yè)人員和經驗,他們需要外部資源幫助。應該看到,大數(shù)據應用需要的不是純粹基于技術的技能,找到正確的分析大數(shù)據的技能,或許是企業(yè)應用大數(shù)據面臨的最大難題。對于大部分企業(yè)來說,發(fā)現(xiàn)和選擇勝任的數(shù)據專家(在數(shù)據挖掘、可視化、操作和發(fā)現(xiàn)等方面)是困難而昂貴的。
其他商業(yè)大數(shù)據技術包括Casandra數(shù)據庫,它是一個動態(tài)的數(shù)據庫工具,采用行存儲格式,每一行能存儲二百萬個數(shù)據單元。對于企業(yè)的另一個挑戰(zhàn)是選擇最適合他們的大數(shù)據技術:開源技術(如分布式架構技術)或者商業(yè)技術(如Casandra, Cloudera, Hortonworks, MapR)。
政府在應用大數(shù)據時,不僅要處理多個來源、不同格式數(shù)據集成等一般問題,而且還面臨一些特殊挑戰(zhàn),最大的挑戰(zhàn)就是數(shù)據搜集。因為政府搜集的數(shù)據不僅來自于多種渠道(如社交網絡、互聯(lián)網、眾包),也來自于不同的來源(如國家、機構和部門),搜集難度可想而知。其次,在國家之間分享數(shù)據和信息是一個特殊的挑戰(zhàn)??鐕窒硇畔?,由于涉及到語言轉換和不同的文化背景(內容的表現(xiàn)形式),分享和傳遞的信息有可能失真。第三個挑戰(zhàn)是在一個國家不同的政府部門和機構之間分享數(shù)據。政府數(shù)據與商業(yè)數(shù)據最重要的不同就在范圍和區(qū)域,其差異近幾年都在平穩(wěn)增長。政府(包括地方政府和中央政府)在實施法律和規(guī)章、提供公共服務和監(jiān)管金融交易的過程中積累了大量數(shù)據。這些數(shù)據的屬性、價值和帶來的挑戰(zhàn),都不同于公司運營中產生的數(shù)據。政府的大數(shù)據特征屬性可以表述為存儲、安全和多樣性。通常,每個政府機構或部門都有自己的存儲機構,用于存儲公共或機密信息,而且并不愿意分享各自的專有信息。
每個系統(tǒng)都保存有與其他系統(tǒng)隔絕的信息,這使得政府機構和部門之間的數(shù)據集成更加復雜。彼此溝通的失敗有時是影響數(shù)據集成的重要原因。例如,在英國,警察機構和醫(yī)院之間曾經打算在暴力犯罪方面分享信息,但這一項目最終失敗,原因就是兩者之間溝通不足。另一個分享政府信息的挑戰(zhàn)是建立統(tǒng)一的數(shù)據格式,能夠允許不同機構進行分析。盡管大部分政府數(shù)據是結構化的,但是從多種渠道和來源去搜集數(shù)據仍然是一個更大的困難。缺乏標準化的數(shù)據格式和軟件,以及從多個政府機構的離散數(shù)據庫中提取有用信息的跨機構解決方法,也是政府推進大數(shù)據應用面臨的挑戰(zhàn)。但由于政府的緊縮措施,導致其缺乏相應資金去發(fā)展和推進解決上述問題。
在使用大數(shù)據時,政府必須解決相關的法律、安全和許可要求等問題。在搜集和使用大數(shù)據用于預測分析與保障公民隱私權之間,應該有一條清晰的界限。
在美國,美國愛國者法案允許合法監(jiān)控,有時還可以監(jiān)控公民;電子通訊隱私法案允許相關部門不經授權便可進入電子郵件系統(tǒng);要對網絡情報共享和保護法案(CISPA)加以注意,它將允許安全機構和私人網絡公司之間的信息共享,這增加了人們對誤解信息不適當應用的關注。
數(shù)據安全是政府大數(shù)據最基本的屬性,因此,搜集、存儲和使用大數(shù)據都需要特別注意。然而,目前大部分大數(shù)據技術,包括 Casandra數(shù)據庫和分布式技術,都缺乏足夠的安全保護工具。對政府而言,確保安全是又一個挑戰(zhàn)。
編譯:工業(yè)和信息化部國際經濟技術合作中心 高常水 江道輝