政務(wù)大數(shù)據(jù)在物理上分為“數(shù)據(jù)存儲、數(shù)據(jù)計算和數(shù)據(jù)服務(wù)”三個重要層面,其物理模型示意圖如下:

政務(wù)大數(shù)據(jù)的物理模型

  就政務(wù)大數(shù)據(jù)的物理模型整體而言,存儲層是技術(shù)基礎(chǔ)、計算層是核心能力、服務(wù)層是核心價值。立體、全方位(全面覆蓋數(shù)據(jù)訪問鑒權(quán)認(rèn)證、數(shù)據(jù)安全傳輸和數(shù)據(jù)安全存儲等全過程&全生命周期)的安全保障機制與體系建設(shè)是政務(wù)大數(shù)據(jù)提供和使用服務(wù)的基本前提。綜合、系統(tǒng)化(充分運用系統(tǒng)工程思想,不斷提升、優(yōu)化整個鏈條的價值再生&可持續(xù)能力)的運營支撐機制與體系建設(shè)是為實現(xiàn)政務(wù)大數(shù)據(jù)“自治和自優(yōu)化”這一最終目標(biāo)做準(zhǔn)備的。注:在《政務(wù)大數(shù)據(jù)的本質(zhì)》一文中提到:“政務(wù)大數(shù)據(jù)的未來是數(shù)據(jù)自治”。

  有關(guān)政務(wù)大數(shù)據(jù)的立體安全保障機制與體系建設(shè)將在后續(xù)文章《政務(wù)大數(shù)據(jù)的安全》中具體展開,有關(guān)政務(wù)大數(shù)據(jù)的綜合運營支撐機制與體系建設(shè)將在后續(xù)文章《政務(wù)大數(shù)據(jù)的運營》中具體展開,本文重點討論政務(wù)大數(shù)據(jù)的存儲、計算和服務(wù)三層物理模型。

  如同資源虛擬化是實現(xiàn)云計算的重要具體技術(shù),大數(shù)據(jù)也離不開數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、決策支持、商業(yè)智能、分布式計算等傳統(tǒng)IT技術(shù)。然而,大數(shù)據(jù)是一個更加綜合、龐雜的生態(tài)體系,它需要IT技術(shù)的支撐但不僅僅是IT技術(shù)本身,其本質(zhì)上還是數(shù)據(jù),是能夠資源化的、有商業(yè)價值的數(shù)據(jù)。海量數(shù)據(jù)始終存在,但以前將其存儲起來是一個問題,隨著存儲軟硬件技術(shù)的發(fā)展,容量已經(jīng)不是問題,可以實際利用的海量數(shù)據(jù)就產(chǎn)生了。還有就是計算能力的快速發(fā)展,使得基于海量數(shù)據(jù)進行全樣本的計算和分析由不可能變成現(xiàn)實。具體到政務(wù)大數(shù)據(jù)而言,很多時候其體量并不大,原因在于長期以來被人為的按照地域、按照職能、按照主題、按照數(shù)據(jù)類型分割了。這種分割的現(xiàn)狀源于之前對全樣本數(shù)據(jù)進行存儲、通信和計算的能力局限,以及數(shù)據(jù)的價值密度過低而持有成本過高。隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的快速發(fā)展,以及物聯(lián)網(wǎng)、工業(yè)4.0以及機器智能技術(shù)的不斷成熟,政務(wù)大數(shù)據(jù)具備了發(fā)展的土壤,也具備了發(fā)展的時機。歸根到底,政務(wù)大數(shù)據(jù)的核心價值在于政務(wù)優(yōu)化(協(xié)同、治理、服務(wù)和決策)。如果政務(wù)優(yōu)化比作一個人的綜合價值,存儲層就是其記憶的信息和知識(記憶力和記憶量),計算層是其學(xué)和做的能力(智商和反應(yīng)能力),服務(wù)層是其結(jié)果規(guī)劃、產(chǎn)出能力(大局觀、情商和效率)。

  政務(wù)大數(shù)據(jù)的存儲層從大的方面來講就是要解決好結(jié)構(gòu)化和非結(jié)構(gòu)化兩類數(shù)據(jù)的存儲問題。這兩類數(shù)據(jù)并不孤立,而且需要相互轉(zhuǎn)化:非結(jié)構(gòu)化的數(shù)據(jù)往往需要將其屬性信息結(jié)構(gòu)化,如視頻、圖像、聲音、文檔等非結(jié)構(gòu)化數(shù)據(jù)所表達的主題、關(guān)鍵詞、人物對象等信息往往會以結(jié)構(gòu)化的方式予以展現(xiàn);同時,結(jié)構(gòu)化的信息也需要轉(zhuǎn)換成非結(jié)構(gòu)化的形式,比如企業(yè)或個人信用信息往往需要形成一份可讀的文檔型的信用報告,還有類似語音導(dǎo)航、智能設(shè)備的智能控制,根據(jù)矢量數(shù)據(jù)進行地圖繪制以及三維建模等都是在把結(jié)構(gòu)化的內(nèi)容進行非結(jié)構(gòu)化。因此,結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)是緊密聯(lián)系的,也是可以相互轉(zhuǎn)化的。不太認(rèn)同劃分出第三類數(shù)據(jù)“半結(jié)構(gòu)化”,基本上這類數(shù)據(jù)就是結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的混合模式。

  鑒于政務(wù)信息資源的特點,其數(shù)據(jù)是結(jié)構(gòu)化還是非結(jié)構(gòu)化往往取決于其原始來源和用途目的的綜合作用。如攝像頭采集的是圖形、圖像信息或者音視頻信息,在交通及治安執(zhí)法時需要識別人物(人臉)、車牌,就需要把非結(jié)構(gòu)化的圖像轉(zhuǎn)化為結(jié)構(gòu)化的信息。又如相關(guān)物聯(lián)網(wǎng)設(shè)備傳感器采集的溫度、濕度、pm2.5、甲醛等結(jié)構(gòu)化數(shù)據(jù),往往需要刻畫出圖文并茂的環(huán)境質(zhì)量報告。再如公共資源交易信息,即有非結(jié)構(gòu)化的標(biāo)書、投標(biāo)書、技術(shù)圖紙等數(shù)據(jù),也有結(jié)構(gòu)化的交易主體、交易過程及結(jié)果信息、評審專家信息等數(shù)據(jù)。結(jié)構(gòu)化和非結(jié)構(gòu)化混合是常態(tài),分別開來的時候往往是場景不同。

  從具體的數(shù)據(jù)庫管理平臺來講,傳統(tǒng)的數(shù)據(jù)庫如ORACLE、SQLSERVER、DB2、SYBASE、MYSQL、POSTSQL等以及達夢、人大金倉、南大通用等國產(chǎn)數(shù)據(jù)庫多為關(guān)系型數(shù)據(jù)(SQL數(shù)據(jù)庫),適合存儲結(jié)構(gòu)化數(shù)據(jù)、適合事務(wù)處理(強調(diào)ACID特性:Atomicity、Consistency、Isolation和Durability)。與之對應(yīng)的是NOSQL(Not only Sql)數(shù)據(jù)庫,這個種類比較龐雜,廣義來講面向文檔的MongoDB、CouchDB等,圖形(Graph)數(shù)據(jù)庫Neo4j、AllegroGrap、GraphDB等,內(nèi)存數(shù)據(jù)庫memcached、Redis、ROMA等,面向列的Cassandra、HBase等(強調(diào)CAP特性:Consistency、Availability和Partitiontolerance)。從某種程度上來講,NOSQL是在分布式存儲的飛速發(fā)展和日益成熟而逐漸登上舞臺成為SQL數(shù)據(jù)的重要補充的。當(dāng)然,分布式存儲并非NOSQL數(shù)據(jù)的專屬,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫也同樣對分布式存儲有較好的支持。如果說分布式計算本質(zhì)是在充分共享利用關(guān)鍵計算資源和負載分擔(dān),那么對應(yīng)于分布式計算的分布式存儲就是依賴于分布式文件系統(tǒng),來提高存儲能力的可擴展性。

  在搭建政務(wù)大數(shù)據(jù)的物理結(jié)構(gòu)時,可以參考淘寶商城(采用阿里自主研發(fā)的Oceanbase和Tair),優(yōu)酷(采用開放的HBase、MongoDB和Redis)等典型方案??紤]到結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的綜合支持以及自主可控的指標(biāo),也可以采用國產(chǎn)數(shù)據(jù)庫組合方案(DM/GBase/KingbaseES/OpenBASE/神通數(shù)據(jù)庫等+SequoiaDB巨杉數(shù)據(jù)庫等)或者開放的存儲平臺(Mysql+HBase、MongoDB和Redis)以及基于全文檢索的ES(ElasticsSearch)/Apache Solr等。伴隨著云計算的快速發(fā)展,致力于DaaS的云數(shù)據(jù)庫也會成為搭建政務(wù)大數(shù)據(jù)存儲層的重要選擇(前提是安全、自主和可控三者的良好平衡)。

  政務(wù)大數(shù)據(jù)的計算層是圍繞著政務(wù)業(yè)務(wù)來展開的,政務(wù)大體上可以分為協(xié)同(G2G:政府對政府)、治理(G2S:政府對社會)、服務(wù)(G2C:政府對公眾&G2B:政府對企業(yè))和決策(G2S:政府對社會)四個部分。其中,政務(wù)大數(shù)據(jù)的治理和決策是政府對社會的治理和決策的重要組成部分;政務(wù)協(xié)同是政府對外提供政務(wù)服務(wù)的基礎(chǔ),政府各組成部門以及公務(wù)員之間通過工作協(xié)同使政務(wù)數(shù)據(jù)協(xié)同起來、聚合起來形成統(tǒng)一的政務(wù)信息資源庫。政務(wù)的治理過程既是政府對社會的監(jiān)督、管理基礎(chǔ)上的治理,也是對政務(wù)信息資源庫的數(shù)據(jù)治理。政務(wù)的服務(wù)與決策是基于政務(wù)信息資源庫的,也是以政務(wù)協(xié)同和治理為前提的。在提供服務(wù)和智慧決策的過程中,政務(wù)大數(shù)據(jù)的作用十分重要。因此,在政務(wù)活動中產(chǎn)生的政務(wù)大數(shù)據(jù)的原始信息——政務(wù)信息資源庫,需要通過關(guān)聯(lián)分析、聚類分析、分類、預(yù)測、時序模式和偏差分析等數(shù)據(jù)挖掘技術(shù)以及信息組合、數(shù)學(xué)建模、相關(guān)性分析等數(shù)據(jù)計算。

  政務(wù)大數(shù)據(jù)的計算層就是要把分散在各個原始存儲單元中的數(shù)據(jù)進行重新組合、運算形成更全貌、綜合或者更深層次、全新的數(shù)據(jù)價值。從政務(wù)的特點來看,其實時/準(zhǔn)實時計算里既包含面向業(yè)務(wù)分析的OLAP(實時在線分析),也包含面向業(yè)務(wù)的OLTP(實時事務(wù)處理);非實時[離線]計算里,既包括面向業(yè)務(wù)分析的離線分析,也包括面向業(yè)務(wù)的離線處理。

  就政務(wù)大數(shù)據(jù)而言,其計算層主要是面向業(yè)務(wù)分析的實時/準(zhǔn)實時和離線計算。其中,政務(wù)大數(shù)據(jù)的離線計算仍是適用數(shù)據(jù)倉庫基本理論:如維度表和事實表的深度融合構(gòu)成維度模型;基于數(shù)據(jù)立方體實現(xiàn)五種基本操作(consolidation/roll-up、drill-down、slice、dice和pivot);融合了ROLAP[關(guān)系型]和MOLAP[多維]的HOLAP[混合型]分析;以O(shè)DS[Operational Data Store]為主要存儲模式等)。政務(wù)大數(shù)據(jù)的離線計算可以采用MapReduce分布式計算模型(如Spark集群計算環(huán)境)和Apache Hive基于Hadoop的數(shù)據(jù)倉庫工具;實時計算可以采用Apache Storm+Redis來實現(xiàn);日志處理方面可同時使用Flume(日志收集管道)和Kafka(分布式消息隊列),日志流向可以從log到Kafka,再從kafka到Strom上,再由Flume去讀取日志消息。

  政務(wù)大數(shù)據(jù)的服務(wù)層是基于計算層的支撐來實現(xiàn)的,按照計算層的政務(wù)協(xié)同、政務(wù)治理、政務(wù)服務(wù)和政務(wù)決策四類政務(wù)大數(shù)據(jù)群組,依次衍生出“協(xié)同流程、協(xié)同成效”,“治理體系、治理收益”,“服務(wù)提供、服務(wù)優(yōu)化”和“政務(wù)研判、政務(wù)預(yù)測”等八大政務(wù)業(yè)務(wù)主題域。

  其中,協(xié)同流程重點是提供政務(wù)活動的業(yè)務(wù)流程、過程數(shù)據(jù)支持,協(xié)同成效是對政務(wù)活動的價值評估、衡量,兩者共同構(gòu)成政務(wù)大數(shù)據(jù)在協(xié)同層面提供的數(shù)據(jù)基礎(chǔ)服務(wù)、增值服務(wù)和價值創(chuàng)新;治理體系是政務(wù)監(jiān)管評價、綜合治理在政務(wù)數(shù)據(jù)層面上進行具體保障的系統(tǒng)性規(guī)劃以及工具集、作業(yè)集,治理收益是治理效果的具體量化、數(shù)據(jù)展現(xiàn);服務(wù)提供和服務(wù)優(yōu)化也是相輔相成的,前者是基礎(chǔ)、后者是用于政務(wù)服務(wù)的自我改進、提升;政務(wù)研判是對政務(wù)活動的研究、分析和判定,核心目標(biāo)是政務(wù)預(yù)測,即服務(wù)于對政務(wù)活動的未來預(yù)測、更好支撐未來的政務(wù)活動。從技術(shù)落地上來講,政務(wù)大數(shù)據(jù)的服務(wù)層是需要可視化技術(shù)、機器智能技術(shù)進行支撐的,前者用于展現(xiàn)展示和基礎(chǔ)互動,后者用于基于AI技術(shù)的虛擬“專家”智庫/團隊。其中,可視化技術(shù)未來必然是要和VR(Virtual Reality)、AR(Augmented Reality)、MR(Mixed Reality)、HR(Holographic Reality)、ER(Expander Reality)等XR技術(shù)相融合,來提高人與數(shù)據(jù)的互動。

  關(guān)于政務(wù)大數(shù)據(jù)在服務(wù)層的8大業(yè)務(wù)主題域(政務(wù)大數(shù)據(jù)的本質(zhì)就是政務(wù),所以也是政務(wù)的8大業(yè)務(wù)主題域),計劃在漫談?wù)?wù)大數(shù)據(jù)系統(tǒng)文章完稿后,再分別做專題討論,所以本文就不再進一步深入闡述了。

  簡言之,政務(wù)大數(shù)據(jù)的物理模型是服務(wù)于其概念模型,依據(jù)其邏輯模型進行政務(wù)大數(shù)據(jù)的實際實施、落地的。政務(wù)大數(shù)據(jù)的范圍非常廣泛,本文僅對整體脈絡(luò)、通用業(yè)務(wù)、常用技術(shù)進行了說明。鑒于作者本人的學(xué)識、經(jīng)驗所限,相關(guān)內(nèi)容難免有偏頗甚至錯誤之處,非常歡迎感興趣的同仁一起研討。同時,也會持續(xù)在該領(lǐng)域進行研究,并將心得、體會及時與大家分享。

責(zé)任編輯:qinpeng