一、背景介紹
2015年以來,國務(wù)院相繼下發(fā)《關(guān)于促進云計算創(chuàng)新發(fā)展培育信息產(chǎn)業(yè)新業(yè)態(tài)的意見》、《促進大數(shù)據(jù)發(fā)展行動綱要》和《推進“互聯(lián)網(wǎng)+政務(wù)服務(wù)” 開展信息惠民試點實施方案》等文件后,我國政務(wù)信息化發(fā)展從共享交換時代進入大數(shù)據(jù)時代。
近年來,我國在大數(shù)據(jù)發(fā)展方面持續(xù)發(fā)力,取得了明顯成效。但也要看到,目前我國大數(shù)據(jù)發(fā)展還存在“孤島化”“碎片化”等問題,無序參與過度與創(chuàng)新參與不足并存,導(dǎo)致大數(shù)據(jù)資源配置統(tǒng)籌不力,部門間缺乏有效互動,開放的大數(shù)據(jù)平臺缺失,大數(shù)據(jù)的應(yīng)有作用尚未充分發(fā)揮出來。
某省委、省政府把大數(shù)據(jù)發(fā)展作為推動政府治理和公共服務(wù)能力現(xiàn)代化、促進經(jīng)濟社會轉(zhuǎn)型升級的重要抓手,根據(jù)《某省大數(shù)據(jù)發(fā)展行動計劃》,在“十三五”期間,某省將進一步加強信息基礎(chǔ)設(shè)施建設(shè),拓展互聯(lián)網(wǎng)與經(jīng)濟社會各領(lǐng)域融合的廣度和深度,以“數(shù)聚善政、數(shù)聚興業(yè)、數(shù)聚惠民”為目標(biāo),著力加強大數(shù)據(jù)技術(shù)攻關(guān),完善相關(guān)法規(guī)制度和標(biāo)準(zhǔn)體系,推動政府?dāng)?shù)據(jù)資源整合和開放共享,規(guī)范和深化大數(shù)據(jù)應(yīng)用體系,強化大數(shù)據(jù)安全保障,切實使大數(shù)據(jù)成為經(jīng)濟社會可持續(xù)發(fā)展的輔助決策重要因素。
目前某省政府70多個省級部門擁有和管理的數(shù)據(jù),如典型的公安、交通、醫(yī)療、衛(wèi)生、就業(yè)、社保、地理、文化、教育、科技、環(huán)境、金融、統(tǒng)計、氣象等數(shù)據(jù),呈現(xiàn)數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多等特點。但各部門卻各自為戰(zhàn)、獨立建設(shè),即使在省級部門內(nèi)部也是垂直和水平并存,無法有效支撐某省政府“群眾辦事百項堵點疏解行動”和實現(xiàn)“一網(wǎng)通辦”的信息化建設(shè)目標(biāo)。各部門數(shù)據(jù)問題主要突出表現(xiàn)在以下幾個方面:
1)各部門信息化差異大
信息化程度差,老舊數(shù)據(jù)多
各部門信息系統(tǒng)建設(shè)自成一體,數(shù)據(jù)融合困難
2)缺乏統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),無細化技術(shù)規(guī)范
數(shù)據(jù)格式五花八門,信息獲取困難
數(shù)據(jù)模型差異大
同樣的數(shù)據(jù)往往有多個來源,缺乏準(zhǔn)確的數(shù)據(jù)識別和指標(biāo)定義,造成數(shù)據(jù)口徑不一致,統(tǒng)計指標(biāo)差異大
3)數(shù)據(jù)保護主義嚴重,數(shù)據(jù)資源分散
受到部門利益以及相關(guān)法律、法規(guī)與行政管理體制等約束,各部門對各自業(yè)務(wù)數(shù)據(jù)有很強的保護意識,各局委辦自成一體,信息孤島情況嚴重
數(shù)據(jù)資源分散在不同部門的業(yè)務(wù)系統(tǒng)中,沒有實現(xiàn)資源有效的匯集整合,更難以實現(xiàn)整合數(shù)據(jù)價值點挖掘,支撐決策分析
4)數(shù)據(jù)權(quán)限設(shè)定難,數(shù)據(jù)安全風(fēng)險大
數(shù)據(jù)所有者理解難,導(dǎo)致數(shù)據(jù)審批流程難以確認
數(shù)據(jù)匯集后,無端到端的安全保證
二、建設(shè)目標(biāo)
隨著“互聯(lián)網(wǎng)+政務(wù)服務(wù)”進程的進一步推進,要求政府建立部門間協(xié)同機制,打破部門利益壟斷,加強部門間的數(shù)據(jù)整合,實現(xiàn)政府部門間的信息共享與交換,強化數(shù)據(jù)資源社會開發(fā)利用,推動跨行業(yè)、跨地區(qū)的信息共享和業(yè)務(wù)協(xié)同,真正做到“用數(shù)據(jù)說話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新”,實現(xiàn)“數(shù)聚善政、數(shù)聚興業(yè)、數(shù)聚惠民”的大數(shù)據(jù)發(fā)展目標(biāo)。
政務(wù)主數(shù)據(jù)管理立足于對政務(wù)信息化的深刻理解,依托于成熟、先進的主數(shù)據(jù)管理解決方案,全面梳理識別出全省范圍內(nèi)的主數(shù)據(jù),建立起有某省特色的主數(shù)據(jù)管理體系,為政府職能轉(zhuǎn)變升級,打造透明、陽光、責(zé)任政府,以及響應(yīng)國家層面的政務(wù)大數(shù)據(jù)公開和數(shù)據(jù)驅(qū)動創(chuàng)新創(chuàng)業(yè)的大格局保駕護航。具體建設(shè)目標(biāo)主要包含以下幾個方面:
1)制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),技術(shù)規(guī)范
嚴格遵循數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,在數(shù)據(jù)治理過程中,稽核數(shù)據(jù)質(zhì)量,針對問題數(shù)據(jù)形成數(shù)據(jù)工單,下發(fā)數(shù)據(jù)提供者,不斷提升提供者提交的數(shù)據(jù)規(guī)范性
2)實現(xiàn)政務(wù)數(shù)據(jù)資源共享
打破信息孤島,變“群眾跑腿”為“信息跑路”,變“群眾來回跑”為“部門協(xié)同辦”,變被動服務(wù)為主動服務(wù),快速實現(xiàn)政府部門間跨地區(qū)、跨層級的信息共享,強化業(yè)務(wù)協(xié)同應(yīng)用
數(shù)據(jù)集中管理,支撐智慧城市智慧跨部門業(yè)務(wù)開展
公共數(shù)據(jù)統(tǒng)一開放,促進信用、交通、醫(yī)療衛(wèi)生和檔案等各類民生保障服務(wù)建設(shè)
3)豐富的政務(wù)應(yīng)用
利用數(shù)據(jù)開展大數(shù)據(jù)分析,輔助政府在政府治理、服務(wù)民生和產(chǎn)業(yè)發(fā)展等方面做智慧決策
4)立體的安全保障
數(shù)據(jù)管理安全:統(tǒng)一管理策略融入數(shù)據(jù)流;在端到端數(shù)據(jù)處理過程中,從數(shù)據(jù)歸集,數(shù)據(jù)治理,數(shù)據(jù)共享與服務(wù),每個環(huán)節(jié)都需要嵌入數(shù)據(jù)安全管控和數(shù)據(jù)安全策略的執(zhí)行
數(shù)據(jù)隱私保護:基于用戶授權(quán)、白名單(敏感用戶)提供差異化的隱私策略;結(jié)合用戶權(quán)限控制、應(yīng)用權(quán)限控制,提供細粒度數(shù)據(jù)訪問控制及隱私處理策略;提供多種去隱私處理能力,滿足不同業(yè)務(wù)應(yīng)用的需要:實時流處理、批處理、人機交互處理;提供覆蓋整個數(shù)據(jù)生命周期的隱私保護
數(shù)據(jù)開放安全:數(shù)據(jù)資源安全分級、開放策略制定、數(shù)據(jù)授權(quán)機制以及安全合規(guī)
5)安全分析
職能監(jiān)測、威脅預(yù)測、智能響應(yīng)以及安全態(tài)勢分析
三、建設(shè)方案
1、主數(shù)據(jù)建設(shè)框架
某省主數(shù)據(jù)管理建設(shè)方案框架主要包含主數(shù)據(jù)識別和采集、主數(shù)據(jù)清洗和轉(zhuǎn)換、基礎(chǔ)庫建設(shè)和服務(wù)及數(shù)據(jù)標(biāo)準(zhǔn)管理、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理等幾部分內(nèi)容,如下圖所示:
某省主數(shù)據(jù)管理建設(shè)方案示意圖
2、主數(shù)據(jù)識別和采集
2.1主數(shù)據(jù)識別、標(biāo)準(zhǔn)化
現(xiàn)階段以國務(wù)院“群眾辦事百項堵點疏解行動”和《省級部門共享需求表》為目標(biāo),以“急用先行、重點優(yōu)先”原則進行主數(shù)據(jù)識別,優(yōu)先梳理出目前最迫切的和自然人、法人相關(guān)的主數(shù)據(jù)數(shù)據(jù)項,初步識別出某省政務(wù)主數(shù)據(jù),如下表所示:
某省政務(wù)主數(shù)據(jù)示例1
某省政務(wù)主數(shù)據(jù)示例2
通過對某省主數(shù)據(jù)進行識別,對業(yè)務(wù)主數(shù)據(jù)來源進行了標(biāo)準(zhǔn)化:
自然人基本信息血緣關(guān)系
在此基礎(chǔ)上,依據(jù)某省政務(wù)活動的需要,編制某省自然人、社會法人基礎(chǔ)庫的數(shù)據(jù)元標(biāo)準(zhǔn)和通用代碼標(biāo)準(zhǔn),以規(guī)范自然人、法人主數(shù)據(jù)管理工作的開展,具體規(guī)范材料如下圖所示:
政務(wù)大數(shù)據(jù)數(shù)據(jù)元規(guī)范材料
2.2主數(shù)據(jù)采集
按照對主數(shù)據(jù)的共享的時效性要求,可采用以下兩種方案:
非實時主數(shù)據(jù):對于共享實時性要求不高的主數(shù)據(jù)(如股權(quán)出質(zhì)、行政處罰等),通過“政務(wù)共享交換平臺”+“ETL”實現(xiàn)數(shù)據(jù)采集
實時主數(shù)據(jù):對于共享實時性要求高的主數(shù)據(jù)(如個人基本信息、法人基本信息等),通過CDC、觸發(fā)器等方式直接從數(shù)據(jù)源采集
3、主數(shù)據(jù)清洗和轉(zhuǎn)換
3.1非實時數(shù)據(jù)
對于非實時數(shù)據(jù),首先進入歸集庫,在歸集庫中存放和原始數(shù)據(jù)一致的鏡像。歸集庫的數(shù)據(jù)需通過一定的清洗(如剔重、過濾無效數(shù)據(jù)等)和轉(zhuǎn)換(如代碼、數(shù)據(jù)格式轉(zhuǎn)換等)后,形成符合技術(shù)和業(yè)務(wù)標(biāo)準(zhǔn)的數(shù)據(jù)進入中心庫,以作為省大數(shù)據(jù)中心對外共享開放的最原始數(shù)據(jù),清洗和轉(zhuǎn)換可通過ETL工具實現(xiàn)。
3.2實時數(shù)據(jù)
實時數(shù)據(jù)因其低延時的要求,需使用實時流數(shù)據(jù)處理方法進行數(shù)據(jù)的清洗和轉(zhuǎn)換后,直接進入中心庫,實現(xiàn)的技術(shù)包括:Kafka+Flink。
4、基礎(chǔ)庫建設(shè)和服務(wù)
4.1基礎(chǔ)庫建設(shè)
政府?dāng)?shù)據(jù)來源廣、共享需求大,如果對數(shù)據(jù)只做識別、集成、質(zhì)量管控等操作,無法實現(xiàn)主數(shù)據(jù)的高效、高質(zhì)共享。例如個人基本信息分別來自公安、民政、人社等機構(gòu),如果只是把這幾個部門的數(shù)據(jù)分別集中到省中心,當(dāng)共享個人的基本信息時,則需在共享時進行多表關(guān)聯(lián)、剔重等操作,影響共享的效率,并增加了API開發(fā)的難度。因此,需依據(jù)業(yè)務(wù)需求,對采集來的主數(shù)據(jù)進行邏輯數(shù)據(jù)模型設(shè)計、整合打通數(shù)據(jù),來減少數(shù)據(jù)冗余、提高數(shù)據(jù)的訪問效率。下圖為法人邏輯數(shù)據(jù)模型示例。
法人邏輯數(shù)據(jù)模型示例
4.2數(shù)據(jù)服務(wù)
自然人和法人基礎(chǔ)庫的數(shù)據(jù),可通過API接口的方式對外提供服務(wù)。API網(wǎng)關(guān)可提供API快速開發(fā)和部署、負載均衡、流量控制、接口日志、接口服務(wù)質(zhì)量管理等功能。各委辦局使用統(tǒng)一的接口協(xié)議和數(shù)據(jù)標(biāo)準(zhǔn)進行自然人、法人主數(shù)據(jù)的訪問。
5、數(shù)據(jù)治理
某省政務(wù)數(shù)據(jù)治理目標(biāo)主要包含以下幾個方面:
建立全省統(tǒng)一的自然人、法人庫數(shù)據(jù)標(biāo)準(zhǔn),并進行統(tǒng)一的管理、維護和查詢引用
通過數(shù)據(jù)質(zhì)量管理系統(tǒng)落實數(shù)據(jù)標(biāo)準(zhǔn)的落地,持續(xù)推進全省主數(shù)據(jù)數(shù)據(jù)質(zhì)量的改進
通過元數(shù)據(jù)管理為主數(shù)據(jù)管理的各個數(shù)據(jù)處理階段提供數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)映射關(guān)系和數(shù)據(jù)規(guī)則的描述,保障主數(shù)據(jù)管理的數(shù)據(jù)質(zhì)量
6、解決方案關(guān)鍵點
因政府的特殊性,某省政府主數(shù)據(jù)管理與其它行業(yè)的主數(shù)據(jù)管理,存在許多的差異。在某省政府主數(shù)據(jù)管理解決方案中,針對某省的特點,因地制宜地采取了對應(yīng)的措施。
6.1獲取正確的主數(shù)據(jù)
某省政府自然人、法人主數(shù)據(jù)分散在省廳局、市委辦局和區(qū)縣等各級機構(gòu),各級機構(gòu)都有自然人、法人的部分或全部數(shù)據(jù),但普遍存在各機構(gòu)數(shù)據(jù)不一致、沖突的問題,數(shù)據(jù)來源有庫表、接口、文件等。為解決這些難點,采取了以下幾個措施:
堅決推行“一數(shù)一源”,對于每一項主數(shù)據(jù),依據(jù)各級機構(gòu)的行政職能和業(yè)務(wù)屬性來準(zhǔn)確識別數(shù)據(jù)來源。發(fā)生數(shù)據(jù)不一致、沖突時,以數(shù)據(jù)源的數(shù)據(jù)為準(zhǔn)(如自然人基本信息:自然人的身份證、姓名、性別等數(shù)據(jù)來源于公安;婚姻來源于民政;學(xué)歷、教育信息來源于教育部門)
對于省垂直的系統(tǒng),優(yōu)先從省廳局獲取數(shù)據(jù),地市數(shù)據(jù)作為參考,對于地市水平的系統(tǒng),優(yōu)先從地市獲取數(shù)據(jù),省廳局數(shù)據(jù)作為參考
在“一數(shù)一源”基礎(chǔ)上,使用上下級機構(gòu)或平行機構(gòu)的數(shù)據(jù)和數(shù)源單位進行主數(shù)據(jù)的交叉核對,以提高自然人、法人主數(shù)據(jù)的及時性、準(zhǔn)確性
優(yōu)先獲取庫表類型的數(shù)據(jù),對于文件,在省中心內(nèi)部轉(zhuǎn)換為庫表數(shù)據(jù),接口主要用于關(guān)鍵數(shù)據(jù)項的核對(如通過民政廳的婚姻接口對自然人的婚姻狀態(tài)進行核對)
6.2問題數(shù)據(jù)溯源、閉環(huán)
自然人、法人主數(shù)據(jù)對外用于社會公眾、法人的政務(wù)活動,對內(nèi)用于政府的輔助決策,如果數(shù)據(jù)本身出了問題,會造成不好的社會影響,同時還會帶來政府公信力下降等不利的后果。在自然人、法人主數(shù)據(jù)管理過程中,需及時識別出數(shù)據(jù)的質(zhì)量問題,并及時對問題進行過濾、溯源和修正。對發(fā)現(xiàn)的問題數(shù)據(jù)通過共享交換平臺傳回數(shù)源單位,同時通過工單推送等方式及時知會數(shù)源單位進行問題數(shù)據(jù)修正,形成一個完整的問題數(shù)據(jù)跟蹤和處理流程的閉環(huán)。整體流程如下圖所示:
數(shù)據(jù)管控治理平臺
6.3共享交換集成
采集到省大數(shù)據(jù)中心的數(shù)據(jù),經(jīng)質(zhì)量管理規(guī)則進行數(shù)據(jù)質(zhì)量管控后,會發(fā)現(xiàn)大量的問題數(shù)據(jù),需要考慮如何在政府網(wǎng)絡(luò)環(huán)境下,如何將這些問題數(shù)據(jù)返回給數(shù)據(jù)源機構(gòu)。就某省項目來說,通過把數(shù)據(jù)質(zhì)量工單、問題數(shù)據(jù)與共享交換平臺進行了集成,依托共享交換平臺的傳輸通道,將問題數(shù)據(jù)回傳到數(shù)據(jù)源機構(gòu)的前置交換區(qū),方便數(shù)據(jù)源機構(gòu)對問題數(shù)據(jù)進行核查。
6.4單點登陸、工單集成
某省政務(wù)信息化除主數(shù)據(jù)管理外,還涉及到共享交換、目錄、共享網(wǎng)站、統(tǒng)一維護管理平臺、ETL等系統(tǒng)。所有系統(tǒng)在客戶側(cè)的入口都是共享網(wǎng)站,因此主數(shù)據(jù)管理系統(tǒng)需和共享網(wǎng)站進行集成,通過共享網(wǎng)站單點登陸進行賬號安全認證,并將問題數(shù)據(jù)工單推送到統(tǒng)一維護管理平臺。
6.5確保數(shù)據(jù)安全
自然人、法人的許多信息涉及到個人隱私、商業(yè)機密等,在共享時需要高度保證數(shù)據(jù)的安全性,以防止非法竊聽、信息涉密等,對敏感信息做了以下幾項安全保障:
事前:對身份證號、婚姻、個人財產(chǎn)等敏感信息進行梳理和識別,建立敏感信息識別模型
事中:對敏感信息的使用做脫敏處理,對確需使用敏感信息,在傳輸過程中進行加密處理
事后:數(shù)據(jù)服務(wù)對外共享數(shù)據(jù)時,對敏感信息增加數(shù)字水印,確保在數(shù)據(jù)涉密發(fā)生后,能追溯定位到涉密的部門、人員