原標(biāo)題:李國(guó)杰:發(fā)展大數(shù)據(jù)不要一味追求數(shù)據(jù)規(guī)模大,要“應(yīng)用為先”

  中國(guó)信息化百人會(huì)學(xué)術(shù)委員、中國(guó)工程院院士李國(guó)杰認(rèn)為,目前大數(shù)據(jù)技術(shù)還不成熟,面對(duì)海量、異構(gòu)、動(dòng)態(tài)變化的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)處理和分析技術(shù)難以應(yīng)對(duì),現(xiàn)有的數(shù)據(jù)處理系統(tǒng)實(shí)現(xiàn)大數(shù)據(jù)應(yīng)用的效率較低,成本和能耗較大,而且難以擴(kuò)展,這些挑戰(zhàn)大多來(lái)自數(shù)據(jù)本身的復(fù)雜性、計(jì)算的復(fù)雜性和信息系統(tǒng)的復(fù)雜性。李國(guó)杰認(rèn)為,發(fā)展大數(shù)據(jù)不要一味追求“數(shù)據(jù)規(guī)模大”,不要“技術(shù)驅(qū)動(dòng)”,要“應(yīng)用為先”,不能拋棄“小數(shù)據(jù)”方法,同時(shí)要高度關(guān)注構(gòu)建大數(shù)據(jù)平臺(tái)的成本。

 
  以下內(nèi)容節(jié)選自李國(guó)杰院士《對(duì)大數(shù)據(jù)的再認(rèn)識(shí)》一文:
 
  一、從復(fù)雜性的角度看大數(shù)據(jù)研究和應(yīng)用面臨的挑戰(zhàn)
 
  大數(shù)據(jù)技術(shù)和人類探索復(fù)雜性的努力有密切關(guān)系。20世紀(jì)70年代,新三論(耗散結(jié)構(gòu)論、協(xié)同論、突變論)的興起對(duì)幾百年來(lái)貫穿科學(xué)技術(shù)研究的還原論發(fā)起了挑戰(zhàn)。1984年蓋爾曼等3位諾貝爾獎(jiǎng)得主成立以研究復(fù)雜性為主的圣菲研究所,提出超越還原論的口號(hào),在科技界掀起了一場(chǎng)復(fù)雜性科學(xué)運(yùn)動(dòng)。雖然雷聲很大,但30年來(lái)并未取得預(yù)期的效果,其原因之一可能是當(dāng)時(shí)還沒(méi)有出現(xiàn)解決復(fù)雜性的技術(shù)。
 
  集成電路、計(jì)算機(jī)與通信技術(shù)的發(fā)展大大增強(qiáng)了人類研究和處理復(fù)雜問(wèn)題的能力。大數(shù)據(jù)技術(shù)將復(fù)雜性科學(xué)的新思想發(fā)揚(yáng)光大,可能使復(fù)雜性科學(xué)得以落地。復(fù)雜性科學(xué)是大數(shù)據(jù)技術(shù)的科學(xué)基礎(chǔ),大數(shù)據(jù)方法可以看作復(fù)雜性科學(xué)的技術(shù)實(shí)現(xiàn)。大數(shù)據(jù)方法為還原論與整體論的辯證統(tǒng)一提供了技術(shù)實(shí)現(xiàn)途徑。大數(shù)據(jù)研究要從復(fù)雜性研究中吸取營(yíng)養(yǎng),從事數(shù)據(jù)科學(xué)研究的學(xué)者不但要了解20世紀(jì)的“新三論”,可能還要學(xué)習(xí)與超循環(huán)、混沌、分形和元胞自動(dòng)機(jī)等理論有關(guān)的知識(shí),擴(kuò)大自己的視野,加深對(duì)大數(shù)據(jù)機(jī)理的理解。
 
  大數(shù)據(jù)技術(shù)還不成熟,面對(duì)海量、異構(gòu)、動(dòng)態(tài)變化的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)處理和分析技術(shù)難以應(yīng)對(duì),現(xiàn)有的數(shù)據(jù)處理系統(tǒng)實(shí)現(xiàn)大數(shù)據(jù)應(yīng)用的效率較低,成本和能耗較大,而且難以擴(kuò)展。這些挑戰(zhàn)大多來(lái)自數(shù)據(jù)本身的復(fù)雜性、計(jì)算的復(fù)雜性和信息系統(tǒng)的復(fù)雜性。
 
  1 數(shù)據(jù)復(fù)雜性引起的挑戰(zhàn)
 
  圖文檢索、主題發(fā)現(xiàn)、語(yǔ)義分析、情感分析等數(shù)據(jù)分析工作十分困難,其原因是大數(shù)據(jù)涉及復(fù)雜的類型、復(fù)雜的結(jié)構(gòu)和復(fù)雜的模式,數(shù)據(jù)本身具有很高的復(fù)雜性。目前,人們對(duì)大數(shù)據(jù)背后的物理意義缺乏理解,對(duì)數(shù)據(jù)之間的關(guān)聯(lián)規(guī)律認(rèn)識(shí)不足,對(duì)大數(shù)據(jù)的復(fù)雜性和計(jì)算復(fù)雜性的內(nèi)在聯(lián)系也缺乏深刻理解,領(lǐng)域知識(shí)的缺乏制約了人們對(duì)大數(shù)據(jù)模型的發(fā)現(xiàn)和高效計(jì)算方法的設(shè)計(jì)。形式化或定量化地描述大數(shù)據(jù)復(fù)雜性的本質(zhì)特征及度量指標(biāo),需要深入研究數(shù)據(jù)復(fù)雜性的內(nèi)在機(jī)理。人腦的復(fù)雜性主要體現(xiàn)在千萬(wàn)億級(jí)的樹突和軸突的鏈接,大數(shù)據(jù)的復(fù)雜性主要也體現(xiàn)在數(shù)據(jù)之間的相互關(guān)聯(lián)。理解數(shù)據(jù)之間關(guān)聯(lián)的奧秘可能是揭示微觀到宏觀“涌現(xiàn)”規(guī)律的突破口。大數(shù)據(jù)復(fù)雜性規(guī)律的研究有助于理解大數(shù)據(jù)復(fù)雜模式的本質(zhì)特征和生成機(jī)理,從而簡(jiǎn)化大數(shù)據(jù)的表征,獲取更好的知識(shí)抽象。為此,需要建立多模態(tài)關(guān)聯(lián)關(guān)系下的數(shù)據(jù)分布理論和模型,理清數(shù)據(jù)復(fù)雜度和計(jì)算復(fù)雜度之間的內(nèi)在聯(lián)系,奠定大數(shù)據(jù)計(jì)算的理論基礎(chǔ)。
 
  2 計(jì)算復(fù)雜性引起的挑戰(zhàn)
 
  大數(shù)據(jù)計(jì)算不能像處理小樣本數(shù)據(jù)集那樣做全局?jǐn)?shù)據(jù)的統(tǒng)計(jì)分析和迭代計(jì)算,在分析大數(shù)據(jù)時(shí),需要重新審視和研究它的可計(jì)算性、計(jì)算復(fù)雜性和求解算法。大數(shù)據(jù)樣本量巨大,內(nèi)在關(guān)聯(lián)密切而復(fù)雜,價(jià)值密度分布極不均衡,這些特征對(duì)建立大數(shù)據(jù)計(jì)算范式提出了挑戰(zhàn)。對(duì)于PB級(jí)的數(shù)據(jù),即使只有線性復(fù)雜性的計(jì)算也難以實(shí)現(xiàn),而且,由于數(shù)據(jù)分布的稀疏性,可能做了許多無(wú)效計(jì)算。
 
  傳統(tǒng)的計(jì)算復(fù)雜度是指某個(gè)問(wèn)題求解時(shí)需要的時(shí)間空間與問(wèn)題規(guī)模的函數(shù)關(guān)系,所謂具有多項(xiàng)式復(fù)雜性的算法是指當(dāng)問(wèn)題的規(guī)模增大時(shí),計(jì)算時(shí)間和空間的增長(zhǎng)速度在可容忍的范圍內(nèi)。傳統(tǒng)科學(xué)計(jì)算關(guān)注的重點(diǎn)是,針對(duì)給定規(guī)模的問(wèn)題,如何“算得快”。而在大數(shù)據(jù)應(yīng)用中,尤其是流式計(jì)算中,往往對(duì)數(shù)據(jù)處理和分析的時(shí)間、空間有明確限制,比如網(wǎng)絡(luò)服務(wù)如果回應(yīng)時(shí)間超過(guò)幾秒甚至幾毫秒,就會(huì)丟失許多用戶。大數(shù)據(jù)應(yīng)用本質(zhì)上是在給定的時(shí)間、空間限制下,如何“算得多”。從“算得快”到“算得多”,考慮計(jì)算復(fù)雜性的思維邏輯有很大的轉(zhuǎn)變。所謂“算得多”并不是計(jì)算的數(shù)據(jù)量越大越好,需要探索從足夠多的數(shù)據(jù),到剛剛好的數(shù)據(jù),再到有價(jià)值的數(shù)據(jù)的按需約簡(jiǎn)方法。
 
  基于大數(shù)據(jù)求解困難問(wèn)題的一條思路是放棄通用解,針對(duì)特殊的限制條件求具體問(wèn)題的解。人類的認(rèn)知問(wèn)題一般都是NP難問(wèn)題,但只要數(shù)據(jù)充分多,在限制條件下可以找到十分滿意的解,近幾年自動(dòng)駕駛汽車取得重大進(jìn)展就是很好的案例。為了降低計(jì)算量,需要研究基于自舉和采樣的局部計(jì)算和近似方法,提出不依賴于全量數(shù)據(jù)的新型算法理論,研究適應(yīng)大數(shù)據(jù)的非確定性算法等理論。
 
  3 系統(tǒng)復(fù)雜性引起的挑戰(zhàn)
 
  大數(shù)據(jù)對(duì)計(jì)算機(jī)系統(tǒng)的運(yùn)行效率和能耗提出了苛刻要求,大數(shù)據(jù)處理系統(tǒng)的效能評(píng)價(jià)與優(yōu)化問(wèn)題具有挑戰(zhàn)性,不但要求理清大數(shù)據(jù)的計(jì)算復(fù)雜性與系統(tǒng)效率、能耗間的關(guān)系,還要綜合度量系統(tǒng)的吞吐率、并行處理能力、作業(yè)計(jì)算精度、作業(yè)單位能耗等多種效能因素。針對(duì)大數(shù)據(jù)的價(jià)值稀疏性和訪問(wèn)弱局部性的特點(diǎn),需要研究大數(shù)據(jù)的分布式存儲(chǔ)和處理架構(gòu)。
 
  大數(shù)據(jù)應(yīng)用涉及幾乎所有的領(lǐng)域,大數(shù)據(jù)的優(yōu)勢(shì)是能在長(zhǎng)尾應(yīng)用中發(fā)現(xiàn)稀疏而珍貴的價(jià)值,但一種優(yōu)化的計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)很難適應(yīng)各種不同的需求,碎片化的應(yīng)用大大增加了信息系統(tǒng)的復(fù)雜性,像昆蟲種類一樣多(500多萬(wàn)種)的大數(shù)據(jù)和物聯(lián)網(wǎng)應(yīng)用如何形成手機(jī)一樣的巨大市場(chǎng),這就是所謂“昆蟲綱悖論”。為了化解計(jì)算機(jī)系統(tǒng)的復(fù)雜性,需要研究異構(gòu)計(jì)算系統(tǒng)和可塑計(jì)算技術(shù)。
 
  大數(shù)據(jù)應(yīng)用中,計(jì)算機(jī)系統(tǒng)的負(fù)載發(fā)生了本質(zhì)性變化,計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)需要革命性的重構(gòu)。信息系統(tǒng)需要從數(shù)據(jù)圍著處理器轉(zhuǎn)改變?yōu)樘幚砟芰鴶?shù)據(jù)轉(zhuǎn),關(guān)注的重點(diǎn)不是數(shù)據(jù)加工,而是數(shù)據(jù)的搬運(yùn);系統(tǒng)結(jié)構(gòu)設(shè)計(jì)的出發(fā)點(diǎn)要從重視單任務(wù)的完成時(shí)間轉(zhuǎn)變到提高系統(tǒng)吞吐率和并行處理能力,并發(fā)執(zhí)行的規(guī)模要提高到10億級(jí)以上。構(gòu)建以數(shù)據(jù)為中心的計(jì)算系統(tǒng)的基本思路是從根本上消除不必要的數(shù)據(jù)流動(dòng),必要的數(shù)據(jù)搬運(yùn)也應(yīng)由“大象搬木頭”轉(zhuǎn)變?yōu)椤拔浵伆岽竺住薄?/div>
 
  二、發(fā)展大數(shù)據(jù)應(yīng)避免的誤區(qū)
 
  1 不要一味追求“數(shù)據(jù)規(guī)模大”
 
  大數(shù)據(jù)主要難點(diǎn)不是數(shù)據(jù)量大,而是數(shù)據(jù)類型多樣、要求及時(shí)回應(yīng)和原始數(shù)據(jù)真假難辨?,F(xiàn)有數(shù)據(jù)庫(kù)軟件解決不了非結(jié)構(gòu)化數(shù)據(jù),要重視數(shù)據(jù)融合、數(shù)據(jù)格式的標(biāo)準(zhǔn)化和數(shù)據(jù)的互操作。采集的數(shù)據(jù)往往質(zhì)量不高是大數(shù)據(jù)的特點(diǎn)之一,但盡可能提高原始數(shù)據(jù)的質(zhì)量仍然值得重視。腦科學(xué)研究的最大問(wèn)題就是采集的數(shù)據(jù)可信度差,基于可信度很差的數(shù)據(jù)難以分析出有價(jià)值的結(jié)果。
 
  一味追求數(shù)據(jù)規(guī)模大不僅會(huì)造成浪費(fèi),而且效果未必很好。多個(gè)來(lái)源的小數(shù)據(jù)的集成融合可能挖掘出單一來(lái)源大數(shù)據(jù)得不到的大價(jià)值。應(yīng)多在數(shù)據(jù)的融合技術(shù)上下功夫,重視數(shù)據(jù)的開放與共享。所謂數(shù)據(jù)規(guī)模大與應(yīng)用領(lǐng)域有密切關(guān)系,有些領(lǐng)域幾個(gè)PB的數(shù)據(jù)未必算大,有些領(lǐng)域可能幾十TB已經(jīng)是很大的規(guī)模。
 
  發(fā)展大數(shù)據(jù)不能無(wú)止境地追求“更大、更多、更快”,要走低成本、低能耗、惠及大眾、公正法治的良性發(fā)展道路,要像現(xiàn)在治理環(huán)境污染一樣,及早關(guān)注大數(shù)據(jù)可能帶來(lái)的“污染”和侵犯隱私等各種弊端。
 
  2 不要“技術(shù)驅(qū)動(dòng)”,要“應(yīng)用為先”
 
  新的信息技術(shù)層出不窮,信息領(lǐng)域不斷冒出新概念、新名詞,估計(jì)繼“大數(shù)據(jù)”以后,“認(rèn)知計(jì)算”、“可穿戴設(shè)備”、“機(jī)器人”等新技術(shù)又會(huì)進(jìn)入炒作高峰。我們習(xí)慣于跟隨國(guó)外的熱潮,往往不自覺(jué)地跟著技術(shù)潮流走,最容易走上“技術(shù)驅(qū)動(dòng)”的道路。實(shí)際上發(fā)展信息技術(shù)的目的是為人服務(wù),檢驗(yàn)一切技術(shù)的唯一標(biāo)準(zhǔn)是應(yīng)用。我國(guó)發(fā)展大數(shù)據(jù)產(chǎn)業(yè)一定要堅(jiān)持“應(yīng)用為先”的發(fā)展戰(zhàn)略,堅(jiān)持應(yīng)用牽引的技術(shù)路線。技術(shù)有限,應(yīng)用無(wú)限。各地發(fā)展云計(jì)算和大數(shù)據(jù),一定要通過(guò)政策和各種措施調(diào)動(dòng)應(yīng)用部門和創(chuàng)新企業(yè)的積極性,通過(guò)跨界的組合創(chuàng)新開拓新的應(yīng)用,從應(yīng)用中找出路。
 
  3 不能拋棄“小數(shù)據(jù)”方法
 
  流行的“大數(shù)據(jù)”定義是:無(wú)法通過(guò)目前主流軟件工具在合理時(shí)間內(nèi)采集、存儲(chǔ)、處理的數(shù)據(jù)集。這是用不能勝任的技術(shù)定義問(wèn)題,可能導(dǎo)致認(rèn)識(shí)的誤區(qū)。按照這種定義,人們可能只會(huì)重視目前解決不了的問(wèn)題,如同走路的人想踩著自己身前的影子。其實(shí),目前各行各業(yè)碰到的數(shù)據(jù)處理多數(shù)還是“小數(shù)據(jù)”問(wèn)題。我們應(yīng)重視實(shí)際碰到的問(wèn)題,不管是大數(shù)據(jù)還是小數(shù)據(jù)。
 
  統(tǒng)計(jì)學(xué)家們花了200多年,總結(jié)出認(rèn)知數(shù)據(jù)過(guò)程中的種種陷阱,這些陷阱不會(huì)隨著數(shù)據(jù)量的增大而自動(dòng)填平。大數(shù)據(jù)中有大量的小數(shù)據(jù)問(wèn)題,大數(shù)據(jù)采集同樣會(huì)犯小數(shù)據(jù)采集一樣的統(tǒng)計(jì)偏差。Google公司的流感預(yù)測(cè)這兩年失靈,就是由于搜索推薦等人為的干預(yù)造成統(tǒng)計(jì)誤差。
 
  大數(shù)據(jù)界流行一種看法:大數(shù)據(jù)不需要分析因果關(guān)系、不需要采樣、不需要精確數(shù)據(jù)。這種觀念不能絕對(duì)化,實(shí)際工作中要邏輯演繹和歸納相結(jié)合、白盒與黑盒研究相結(jié)合、大數(shù)據(jù)方法與小數(shù)據(jù)方法相結(jié)合。
 
  4 要高度關(guān)注構(gòu)建大數(shù)據(jù)平臺(tái)的成本
 
  目前全國(guó)各地都在建設(shè)大數(shù)據(jù)中心,呂梁山下都建立了容量達(dá)2 PB以上的數(shù)據(jù)處理中心,許多城市公安部門要求存儲(chǔ)3個(gè)月以上的高清監(jiān)控錄像。這些系統(tǒng)的成本都非常高。數(shù)據(jù)挖掘的價(jià)值是用成本換來(lái)的,不能不計(jì)成本,盲目建設(shè)大數(shù)據(jù)系統(tǒng)。什么數(shù)據(jù)需要保存,要保存多少時(shí)間,應(yīng)當(dāng)根據(jù)可能的價(jià)值和所需的成本來(lái)決定。大數(shù)據(jù)系統(tǒng)技術(shù)還在研究之中,美國(guó)的E級(jí)超級(jí)計(jì)算機(jī)系統(tǒng)要求能耗降低1000倍,計(jì)劃到2024年才能研制出來(lái),用現(xiàn)在的技術(shù)構(gòu)建的巨型系統(tǒng)能耗極高。
 
  我們不要攀比大數(shù)據(jù)系統(tǒng)的規(guī)模,而是要比實(shí)際應(yīng)用效果,比完成同樣的事消耗更少的資源和能量。先抓老百姓最需要的大數(shù)據(jù)應(yīng)用,因地制宜發(fā)展大數(shù)據(jù)。發(fā)展大數(shù)據(jù)與實(shí)現(xiàn)信息化的策略一樣:目標(biāo)要遠(yuǎn)大、起步要精準(zhǔn)、發(fā)展要快速。

責(zé)任編輯:admin