一、數(shù)字圖書館技術(shù)在信息資源的管理與開發(fā)利用中的地位

 ?。ㄒ唬﹪鴥?nèi)外數(shù)字圖書館建設(shè)情況

  20世紀(jì)90年代初,美國科學(xué)家首先提出了Digital Library的概念,可以翻譯為數(shù)字圖書館,也可以理解為數(shù)字化資源庫。數(shù)字圖書館是一個(gè)數(shù)字信息資源系統(tǒng),它通過現(xiàn)代信息網(wǎng)絡(luò)技術(shù)體系,將有價(jià)值的圖像、文本、音頻、視頻、軟件等各種多媒體信息進(jìn)行收集、組織、規(guī)范和再加工,最終向用戶提供一個(gè)多庫連接的信息存取服務(wù)。

  自數(shù)字圖書館概念提出之后,各國都在積極推進(jìn)數(shù)字圖書館研究和建設(shè)。美國是全球數(shù)字圖書館建設(shè)的領(lǐng)導(dǎo)者,其數(shù)字圖書館項(xiàng)目納入了國家信息基礎(chǔ)設(shè)施虛擬圖書館中,列在美國全球資源項(xiàng)目下。美國現(xiàn)有分布于各地的八個(gè)數(shù)字圖書館研究中心,六個(gè)國家級(jí)數(shù)字圖書館試驗(yàn)基地,很多90年代開始計(jì)劃的數(shù)字圖書館規(guī)劃目前已都完成。美國往事(American Memory)項(xiàng)目是美國國會(huì)圖書館數(shù)字圖書館建設(shè)的主要項(xiàng)目,其數(shù)字館藏的對(duì)象主要是美國的歷史文獻(xiàn),包括歷史照片、手稿、歷史檔案和其他文獻(xiàn)等,該項(xiàng)目已在2001年起向全球用戶開放;由美國科學(xué)基金會(huì)(NSF)、美國國防高級(jí)研究計(jì)劃署(DAROA)、美國宇航局(NASA)發(fā)起并資助的美國“數(shù)字圖書館首倡計(jì)劃”(DLI,Digital Library Initiative)于1994年啟動(dòng),該數(shù)字圖書館的內(nèi)容主要是有關(guān)地球與空間技術(shù)的科學(xué)資料,一、二期工程已分別于1998年、2003年完成;美國國家基金會(huì)發(fā)起的美國國家科學(xué)數(shù)字圖書館(NSDL)也已完成,其目的是向各種層次的學(xué)生和教師提供高質(zhì)量的科學(xué)、數(shù)學(xué)、工程與技術(shù)等教育資料。此外,美國很多地區(qū)和大學(xué)也都建立了自己的數(shù)字圖書館。

  法國國家數(shù)字圖書館工程建設(shè)的數(shù)字資源達(dá)3000GB以上,書目數(shù)據(jù)記錄830萬條;德國“1996-2000年信息技術(shù)發(fā)展計(jì)劃”的中心內(nèi)容是建立全球數(shù)字圖書館;英國“國家圖書館存儲(chǔ)創(chuàng)新倡議”共有20個(gè)項(xiàng)目,目前大多已完成,并在互聯(lián)網(wǎng)上提供服務(wù);“俄羅斯往事”項(xiàng)目包含了俄羅斯歷史文化精華,它的電子圖書館項(xiàng)目包含了29個(gè)子項(xiàng)目;日本投入了15億日元開發(fā)日文文獻(xiàn)數(shù)據(jù)庫,還投資4億美元興建“日本國會(huì)圖書館關(guān)西館工程”。此外,很多全球性的數(shù)字圖書館項(xiàng)目也已建成,如“G8全球信息社會(huì)電子圖書館”是由美、法、英、日、德、加、意、俄8個(gè)國家的國家圖書館共同參加的項(xiàng)目,已于2000年完成,其內(nèi)容涵蓋了各國的歷史文化精華。

  國際上數(shù)字圖書館及相關(guān)概念出現(xiàn)后,中國國內(nèi)很多單位也開展了相應(yīng)的技術(shù)研究和開發(fā)工作。1997年中國實(shí)驗(yàn)型數(shù)字圖書館啟動(dòng),經(jīng)過三年多的工作,建成了分布于全國7個(gè)地區(qū)的數(shù)字資源庫群,資源內(nèi)容包括中國法律法規(guī)、文化旅游、名人和軍事博覽4個(gè)主題的30多個(gè)資源庫。1998年國家圖書館啟動(dòng)了“中國數(shù)字圖書館工程”,其目標(biāo)是建成超大規(guī)模的、高質(zhì)量的分布式中文數(shù)字資源庫并提供網(wǎng)上等多種服務(wù),該項(xiàng)目目前還在建設(shè)中。2001年中國科學(xué)院啟動(dòng)了國家科學(xué)數(shù)字圖書館,目標(biāo)是建成一個(gè)能夠直接有效支持科研用戶信息獲取和知識(shí)創(chuàng)新活動(dòng)的數(shù)字信息服務(wù)體系。此外,一些地方和大學(xué)根據(jù)自身的資源特點(diǎn),也都在建個(gè)性化的數(shù)字圖書館。

  (二)數(shù)字圖書館技術(shù)在信息資源的管理與開發(fā)中處于領(lǐng)先地位

  隨著信息技術(shù)的不斷發(fā)展,數(shù)字化信息資源越來越多,如何采集、組織和管理這些海量信息資源,并通過再加工、信息共享、整合等增值服務(wù),以滿足各種用戶的多樣性需求,就成為了信息資源管理與開發(fā)的重要內(nèi)容。

  數(shù)字圖書館研究和開發(fā)起步較早,它將計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境下的信息資源的收藏、管理、使用和增值服務(wù)集成在一起,以支持?jǐn)?shù)字化資源整個(gè)生命周期的活動(dòng),與其他領(lǐng)域的信息資源管理與開發(fā)具有相同的內(nèi)容。因而,數(shù)字圖書館建設(shè)中所開發(fā)的很多技術(shù)、標(biāo)準(zhǔn)都可以被直接用于其他領(lǐng)域的信息資源管理與開發(fā)。目前,由于在全球范圍內(nèi)數(shù)字圖書館建設(shè)的快速發(fā)展,大大促進(jìn)了相應(yīng)技術(shù)的提升,如數(shù)字化技術(shù)、存儲(chǔ)技術(shù)、信息資源描述技術(shù)、互操作技術(shù)、互聯(lián)網(wǎng)查詢檢索技術(shù)等等,為其他領(lǐng)域的信息資源管理與開發(fā)提供了技術(shù)儲(chǔ)備。

  不僅是數(shù)字圖書館建設(shè)中開發(fā)的各種技術(shù)、標(biāo)準(zhǔn)可以為其他領(lǐng)域使用,數(shù)字圖書館還可以直接作為其他領(lǐng)域的基礎(chǔ)設(shè)施被使用,如電子政務(wù)、電子商務(wù)等領(lǐng)域??梢?,數(shù)字圖書館開發(fā)和建設(shè)在現(xiàn)代信息資源管理與開發(fā)中起著龍頭和基礎(chǔ)作用。

  二、數(shù)字圖書館技術(shù)的最新發(fā)展

  根據(jù)數(shù)字圖書館建設(shè)業(yè)務(wù)的流程,數(shù)字圖書館技術(shù)體系大致可分為四個(gè)部分:(1)資源采集和移植,包括傳統(tǒng)信息資源采集和電子信息采集兩個(gè)方面。傳統(tǒng)信息資源采集使用的技術(shù)主要有掃描、縮微、光學(xué)字符識(shí)別、語音識(shí)別、人工智能等,電子信息采集包括文本、圖像、視頻、音頻的處理技術(shù)。(2)資源描述。資源描述技術(shù)主要是標(biāo)準(zhǔn)的制定和規(guī)范,目前主要有MARC機(jī)讀目錄、元數(shù)據(jù)標(biāo)準(zhǔn)和標(biāo)識(shí)語言標(biāo)準(zhǔn)。(3)資源組織,包括海量信息存儲(chǔ)、加工、管理等技術(shù)。(4)資源存取,包括信息檢索和互操作技術(shù)等。此外,資源安全技術(shù)在數(shù)字圖書館建設(shè)中也被廣泛應(yīng)用,包括網(wǎng)絡(luò)安全、信息加密等。

數(shù)字圖書館技術(shù)及其對(duì)組織機(jī)構(gòu)代碼管理的借鑒

圖2-1 數(shù)字圖書館技術(shù)體系

  數(shù)字圖書館建設(shè)的快速發(fā)展,極大地促進(jìn)了數(shù)字圖書館技術(shù)的提升。從近一段時(shí)間的發(fā)展來看,數(shù)字圖書館技術(shù)研究和應(yīng)用的主要著眼點(diǎn)有兩個(gè):一是資源描述技術(shù);二是資源的互操作技術(shù)。前者主要從標(biāo)準(zhǔn)出發(fā),規(guī)范數(shù)字圖書館資源的格式,以便于管理和用戶使用。后者主要從用戶應(yīng)用出發(fā),實(shí)現(xiàn)具有異構(gòu)性的不同數(shù)字圖書館之間的共享。

  數(shù)字圖書館系統(tǒng)是開放的數(shù)字信息系統(tǒng),其提供的資源與服務(wù)必須適應(yīng)多樣化、分布、甚至是動(dòng)態(tài)的用戶需求?;ヂ?lián)網(wǎng)上為數(shù)眾多的數(shù)字圖書館信息建設(shè)模式的差異造成了今天數(shù)字圖書館之間信息和服務(wù)共享的困境。如何將這些已有的資源整合起來以滿足用戶的多樣性需求,是目前數(shù)字圖書館建設(shè)的一個(gè)重點(diǎn)。推倒并按統(tǒng)一的模式重來顯然是不現(xiàn)實(shí)也不經(jīng)濟(jì)的,因而互操作技術(shù)就成為了數(shù)字圖書館建設(shè)中的研究和發(fā)展焦點(diǎn)。而網(wǎng)格技術(shù)的出現(xiàn),也正好滿足了數(shù)字圖書館間的互操作要求。

 ?。ㄒ唬┗ゲ僮骷夹g(shù)

  由于數(shù)字圖書館建設(shè)的主體不同,對(duì)數(shù)字圖書館的理解不同,并使用不同的標(biāo)準(zhǔn)、技術(shù)等,致使各個(gè)數(shù)字圖書館體系結(jié)構(gòu)不同,限制了數(shù)字圖書館的服務(wù)范圍。制約數(shù)字圖書館互操作的因素主要有兩類,一類是應(yīng)用層面的,如軟硬件系統(tǒng)互不支持;另一類是基礎(chǔ)層面的,主要是數(shù)字資源的組織和描述方面,如采用不同的元數(shù)據(jù)標(biāo)準(zhǔn)、不同的存儲(chǔ)格式等。

  目前,主要有三種實(shí)現(xiàn)數(shù)字圖書館的互操作技術(shù):分布式搜索技術(shù)、基于中間件的互操作技術(shù)和基于協(xié)議的互操作技術(shù)。除此之外,針對(duì)目前數(shù)字圖書館建設(shè)中元數(shù)據(jù)格式眾多的局面,還專門提出了基于RDF框架的資源描述機(jī)制(這部分內(nèi)容將在標(biāo)準(zhǔn)中詳細(xì)闡述),為不同元數(shù)據(jù)之間的相互變通提供了可能性。

  1、分布式搜索技術(shù)

  該機(jī)制將用戶提交的查詢請(qǐng)求,轉(zhuǎn)換成每一個(gè)數(shù)字圖書館都可接收的形式,分別傳輸?shù)蕉鄠€(gè)數(shù)字圖書館站點(diǎn)執(zhí)行,并收集每個(gè)返回的結(jié)果,綜合整理后交給用戶。分布式搜索機(jī)制可以分為兩類:基于標(biāo)準(zhǔn)的方法和基于數(shù)據(jù)驅(qū)動(dòng)的方法。

 ?。?)基于標(biāo)準(zhǔn)的方法

  該方法也可稱為系統(tǒng)的方法,即所有參與互操作的數(shù)字圖書館構(gòu)成一個(gè)系統(tǒng),在系統(tǒng)內(nèi)部制定一系列的協(xié)議和規(guī)范,要求所有成員都遵守協(xié)議,并按照公共的規(guī)范提供服務(wù);要求所有組織都使用相同的平臺(tái)和軟件,并統(tǒng)一調(diào)度。網(wǎng)上計(jì)算機(jī)科學(xué)技術(shù)報(bào)告圖書館NCSTRL(Networked Computer Science Technical Reference Library)就是采用了這種方法。NCSTRL是一個(gè)擁有100多個(gè)機(jī)構(gòu)加盟的系統(tǒng)數(shù)字圖書館,它借助分布式搜索技術(shù)在系統(tǒng)內(nèi)的各個(gè)數(shù)字圖書館之間實(shí)現(xiàn)資源共享。

  由于嚴(yán)格按照統(tǒng)一的標(biāo)準(zhǔn)來建立數(shù)字圖書館系統(tǒng)及館藏資源,因此該種方法能夠提供較好的、全面的互操作。但這種方法對(duì)成員圖書館的要求較高,所以難以形成大規(guī)模的系統(tǒng)。

 ?。?)基于數(shù)據(jù)驅(qū)動(dòng)的方法

  該方法對(duì)成員數(shù)字圖書館的要求比較低,既不需要變動(dòng)已有的數(shù)字圖書館的結(jié)構(gòu),也不要求各成員遵從某種互操作協(xié)議,而是通過收集數(shù)字圖書館可公開訪問信息的途徑獲得最基本的互操作。這種方法通常提供統(tǒng)一的用戶界面,用戶輸入查詢請(qǐng)求,系統(tǒng)執(zhí)行分布式搜索,并將合并后的查詢結(jié)果返回給用戶。

  該種方法的典型代表是Old Dominion大學(xué)在InterOp項(xiàng)目中提出的LFDL(Lightweight Federated Digital Libraries)結(jié)構(gòu)。該結(jié)構(gòu)中,統(tǒng)一的搜索界面被定義成基本的交互中間層,要求使用數(shù)字圖書館描述語言,以描述各個(gè)資源的特征、能力、交互信息,并將這些信息登記到注冊(cè)服務(wù)器中。當(dāng)用戶通過聯(lián)邦數(shù)字圖書館查詢時(shí),聯(lián)邦圖書館根據(jù)注冊(cè)服務(wù)器中保存的信息,選擇出最適合的成員圖書館執(zhí)行用戶的查詢,并收集這些成員圖書館返回的結(jié)果,合并整理后提供給用戶。

  基于數(shù)據(jù)驅(qū)動(dòng)方法是在傳統(tǒng)的搜索服務(wù)之上提供一個(gè)抽象層,使其利用收集方法建立聯(lián)邦數(shù)字圖書館,對(duì)成員沒有任何要求,可操作性強(qiáng)。但正是由于其簡便的特點(diǎn),使得其互操作性的精密度較差,難以滿足需要密切合作成員的要求。

責(zé)任編輯:admin