位置 : 首頁 > 文章

百度學術:大資料時代的圖書館變革

發佈時間:2015/6/14 14:23:10

  多個檢索詞,請用空格間隔。
《四庫全書·史部》在線閱讀及全文檢索

        來源:http://mp.weixin.qq.com/s?__biz=MzA4MzQxMTAwNA==&mid=206438725&idx=6&sn=2b31db296b92d80df8c12ec6e2940558&scene=1#rd

        知識因發現而更加美麗,圖書館因發現系統而更加絢麗
        自20世紀90年代中期美國開始實施資訊公路計畫以來,數字圖書館就已經成為席捲全球的圖書館發展大勢。中國數位圖書館建設與發展的里程碑與劃時代標誌是1998年國家正式批准實施的中國高等教育文獻保障系統(China Academic Library & Information System,簡稱CALIS)。1999年CALIS專案開始全面啟動,迄今已是16年。在這短暫的16年中,引領中國圖書館發展方向的高校圖書館已經實現了華麗轉身,完成了質的飛躍。
        圖書館不再是紙本的世界,目前,“985”高校圖書館擁有的外文數位資源更是已經可以與國際一流大學圖書館的數位資源媲美,各高校圖書館的中文數字資源數量早已遠遠超越其紙質資源。
        隨著數字資源的迅速增長,面對紛繁複雜的海量資訊,科研使用者的需求已不僅僅是獲取大量間接資訊資源,更重要的是直接獲取能夠解決問題的精准知識。為了向高校師生、學科建設與發展提供一流的服務,作為各種資源和資訊彙集中心的高校數位圖書館,必須改變傳統只能提供文獻資源的資訊服務模式,轉入到能夠提供問題解決方案的知識服務模式。
        知識發現服務的理念在圖書館界的應用可謂是源遠流長。著名的圖書館學家阮岡納贊在對圖書館五定律的闡述中早已明確了圖書館資源發現服務的實質,是圖書館界最早、最真實的發現服務。如今,網路和現代技術多維度地深入到了圖書館的各項服務工作中,資訊、情報以及智慧轉換發現貫穿于現代圖書館服務的整個過程。資源發現、情報發現、用戶發現的壓力使圖書館發現服務被賦予更深更廣的內涵,知識發現服務越來越多地被圖書館高度重視。
        知識發現服務是數位圖書館資訊服務的高級階段,是資訊服務發展的必然趨勢。在面向高校學科用戶知識需求解決過程中,針對高校用戶在知識獲取、知識選擇、知識吸收、知識利用、知識創新過程中的需求實施深層次服務。對相關學科專業知識進行搜尋、組織、分析、重組,為學科用戶提供所需專業知識的服務。
        基於對知識發現服務的重視,高校圖書館通過建立期刊導航和資料庫導航、提供SFX連結服務、建設集成檢索系統、包括引入眾多國內外的知識發現系統。知識發現系統平臺的確很好的實現了知識發現的深層次服務,一定程度地提高圖書館數位資源的使用率。
        可以看到,近幾年,各高校圖書館紛紛引入Summon、Primo、Encore、超星等統一資源發現系統,為讀者使用者提供集成資源檢索與發現服務。主要解決圖書館只能對其本館資源揭示資料庫名稱或期刊刊名,但無法揭示更細細微性的論文。其原理是:系統提供商通過與出版社等內容提供者的合作,對海量的中繼資料進行預加工與存儲;另一方面,系統提供商獲取到高校圖書館所購買的資料庫資訊和自建資料庫的中繼資料。將兩者對接起來,實現高校圖書館購買資源或本地資源的統一檢索。
        所以,統一資源發現系統有以下幾個優勢:
        •統一的檢索入口,使用者不必在各個資料庫之間切換跳轉;
        •中繼資料集成存儲,檢索速度較快,並且檢索結果呈現相對規範;
        •針對各圖書館資源進行索引,原文連結與獲取的服務可以得到更好的保障;
        •各圖書館可以針對性地提出一些個性化功能和服務,以更好地滿足讀者需求。
        但在實踐中,同圖書館的各類軟體相比,使用者更加習慣使用百度學術、 穀歌學術等互聯網產品進行資料查詢,鎖定所需材料,進而再到圖書館獲得全文資源。更為甚者,很多學生都不知道他所獲得的全文服務是由圖書館提供的!這是什麼原因?
        目前的知識發現系統對資料資源的整合遠遠不夠,統一資源發現系統主要進行了中繼資料題錄層面的揭示,但沒有做引文層面的揭示,而用戶在檢索時往往會通過引文資訊來判斷文獻的品質。另外,檢索的召回準確效果一般。對於一個搜尋引擎來說,檢索相關性做到及格分很容易,但如果想做到優秀還是非常難的,想達到滿分那是幾乎不可能。平臺的回應速度和穩定性。相比使用者青睞的互聯網產品,統一資源發現系統回應仍舊過慢,而且服務不夠穩定。
        圖書館在被動提供知識的空間向主動推送精准服務轉型的過程中,需要充分利用先進的搜尋引擎技術才能在知識服務方面充分發揮知識服務優勢。
        去年,百度學術悄然上線,向各高校鋪開免費的統一資源發現服務,圖書館與互聯網的緊密結合,是不是能夠更好的連接與使用者的服務?這是值得嘗試和推敲的。
        在對海量資源的高度集成及深度加工、大資料計算能力、穩定的檢索服務及優質的檢索效果保障都是作為互聯網產品的佼佼者,是有較為明顯的優勢的。其成熟的統計平臺及用戶行為分析技術還能更好幫助圖書館分析用戶行為,優化用戶體驗。
        優勢一:對海量資源的高度集成及深度加工
        百度學術的中繼資料獲取方式主要有三種:
        ①與世界知名內容提供者進行一對一合作,授權獲取到最為全面、穩定、優質的題錄資料;
        ②對於部分開放資源,採用如OAI-PMH協議等的中繼資料收割技術進行資料收集;
        ③對於長尾網站,充分發揮搜尋引擎的技術優勢,利用爬蟲進行資料的收錄、解析、加工處理。基於以上方式構建出最為全面的中繼資料庫。
        優勢二:大資料計算能力
        百度學術充分發揮大資料計算優勢,對億級別的海量資源進行即時計算和更新,並深度加工形成高品質的學者庫、期刊庫、會議庫、機構庫等知識庫,以期為使用者提供更為優質的資訊揭示服務。
        優勢三:穩定的檢索服務及優質的檢索效果保障
        百度學術基於百度的檢索技術,可保證每天上億次檢索請求,並將回應時間控制在亞秒級別。此外,百度學術除了引入相關性計算外,還會綜合考慮文獻被他人引用情況、文獻的作者影響力、文獻的出版來源影響因數、時間等等因素綜合給出優質的排序效果。
        優勢四:成熟的統計平臺及用戶行為分析技術
        百度擁有較為成熟的統計平臺,可以對使用者使用行為日誌進行即時存儲、統計、視覺化。幫助站長分析用戶行為,優化用戶體驗;同時也可以説明站長更好地監控到系統問題,保障使用者的穩定使用。