- 相關(guān)推薦
淺究基于數(shù)據(jù)挖掘技術(shù)的圖書館個性化信息服務(wù)
數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
摘要:文章從數(shù)據(jù)挖掘技術(shù)的相關(guān)原理出發(fā),構(gòu)建了圖書館個性化信息服務(wù)系統(tǒng),并對數(shù)據(jù)挖掘的實施過程進行了簡要論述,并從關(guān)聯(lián)規(guī)則的角度介紹了基于數(shù)據(jù)挖掘技術(shù)的圖書館個性化信息服務(wù)的實現(xiàn)途徑。
關(guān)鍵詞:圖書館;數(shù)據(jù)挖掘技術(shù);關(guān)聯(lián)規(guī)則;個性化信息服務(wù)
文獻信息的檢索與傳播是圖書館的基礎(chǔ)職能,隨著圖書館數(shù)字化、智能化、自動化程度的不斷提升,很多圖書館引入了中外文全文數(shù)據(jù)庫。一方面滿足了讀者多樣化的文獻信息需求,另一方面也增加了讀者在短時間內(nèi)獲取有效信息資源的難度[1]。個性化信息服務(wù)是圖書館“以人為本”價值理念的直接體現(xiàn),是一種最大限度滿足讀者需求的主動性或智能推送性的服務(wù)模式,即通過對用戶的借閱習(xí)慣和個性特點進行分析,進而主動地向用戶提供其可能感興趣的信息。這一服務(wù)模式涉及龐大的數(shù)據(jù)采集、處理、分析和歸類,需要強有力的數(shù)據(jù)集成分析工具來支撐。數(shù)據(jù)挖掘又稱知識發(fā)現(xiàn)過程,即利用關(guān)聯(lián)規(guī)則從大量的、模糊的、不完全的信息數(shù)據(jù)庫中提取潛在的、對讀者而言有價值的信息。數(shù)據(jù)挖掘技術(shù)最先應(yīng)用于商業(yè)領(lǐng)域,近幾年已經(jīng)開始引入圖書館管理與服務(wù)之中,其在圖書館個性化信息服務(wù)中的應(yīng)用仍有較大的開發(fā)空間。
一、基于數(shù)據(jù)挖掘的圖書館個性化信息服務(wù)系統(tǒng)設(shè)計
1.1整體結(jié)構(gòu)模型
圖書館個性化信息服務(wù)涵蓋了用戶從網(wǎng)站注冊到接受系統(tǒng)提供服務(wù)的全過程。這一系統(tǒng)首先對圖書館用戶信息進行收集,而后關(guān)聯(lián)技術(shù)對用戶需求行為進行模型構(gòu)建,繼而用已存在的圖書館資源知識庫與用戶模型進行對照,提取出用戶需求的具體信息服務(wù)(見圖1)。
圖書館個性化信息服務(wù)系統(tǒng)分為兩大基本模塊,即在線推薦模塊和離線挖掘模塊,圖中上半部分為在線推薦模塊,下半部分為離線挖掘模塊。知識資源庫又細分為信息采集層、信息存儲層、信息加工處理層、信息服務(wù)層等部分內(nèi)容。其中,信息采集層、存儲層和加工處理層滿足了圖書館個性化信息服務(wù)中的強大數(shù)據(jù)需求,是數(shù)據(jù)挖掘的必要條件。系統(tǒng)數(shù)據(jù)采集通過搜集讀者使用圖書館的信息而實現(xiàn),如讀者刷卡保留的借閱信息、個人身份信息等。待采集環(huán)節(jié)完成之后,由資源處理層對采集信息進行分類加工,更新知識數(shù)據(jù)庫信息,確保數(shù)據(jù)資源的即時性(見圖2)。
從圖2可以看出,資源采集層實現(xiàn)信息采集有兩種方式,即自動采集和人工采集。所謂自動采集指的是系統(tǒng)根據(jù)用戶在圖書館中借書、還書、業(yè)務(wù)辦理等刷卡記錄自動提取并存儲讀者信息。人工采集是一種必要的輔助采集手段,某些情形下,因為系統(tǒng)的原因?qū)е掠脩魝人信息無法收錄或收錄不完全,如系統(tǒng)因功能故障未記錄部分用戶的身份信息,此時就需要依靠管理人員根據(jù)系統(tǒng)提示對用戶信息進行完善補充。資源處理層除具備清理和分類信息功能之外,還具有把不規(guī)則數(shù)據(jù)轉(zhuǎn)換為可識別數(shù)字信息的作用,最后經(jīng)數(shù)據(jù)挖掘工具將其轉(zhuǎn)化為統(tǒng)一識別的知識規(guī)則集,以實現(xiàn)個性化信息資源推送服務(wù)。
1.2工作流程
系統(tǒng)總體工作流程從用戶和圖書館后臺數(shù)據(jù)兩方同時開展。首先,用戶在圖書館個性化界面中注冊信息并申請登錄賬號,實現(xiàn)與后臺數(shù)據(jù)系統(tǒng)的實時交互。其次,用戶通過登錄認證查閱各類文獻信息,同時點擊接受圖書館個性化信息服務(wù)操作指令。個性化信息系統(tǒng)后臺則根據(jù)已錄入的用戶信息,建立用戶使用模型。最后,信息系統(tǒng)后臺利用數(shù)據(jù)挖掘技術(shù)獲取圖書館資源庫中的關(guān)聯(lián)資源,并向用戶進行推薦(見圖3)。
在線推薦模塊為離線挖掘模塊運行提供了數(shù)據(jù)支撐,而離線挖掘模塊輔助在線推薦模塊實現(xiàn)信息推送服務(wù),兩者共同組成了個性化信息服務(wù)模塊,都不可缺少[2]。在線推薦模塊在完成用戶信息采集后,對信息進行整理歸類,而后與系統(tǒng)知識庫進行比對,最后根據(jù)關(guān)聯(lián)規(guī)則生成用戶所需要的信息。離線挖掘模塊通過對用戶進行的聚類細分找出相似用戶群體,繼而構(gòu)建用戶模型,完成個性化信息推送服務(wù)。
在線推薦模塊的原理主要是把生成的用戶模型與已有的資源知識庫相比對,最終把有用信息推薦給用戶。而采用離線挖掘,一方面要求在時間效度上具有科學(xué)性,另一方面要求在數(shù)據(jù)處理上具有即時性。圖書館個性化信息服務(wù)系統(tǒng)中存儲的用戶信息每時每刻都在更新,需耗費大量時間進行數(shù)據(jù)處理,考慮到在線處理會影響到用戶的使用,通常情形下系統(tǒng)工作采用離線處理模式。因為離線數(shù)據(jù)挖掘基于用戶使用信息生成關(guān)聯(lián)規(guī)則,而在短時間內(nèi)用戶信息基數(shù)變化不大,所以離線處理的結(jié)果不會對個性化信息服務(wù)運行造成影響(見圖4)。
圖4離線數(shù)據(jù)挖掘生成關(guān)聯(lián)規(guī)則流程圖
從圖4可以看出,這一關(guān)聯(lián)規(guī)則流程主要由三部分模塊組成:①數(shù)據(jù)處理模塊。其又稱數(shù)據(jù)存儲模塊,主要功能是依靠系統(tǒng)分析、處理和匯總圖書館資源數(shù)據(jù)庫中的用戶信息,而后將其存儲在數(shù)據(jù)挖掘資源庫之中。②挖掘模塊。其又稱數(shù)據(jù)挖掘引擎,主要功能是運用聚類算法對存儲信息進行挖掘,生成用戶行為規(guī)則。③規(guī)則導(dǎo)入模塊。其主要功能是把挖掘算法結(jié)果導(dǎo)入到系統(tǒng)知識庫之中,尋找與用戶行為規(guī)則相匹配的文獻資源。
二、圖書館個性化信息服務(wù)中的數(shù)據(jù)挖掘?qū)嵤┡c結(jié)果評價
在當(dāng)前信息資源泛化傳播的時代,圖書館用戶的信息需求不僅僅局限于以往的信息檢索、文獻書目查詢,而是希望獲得更有深度的文本信息或更具全面性的查詢問題解答。采用數(shù)據(jù)挖掘技術(shù)既有助于保持信息的完整性和功能性,又能深入剖析信息之間的關(guān)聯(lián),進而滿足用戶的深層次信息需求。普通數(shù)據(jù)挖掘的實施過程分成四個階段,即問題定義階段、數(shù)據(jù)挖掘和結(jié)果分析階段、數(shù)據(jù)評估階段。與普通數(shù)據(jù)挖掘所不同的是,圖書館個性化信息服務(wù)中的數(shù)據(jù)挖掘可以為信息服務(wù)提供多種可參照的方式[3],如按照某一主題,提供全面的方案知識,輔助圖書館完成個性化決策支持服務(wù);應(yīng)用戶要求,為其提供全本文獻資料或關(guān)聯(lián)資源庫鏈接,使文獻服務(wù)更具針對性(見圖5)。
圖5個性化信息服務(wù)系統(tǒng)中數(shù)據(jù)挖掘?qū)嵤┎襟E
2.1提出問題
圖書館用戶依據(jù)自身的借閱需求向圖書館個性化信息服務(wù)系統(tǒng)提出文獻查閱或借閱請求。系統(tǒng)自動記錄用戶請求,并根據(jù)請求的具體內(nèi)容縮小數(shù)據(jù)挖掘范圍,減少系統(tǒng)數(shù)據(jù)挖掘壓力。
2.2數(shù)據(jù)導(dǎo)入與整理
數(shù)據(jù)導(dǎo)入和整理是數(shù)據(jù)挖掘開始的前提,同時也是用戶獲得優(yōu)質(zhì)信息服務(wù)的必要條件。數(shù)據(jù)挖掘質(zhì)量與挖掘范圍、挖掘工作量成正比關(guān)系,為了向用戶提供全面而深入的文獻信息服務(wù),數(shù)據(jù)挖掘開始之前應(yīng)全面理解用戶設(shè)定的問題,盡可能擴大文獻數(shù)據(jù)的挖掘范圍與深度。在挖掘工作初步完成之后,應(yīng)根據(jù)用戶的需求和索引題目的要求對挖掘數(shù)據(jù)進行初步審核,并對挖掘出的數(shù)據(jù)進行分類。通過異常數(shù)據(jù)清除、重復(fù)數(shù)據(jù)刪除、文獻資源標準格式化、錯誤更正等操作,完成對數(shù)據(jù)的最終整理。
2.3模型構(gòu)建與調(diào)整
把已挖掘數(shù)據(jù)轉(zhuǎn)換成用戶信息模型,并最終與系統(tǒng)數(shù)據(jù)庫中的資源指標正確匹配,從而轉(zhuǎn)換成有用的關(guān)聯(lián)規(guī)則,這離不開模型構(gòu)建工具的科學(xué)性和挖掘人員豐富的操作經(jīng)驗。一般而言,一種數(shù)據(jù)挖掘算法對應(yīng)一種模型構(gòu)建方式,想要最大化地發(fā)揮數(shù)據(jù)挖掘功能,關(guān)鍵是要選擇一種適合分析模型的挖掘算法。用戶模型建立完成之后,可根據(jù)系統(tǒng)的需求對模型進行適當(dāng)調(diào)試,如:增加信息匹配因素,使之能夠挖掘出更多的或更深層次的關(guān)聯(lián)信息。
2.4結(jié)果評定與解釋
結(jié)果評定根據(jù)用戶的文獻信息需求狀況而設(shè)定,其目的在于分析和整理出有用的挖掘模式運行數(shù)據(jù),為后續(xù)完善系統(tǒng)服務(wù)做準備。數(shù)據(jù)挖掘之后,在資源數(shù)據(jù)庫中尋找出潛在的價值信息,但數(shù)據(jù)挖掘之后產(chǎn)生的關(guān)聯(lián)規(guī)則可能不止一種模式,也并非每種模式都會產(chǎn)生相同的挖掘效果[4]。通過對挖掘結(jié)果做出評價和解釋,選擇最優(yōu)化的挖掘模式,有助于滿足大多數(shù)用戶的信息需求。
2.5反饋與修訂
系統(tǒng)接收用戶的反饋信息,找出數(shù)據(jù)挖掘中的不足,與用戶溝通后制訂下一階段的詳細挖掘計劃。
三、基于數(shù)據(jù)挖掘的圖書館個性化信息服務(wù)實現(xiàn)
3.1分類號級層面關(guān)聯(lián)規(guī)則
分類號級層面的關(guān)聯(lián)規(guī)則通過分類號級對圖書館資源系統(tǒng)進行數(shù)據(jù)挖掘?qū)崿F(xiàn)。這一關(guān)聯(lián)規(guī)則既能呈現(xiàn)出學(xué)生的潛在閱讀行為,又能勾勒出學(xué)科之間的隱性關(guān)系。一些情況下,對于圖書館兩年內(nèi)的新購圖書,管理人員會把其集中在靠近走廊或閱覽室入口之處,以便借閱。此時,利用數(shù)據(jù)挖掘生成分類號級關(guān)聯(lián)規(guī)則,將符合規(guī)則的圖書集中有序擺放,也就實現(xiàn)了潛在的個性化信息服務(wù)。而購置時間在兩年以上的圖書,其擺放原則大多依據(jù)《中國圖書館圖書分類法》,很難依據(jù)關(guān)聯(lián)規(guī)則對其進行重新調(diào)整。由此可以看出,此種關(guān)聯(lián)規(guī)則下的個性化信息服務(wù)方式更加適合傳統(tǒng)模式下的圖書館。
3.2圖書館層面的關(guān)聯(lián)規(guī)則
圖書館層面的關(guān)聯(lián)規(guī)則通過索書號級對圖書館資源數(shù)據(jù)庫進行挖掘?qū)崿F(xiàn)。特定的索引書號對應(yīng)相應(yīng)的圖書標題,這一數(shù)據(jù)挖掘生成的關(guān)聯(lián)規(guī)則除了顯示用戶借閱了圖書甲的信息,還會顯示讀者可能借閱圖書乙的信息。這一關(guān)聯(lián)規(guī)則在數(shù)字化圖書館中有較大應(yīng)用空間,不受圖書館文獻資源購買時間長短的限制。其基本過程是通過關(guān)聯(lián)規(guī)則表查詢用戶最近的借閱行為,與資源數(shù)據(jù)庫進行匹配,如果有相關(guān)聯(lián)圖書,則從資源數(shù)據(jù)庫中把圖書信息調(diào)出,待用戶下次登錄圖書館個性化信息服務(wù)界面時,系統(tǒng)會在屏幕中主動顯示用戶可能感興趣的圖書列表。
四、結(jié)語
當(dāng)今社會中的圖書館服務(wù)不再局限于提供簡單的文獻查找與借閱,而是轉(zhuǎn)向了為用戶提供更為深層次和關(guān)聯(lián)性的信息源。本質(zhì)上來看,傳統(tǒng)圖書館的信息服務(wù)模式是一種“被動式服務(wù)”,難以向用戶提供完整的知識集合或信息集合。而數(shù)據(jù)挖掘技術(shù)的應(yīng)用,則有效解決了圖書館信息服務(wù)中供求不匹配的問題,使讀者享受到更具實效性、針對性和個性化的信息服務(wù)。但數(shù)據(jù)挖掘技術(shù)涉及諸多數(shù)據(jù)處理技巧且工作量復(fù)雜,因此在我國圖書館個性化信息服務(wù)系統(tǒng)構(gòu)建中普及率還很低,同時這也成為我國圖書館個性化信息服務(wù)建設(shè)中面臨的現(xiàn)實問題。
參考文獻:
[1] 劉瓊.大數(shù)據(jù)環(huán)境下圖書館面臨的影響與挑戰(zhàn)[J].理論觀察,2013(8):112-113.
[2] 查繼紅.高校圖書館個性化信息服務(wù)模式探析[J].圖書館學(xué)刊,2014(6):79-82.
[3] 吳淼.數(shù)據(jù)挖掘在圖書館個性化服務(wù)中的研究[J].出國與就業(yè),2011(12):42-44.
[4] 孫鴻燕.圖書館關(guān)聯(lián)數(shù)據(jù)的綜合管理及實現(xiàn)[J].圖書館學(xué)研究,2011(12):101-103.