圖書館數字資源訪問統計研究

論文類別:理學論文 > 統計學論文
論文作者: 未知
上傳時間:2008/7/27 10:12:00

 1 圖書館數字資源訪問統計的現狀

  1.1 典型的研究計劃
  美國和歐盟針對圖書館數字資源的訪問统計已經展開了一些針對性的研究計劃,比如,由美国研究圖書館協會資助的E-Metric項目、美國多個機構(包括ARL、JISC、NISO等)資助的COUNIER項目、欧盟Telematics for Libraries Programme支持的EQUINOX項目等,這些項目多為研究制定描述電子信息服務和資源的統計指標和績效測度及其方法。
  1.2 相關標準
  在相關的標準方面,面對新的信息環境和圖書館形态,一些組織開始嘗試將新的電子資源績效評估標準融入原有相关標準/指南的框架。例如NISO在2004年批準了圖書馆和信息提供者信息服務和利用的測度和統計數據字典(NISO Z39.7-2004 Information Services and Use:Metrics & statistics for libraries and infomation providers--Data Dictionary),該標準在傳統圖書館工作的基礎上,還特別增加了網络服務、網絡資源、網絡運行的新的測度方法,這套數據字典將逐漸納入美國圖書館统計工作,成為美國圖書館統计工作的參考依據,
  ICOLC1998年制定的《網上索引、文摘和全文資源使用統计測度指南》(Guidelines for Statistical MeaSures of Usage of Web-Based Indexed,Abstracted and Full Text Resources)提供了一套網絡化信息資源使用的绩效測度指南。2001年的修訂版明確了網絡信息使用数據統計的最基本要求,并提供在隱私、保密、獲取、傳递和報告形式方面的指导。
  ISO ISO/CD 11620也在傳統服務統計指標的基礎上,結合ICOLC和COUNTER的研究,进行了圖書涫數字資源測度及其定義、方法的描述。
  1.3 國內圖書館數字資源訪問统計的研究和應用
  国內隨著公共圖書館、大學圖书館、科學圖書館系統圖書館評估工作的進行,圖書館界開始逐步重視对圖書館數字館藏、圖書馆數字化信息服務的評估。
  

參考文獻

2中提出了數字资源後評估的概念,但是對圖書館数字資源訪問統計等後評估的方法和指標體系尚未全面展開评論。一些圖書館自行開發了基于jsp或者asp的圖書館網站訪問統計軟件,一些數字圖書館系統,如清華同方的TPI、北京拓爾思的TRS、浙江天宇的CGRS等等也提供了相應的統计功能,但是尚沒有一款商業化的軟件針對圖書馆的各種類型的數字資源提供一攬子的訪問統計方案。

    2 圖書館數字資源訪問统計的方式

  2.1 WEB日誌方式
  web服务器在工作時,時刻將WWW訪問的結果記錄在一些log(日誌)文件中,通過對服務器日誌的分析可以得到以下信息
  (1)通過對訪問時間進行統計,可以得到服務器在某些時段的訪問情況;
  (2)對訪問者的IP進行統計,從中可以判斷主要是那些用戶在訪問Web服務器;
  (3)对訪問請求的錯誤進行統計和分析,可以找出有問題的頁面加以改正;
  (4)對訪問者清求的URL進行統計,就可以判斷出讀者對那些頁面的內容最感興趣,對哪些頁面的內容不感興趣。
  各種web服務器日志文件的格式和內容大致相同。根據W3C的际準[2],一般Web日志都包括諸如用戶的IP地址、請求時間、方法(GET/POST等)、被请求網頁或文件的URL、發送/接收字節數、協議版本等信息。表1列出了幾種不同類型的Web日誌。
  但這些日誌文件信息量很大,用戶難以直接從log文件獲得直觀的結果。對日誌文件的分析,可以借助一些商業性的或者源代碼開放的軟件完成。其中比較好的開放源代码的日誌分析軟件有:AWStats、webalizer等。
  從日誌文件提供的信息進行統計和分析,就可以對整個網站有一個數字化、精確的認識,從而對網站的設計和內容進行改善和調整,使圖書館網站更好地為讀者提供服務。
  2.2 資源提供商提供
  数據庫的使用情況屬於後評估指標,主要用於更新、續订數據庫時使用,一般在圖書館購買资源提供商的數字資源時,应該要求由出版商或數據庫商提供使用報告,再據此進行各類分析。
  目前出版商/數據庫商提供的統計報告常用的相關統計指標有:
  ①檢索次數(searfh/query):用戶在某一个數據庫中提出檢索式的次數。
  ②登錄次數(session/sign on):用户打開某個數據庫的次數。
  ③下載文摘/全文(abstract/fulltext page/image):用戶在某一個數據库中下載到本地客戶機中的文摘或全文篇數。
  2.3 通過網絡代理proxy
  代理服務器(Proxy Server)是一種服務器軟件,它的主要功能有:設置用戶驗证和記帳功能,可按用户進行記帳,沒有登記的用戶無權通過代理服務器訪问Internet網,可以對用户的訪問時間、訪問地點、信息流量進行統計。
  目前代理服務器軟件產品十分成熟,功能也很強大,可供選择的服務器軟件很多。主要的服務器軟件有WinGate公司的WinGate Pro、微軟公司的Microsoft Proxy、Netscape的Netscape Proxy、Sybergen Netwo rks公司的SyGate等,這些代理軟件不僅可以为局域網內的PC機提供代理服務,還可以為基於Novell網絡的用戶,甚至UNLX的用戶提供代理服務。目前绝大部分Intemet的应用都可以通過代理方式實現。大多數代理服務器軟件產品具有登記內部網用戶訪問外部網的日誌記錄,有些產品還可以直接將日誌記錄到數據庫中。根据日誌記錄文件或數據庫,可以統計内部網每個用戶的網絡流量以及上網時間,甚至可以按服務網絡類型(如:HTTP、SMTP、FTP等)分別進行統計。
2.4 利用腳本語言自行開發
  通過web服務器的日誌可以獲得用戶访問圖書館網站信息的情況,但是,這種方式需要對日志的格式進行了解,然後用相應的工具軟件或者進行一定的開發來完成。還有一種獲取網站访問情況的方法是利用asp或者isp等網絡腳本語言,利用它們內置的server、session、request對象等獲取相關的信息,獲取數據進行统計。比如:利用Jsp我們可以用Jsp的內置request對象的獲取參數方法request.get Parameter("userid"),獲取用戶名;用(request.get Remote Addr)獲取訪問者的IP地址;通過request.get Header("User-Agent")獲取包含瀏覽器和操作系統的信息,然後用字符串分割substring()方法來分別得到瀏覽器和操作系統;通過Jsp的內置對象session的方法session,get Creation-Time()返回Session被创建的時間,而session.get Last Accessed Time()则返回當前Session對象最後被客戶發送的時間,兩者之差為停留時間。
  主要分以下幾個開發步驟:
  (1)確定將要統計的信息;
  (2)建立數據庫;
  (3)實時的訪問信息紀录,記錄每次點擊的信息,包括頁面信息、用戶信息、访問IP、訪問時間;
  (4)實時信息的分類存儲;
  (5)顯示方式的選擇。可以用Windows的表格系統,也可以自行編制表格顯示。
  利用這種方法相對比較簡單,但是可獲得的統計指標也有限。
  除了上述幾種統計方式外,還有基於路由器的流量統計、基於防火墻的流量統計、基於以太網廣播特性的流量統計。但是這些方法所提供的簡單流量的統計功能,不能完全滿足圖書館數字資源訪问統計的目標。

免費論文下载中心 http://www.hi138.com   3 圖書館數字资源訪問統計的指標

  3.1 國際圖書馆聯盟的統計指標指南
  國際圖書館聯盟認為,信息資源提供商對他們提供的特定的電子信息資源所提供的統計數據應該滿足以下的最低需求。
  必須提供的數據元素是:
  a)會話(session)數量(或者登陸數量)number of sessions。為了滿足政府機構和專業組織的报告的需要,應該提供會話數量或者登陸數量。在沒有國界的網络環境中,會話數量的統計是一個粗糙的指標。
  b)提問數(number of queries),即經过分類的提問數量。一次檢索是一次独立的知識查詢。典型地,一次檢索被記錄為向服務器提交的一個檢索表單,之后的瀏覽行為或者選定一个單獨條目的行為沒有表現为額外的檢索,除非通過提交二次檢索。立即進行重復的檢索、雙擊或者其他用戶的無意識行為都不應計入其內。
  c)菜單的選擇數(number of menu selections),如果數據的顯示需要通過使用菜單來進行瀏览,則應該提供這個指標(如一个電子期刊網站提供的基於音序和主體的菜單选擇)。
  d)全文的數量(打開的、下載的或者提供給用戶的全文,這些全文都是由服務器控制的而不是由瀏览器控制的):
  期刊文章-按照期刊名稱列出刊名和issn;
  電子書——按照书名列出書名和isbn;
  參考資料——按照改資源的內容單元(如字典的定義、百科全書的文章、傳記等);
  非文本型資源——按照自願的文獻類型(如圖像、音頻、視頻等)。
  上述的每個數據元素應該按照每個特定的數據庫提供商、按照每一組機構的IP地址或其他特別的元素(如账號),以及機構名称、協會名稱和時間跨度(每月或者每年)分組描述,供應商還應該提供每天、每小時的統計數据,並且還應該可以動態地集成幾個月或者某一段時間的數據,而不用限制是当年數據還是由供應商限定的时間段。
  3.2 E-Metrics推薦的統計指標
  為了了解圖書館數字資源的使用情況,確定數字資源的花費是否合理,MRL的E-Metrics項目推荐的指標如下:
  (1)用戶可檢索的電子資源。包括:R1電子全文期刊種數、R2電子參考資源种數、R3電子書的種數。
  (2)對網絡資源和服務的使用情況。包括:U1電子參考事務的數量、U2登錄電子數據庫的数量(會話session數)、U3電子數據庫的提問和檢索数量、U4電子數據庫的請求條數、U5對圖書館網站和書目的遠程訪問次數。
  (3)網络資源和相關設備的花費。包括:C1全文電子期刊的成本、C2電子參考資源的成本、C3電子書的成本、C4圖書館對書目设備、網絡環境等相关設備的花費、C5對书目設備、網絡環境等相關設備的外部花費。
  (4)圖書館數字化活動。包括:D1數字館藏的大小、D2數字館藏的使用、D3數字館藏建设和管理的成本。
  E-Metrics的統計指標,既考虑了數字資源和數字化服務的訪問量,還考慮了數字資源及其支持成本,便於從成本/效益的角度進行分析。
  3.3 我國圖書馆常用的數字資源訪問統計指標
  對於圖書館數字資源訪問統計的指標,在我們常見的統计分忻工作中,統計指標圍繞什麽被使用?誰在使用?如何使用?什麽时候使用?為什麽使用?哪些資料經常被下載?哪些資料被檢索最頻繁?資料檢索來自哪些單位?哪個單位使用量最多等問題,通常采用數字資源提供商提供的访問統計數據與對圖書館網站及自建數字資源的訪問統計相结合的方式,除了資源提供商提供的數據外,往往采用網站訪問流量、訪問者的IP、網站點擊次數、數字資源的點擊次數、下載的篇數等指標。
與國外相比,我國圖書館的數字资源訪問統計指標設定相對比較粗略,沒有統一的、針對各種類型数字資源的一致的標准,而且統計指標往往仅僅反映了訪問情況,未能與數字資源的購買和管理成本掛鉤進行成本/效益分析。

    4 圖书館數字資源訪問統計存在的问題

  4.1 資料庫不在館內,正確及時的统計數據不易取得
  隨著各個图書館在數字資源建设方面的積累和發展,圖書館數字資源的來源多樣,既有通過远程鏡像或者資源提供商服務器訪問的數據,也有在本地鏡像的數據,還有圖書館自建的數字資源。尤其對於資料庫不在館内的情況,需要廠商配合协助,但是最大的問題在於沒有辦法從廠商那裏得到充分的數據,或是廠商提供的数據不標準,或是提供的资料不是圖書館想要的,而且由於統計數據是由資源提供商提供,其客观性和真實性的保障機制弱。這樣,正確及時的統計數據不易取得。
  4.2 缺乏標準的統計指標
  由於資源來源多樣,統計指標不規範,不同的系統提供的統計报告五花八門,沒有統一指標。統計指標定義混亂、不明確,例如“search”在大多數系統內被定義為用戶發送檢索式的次數,但有些數據庫却用“query”來表示同樣含義的指標,而CSA數據庫則同时使用了“search”和“query”,二者的含義和區別并不明確。沒有一致、標準、科學的統計指標体系,對用戶訪問統計的分析及其對图書館決策的支持可信度就會降低。同時對於數字資源的訪问統計指標還應該結合每種数字資源的類型、考慮數字資源服务的研究人員規模等參数。
  4.3 圖書館數字資源的後評估,應該結合多種評估途徑展開
  圖書館數字資源的訪問统計,是圖書館數字資源後评估的方法之一,目前的圖書館數字資源的訪問统計存在統計指標不一致、不標準的問題,而且網站訪問統計不能確定是否與使用者的目的相符,無法完全反映使用者真正的使用狀況,因而,圖書館數字資源的後評估可以結合數字資源的訪問統計、用戶使用調查、用戶访談等方式完成。
  4.4 用戶隱私的問題
  圖书館數字資源訪問統计的數據主要來自web server的log files,目前法律上並無相關條文規定log file資料的處理,但由於其中包含使用者的IP地址,應該與圖書館的流通記錄一樣,加以保密。不論图書館決定如何分析log file的數據,對於收集何種數據、誰能判讀數據以及如何使用數据等,都應有詳細的規定和說明,以免一時大意觸犯子個人隐私權。未經個人用戶同意,不能收集用戶的個人信息,也不能將所收集的統計信息用於分析和識別用戶個人信息。如果為提供特定服務必須采集用戶的個人信息,必須向用戶告知他的權利、個人信息用途及其保護方式,只有在用戶知情同意的情況下才能基於該服務明確相關的个人信息。並且必須對合法采集的用户個人信息必須進行安全保管,未經用戶同意不得公开,不得將個人信息轉給第三方,而且服務中止後,必須立即刪除。

【參考文献】
  1 http://www.arl.org/stats/newmeas/emetrics/index.html
  2 http://www.projectcounter.org/index.html
  3 http://equinox.dcu.ie/
  4 http://www.niso.org/emetrics/index.cfm
  5,9 ICOLC.GUIDELINES FOR STATISTICAL MEASURES OF USAGE OF WEB-BASED INFORMATION RESOURCES <http://www.library.yale.edu/consortia/2001 webstats.htm
  6 http://www.libraryjoumal.com/article/CA411564?display=Features News & industry
  7 張川,肖金升,周振,胡運發.具有訪問時間完整性的web日誌方法.計算機應用與軟件.2004(2):105-107
  8 梁玉環,李村合,索紅光.基於JSP的網站訪問統計系統的设計與實現.計算機應用研究.2004(4):166-167
  10 詹丽萍.E-Metrics在數位图書館使用評估的應用.http://p105.lib.nctu.edu.tw/2001conference/pdf/1-1.pdf
  11 張曉林、宛玲、徐引篪、宋小冬、王欣.国家科學效字圖書館數字資源采購的技術要求.中國圖書馆學報.2004(7),14-19
  12 索傳軍.論述字館藏的质量評價.中國圖書馆學報,2004,30(152):43-46
  13 肖瓏、張宇红.電子資源評價指标體系的建立初探.大學圖書館學报,2002, (3):35-42

轉贴於 免費論文下載中心 http://www.hi138.com
下载论文

論文《圖書館數字資源訪問統計研究》其它版本

統計學論文服務

網站聲明 | 聯系我們 | 網站地圖 | 論文下載地址 | 代寫論文 | 作者搜索 | 英文版 | 手機版 CopyRight@2008 - 2017 免費論文下載中心 京ICP备17062730号