淺談基於數據挖掘的數字檔案信息管理分析

論文類別:公共管理論文 > 檔案管理論文
論文作者: 許惠瑋
上傳時間:2012/12/14 8:37:00

 論文關鍵詞:数字化 圖書管理 檔案化

  论文摘要:隨著社會主義現代化的發展,計算機技術的進步,信息技術在社會發展的各個領域都扮演著極其重要的角色。信息化建設更是被我國列為經濟社會發展的首要內容。網頁檔案化管理包括文檔、文字翻译轉換、圖片資料、聲像資料、多媒体遠程會議等。尤其是大學檔案館更侧重教學與科研,網頁档案化管理是必然的趨勢。

  在信息化发展的今天,圖書館,特別是大學圖書館不僅要對信息進行簡單的數字轉換和管理,更要對新興事物網絡進行檔案化管理和歸檔,包括文檔、文字翻譯轉換、圖片資料、聲像資料、多媒體遠程會議等。所以網絡檔案化管理,成為當今圖书管理的必然趨勢,這就必須對檔案化管理的技術和法律相關問題進行深入闡述和探討。
  所謂數據挖掘(Data Mining),就是從大量的、不完全的、有噪聲的、模糊的、隨機的数據中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程。這些數據可以是結构化的,如關系數據庫中的数據,也可以是半結構化的,如文本,圖形,圖像數據,甚至是分布在網絡上的異構型數據。發現知识的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現了的知識可以被用於信息管理、查詢優化、決策支持、過程控制等,還可以進行數據自身的維護。數據挖掘借助了多年來數理統計技術和人工智能以及知識工程等領域的研究成果構建自己的理論體系,是涉及數據庫、人工智能、數理統计、機械學、人工神經網絡、可視化、並行計算等的交叉學科,是目前國際上數據庫和決策支持領域的最前沿的研究方向之一。
  一、數據挖掘的功能
  數據挖掘通過预測未來趨勢及行為,做出預测性的、基於知識的決策。數據挖掘的目標是從數據庫中發現隱含的、有意義的知識,按其功能可分為以下幾類。
  1、關聯分析
  關聯分析能尋找到數據庫中大量數據的相關聯系,常用的一種技術為关聯規則和序列模式。關聯規则是發現一個事物與其他事物間的相互關聯性或相互依賴性。
  2、聚類
  輸入的數據並無任何類型標記,聚類就是按一定的規則將數據劃分为合理的集合,即將對象分組為多個類或簇,使得在同一個簇中的對象之間具有較高的相似度,而在不同簇中的對象差別很大。聚類增强了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳统的模式識別方法和數學分類學。
  3、自動預測趨势和行為
  數據挖掘自动在大型數據庫中進行分類和預測,尋找預測性信息,自動地提出描述重要數據類的模型或預測未來的數据趨勢,這樣以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。
  4、概念描述
  對於數據庫中龐雜的數据,人們期望以簡潔的描述形式来描述匯集的數據集。概念描述就是對某类對象的內涵進行描述並概括出這類對象的有關特征。概念描述分為特征性描述和區別性描述,前者描述某類對象的共同特征,後者描述不同類對象之間的區別。生成一個類的特征性只涉及該類對象中所有對象的共性。生成區別性描述的方法很多,如決策樹方法、遺傳算法等。
  5、偏差检測
  數據庫中的數据常有一些異常記錄,從數据庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分类中的反常實例、不滿足規则的特例、觀測結果與模型预測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是尋找观測結果與參照值之間有意義的差別。這常用於金融銀行業中檢測欺詐行為,或市場分析中分析特殊消費者的消費習慣。

免费論文下載中心 http://www.hi138.com   二、數據挖掘在建設现代化高校檔案館中的應用
  1、資源類數據包括館藏檔案经過數字化加工而產生的各類電子档案、電子文件中心中存储的各類電子檔案、檔案軟件收集的信息、檔案信息網建設和維护信息。我們從研究大學檔案用戶的信息需求出發,数據挖掘為大學檔案館全面掌握和准確理解檔案用戶的信息需求提供了方法。
  (1) 利用Web訪問信息挖掘技術發現其中的關聯模式、序列模式和Web訪問趨勢等,構建多維視圖的用戶興趣模型。從而可以確定檔案信息或服務受歡迎的程度,發现用戶訪問模式和用戶需求的趨勢,從不同側面來研究用戶的信息需求,为優化檔案館的檔案信息資源建設提供了科學依據。
  (2) 收集大學檔案網web服務器保留的用戶注冊信息、訪問記錄,以及有關用戶與系統交互的信息等原始數据,經過清洗、濃縮和轉換形成便於统計分析的用戶查閱數據庫、日誌数據庫、用戶定制信息庫、用户反饋信息等各種數據集合。

  2、從建設大學檔案館館藏信息資源出發,數據挖掘為大學檔案館提供了選擇一條科學發展道路的重要依據。
  (1) 利用檔案网和檔案管理軟件訪問信息的挖掘分析出檔案資源的利用率,將利用率高、需求量大的傳統載體檔案優先數字化。例如:通過對檔案信息的訪問记錄、檢索請求中用戶请求失敗的數據進行分析,按类統計檔案拒用集和頻繁利用集,結合聚集算法發現館藏資源的缺漏,有針對性地補充和豐富檔案信息資源。
  (2) 在大學檔案館藏管理過程中利用文本挖掘,運用關聯、分類、聚類等方法,從海量檔案信息中按照相關專題進行挖掘、分類、加工、整理和有序化重組,構建特色檔案信息庫及各類專題檔案信息庫等。
  3、從做好大學檔案館信息管理工作的角度出發,數據挖掘為優化館藏信息和對未來工作的預測發揮重要作用。
  (1) 在提供利用环節中,對用戶每次借閱的信息進行關聯分析,發现各類檔案信息之間的關聯規則或比例關系,這樣可以進一步優化館藏信息。
  (2) 開展大學檔案館馆藏信息文本特征的建立、特征提取、特征匹配、特征集縮減和模型評價工作,實現對大量文檔集合的內容進行總結、分類、聚類、關聯分析、分布分析,通過歸納與總結,发現的知識可以為未來檔案工作的趨勢進行預測。
  三、數據挖掘在管理類數據中的應用
  大學檔案館的管理類数據包括:智能監控系統、消防系統、溫濕度控制系統、智能密集架、數据管理系統、數據利用系統等在日常工作產生大量的管理類數據。我們得用數據挖掘工具在這類看似無用的數據中提取有價值的知識并運用到大學檔案館工作中,並在大學檔案館的現代化建設中發揮作用。

  大學檔案館檔案工作的重點是為師生服務,以服務為中心開展各項工作,如何使用先进的工具,提高服務的質量是一直困擾我們的難題。數據挖掘為大学檔案館檔案工作的智能化、個性化、精品化提供了行之有效的方法。在智能檢索系統可調用用戶興趣模型,自動修正检索策略並可依用戶興趣將檢索結果迅速聚類和分類,並條理化地排序出來;對於設計院、社科院等科研型檔案用戶,可借助數據挖掘開展針對性的檔案信息挖掘,並將研究成果以概述、成果報告等形式提供給用戶。這樣不光實現了大學檔案的二次開發,也會給用戶帶來意外的驚喜。
  網絡最初只是科學家與研究人员之間交換文件的軟件,把因特網用於教育和研究可以得到政府的補貼。在中國,大學有撥款,图書館有大學支持,数字圖書館的網絡檔案馆是不贏利的,產出是教學和科研的長期社會效益。今天,因特網已經越來越商業化了,網絡在数字經濟中已成為極具潛力的技术投資對象。大學數字圖書館也可以考慮建立以贏利為目的的網絡檔案库,采用網絡商務中的一些商務模式,例如網絡廣告、旗幟廣告、贊助廣告、訂阅、B2C等。收入可用於大學數字圖書館网絡檔案館建設的滾动發展。目前人們對這些處於萌芽中的經濟模式認識甚少。管理網絡的公共政策制定主體是政府部門,推行電子政务,開發網絡資源,促進從文字印刷向網絡出版的轉移是当前相關政府部門的重要任務。大學的政策、態度和措施對數字圖書館的發展至關重要。市場手段和政策平衡是網络檔案館建設,網絡檔案庫運行,網上內容傳遞和保存應该和必須考慮的。
  參考文獻:
  [1]Peer to peer Networking and Digital Right Management,by Michael A. Einhorn, Bill Rosenblatt, Policy Analysis No.534, CATO Institute. Fabruary 17,2005
  [2]What Every Citizen Should Know About DRM, aka Digital Right Management, by Mike Godwin Seuitoo Technology Counsel At Public Knowledge, 30 January, 2008, Ebook-Computer & Internet,
  [3]彼得·萊曼.把萬維網檔案化.信息化參考,2004(13)
  [4]周宏仁等.信息化助建和諧社会的14個著力點.中国信息界,2008(3)
  [5]ITU-T Technology Watch Reports. 2006-2008, Telecommunication Standardization Policy Division, ITU Telecommunication Standardization Sector

轉貼于 免費論文下載中心 http://www.hi138.com
下载论文

論文《淺談基於數據挖掘的數字檔案信息管理分析》其它版本

檔案管理論文服務

網站聲明 | 聯系我們 | 網站地圖 | 論文下載地址 | 代寫論文 | 作者搜索 | 英文版 | 手機版 CopyRight@2008 - 2017 免費論文下載中心 京ICP备17062730号