淺析漢字識別技術在檔案管理工作中的應用

論文類別:公共管理論文 > 檔案管理論文
論文作者: 汀藍
上傳時間:2005/8/12

漢字識別技術(簡称OCR)可以理解为是讓計算機認字的技術。它通過光電信號轉換,即文本數據。

 一、漢字識別技術的應用價值 漢字識別技術的應用價值主要體現在兩个方面:

 一方面,把紙質檔案上的固定信息變成可以被檢索利用的活信息,為文本數據管理技術提供 豐富的數據源。

 首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的 重要歷史,對我國現代化事業的發展,對精神文明和物質文明的建設都有著非常重要的利用 價值。但這部分檔案的內容都沒有文本數據,或者說都只是固定在紙質载體上的死信息。既 使通過掃描以圖像方式存儲於計算机中,檢索利用也有不便之處,難於满足現代社會對檔案 信息的多種利用需求。其次,從办公自動化的發展情況來看,每年接收的檔案中仍然會有相 當數量的檔案沒有文本文件,或為外單位來文,或為丟失損壞等。漢字識別技術的應用價值 就是使這兩大部分紙质檔案上的固定信息变成可以被檢索利用的活信息,為全文檢索提供數 據,使深層次的开發利用成為可能,更好地為現代化建設事業服務。

 另一方面,提供了一種新的檔 案目錄數據的錄入方式。

 應用計算機以来,漢字錄入只有一種方式,即健盘錄入。雖然目前漢字鍵盤錄入的方法有許 多種,而且日趋簡便快捷,已是年輕人必備的職業技能,但是它毕竟屬於一種技能,不僅需 要反應靈敏,手指灵活,而且要熟記錄入的原則、方法和要領。这對於在檔案部門占有相當 比例的中老年同誌來說,掌握起來確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門 建立檔案目錄信息數據庫的因素之一。OCR軟件為我們提供了一條新的途徑。它通過“拖拉 ”的方式,將屏幕上文件的目錄項如標題、文號、責任者等直接移植到檔案目錄數据庫的相 應字段中去,簡單易學,一看就會。遺憾的是手工“拖拉”速度較慢,而且需要即時掃描或 調用圖像數據,所以單一利用這種方式录入檔案目錄,速度不及熟練錄入员的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數據庫提供了一條前所未有的途徑。而且 ,如果利用OCR軟件同時建立新型的綜合檔案信息數據庫,例如包括檔案的文件目錄、圖像 和文本等,效果就此较理想了。

 二、漢字識別後生成的文本數據的属性問題。

 原始性是檔案的基本屬性。漢字識别後生成的文本數據是根據檔案的本源信息,即固定在紙 質載體上的漢字信息進行加工處理:掃描、識別、校對、修改等工序後形成的復制加工品, 因此不具有檔案的原始性。

 知識性是檔案的又一個属性。漢字識別後生成的文本數據如果不計算人工校對後仍然可能存 在的微小誤差,应該說具有與檔案原件同等的內容,因此具有檔案的知識性。

 漢字識別後生成的文本數據是將檔案的內容以特殊的物理方式重新記錄在特殊的載體之上, 比以文字的方式記錄在紙質載體之上更具有便於傳遞、接收、存儲、利用以及不磨損、不丟 失等屬性。因此具有更強的信息性。

 漢字識別后生成的文本數據應該說,它是一種新型的檔案一次信息的復制品或編研開發成果 。但作為一種新型的復制品或編研開發成果,因其生成的目的不同,又具有兩種不同的属性 :当以提供利用為目的通過汉字識別建立文本數據庫時,其文本數據具有類似於匯編類檔案 編研成果的屬性;當以編輯出版紙質的檔案編研材料如大事記、組織機構沿革、文件匯編等 為目的進行漢字識別時,其文本數據不僅具有類似於档案編研成果的屬性,而且具有檔案原 始性的基本屬性,因為它們是印刷品或出版物的本源信息。

 由此可見,漢字識別後生成的文本數據是一种不同於傳統檔案屬性的新型檔案信息。

 三、漢字識別技術的應用方式

 漢字識別技術在檔案管理工作中的應用,根據其目前的技術水平主要適用於近幾十年來印刷 漢字檔案內容的識別,圖像、文本數據的形成、存儲和目錄數據的錄入等項工作。主要的應 用方式有:

 (一)利用者閱讀紙質檔案的內容之后,對其所需要的內容進行掃描和漢字識別,或打印出統 一格式的利用摘錄,或直接提供文本拷貝。

這種利用方式的優點主要有:

1方便用戶,可減少信息利用過程中的重復勞動;

2不給檔 案人員增加建庫的工作負擔;

3節省建庫所需的經費開支。其缺點主要有:

1不能為全文 检索提供數據,實現深層次开發檔案信息資源的目的;

2存在對同一檔案內容重復進行掃 描和漢字識別的可能性。

 (二)輸入檔案目录。這是加快檔案目錄信息數據庫建設的一條新路,能夠使更多的人員從事輸入工作,但输入速度不甚理想,而且成本费用相對較高。

 (三)掃描、保存圖像並提供利用,只針對利用者需要的圖像內容進行漢字識别等利用服務。

 這種方式必須在已有文件目錄的前提下使用。其優點主要有:1具有提供原件和提高信息 利用效率的雙重優勢;2檔案人員不承擔漢字識別后生成的文本數據的維護工作。其缺點 主要有:1同第一种利用方式的缺點。2汉字識別技術要求圖像的光學分辨率較高,一般為3000dpi,而一般圖像的分辨率僅為150dpi,因此所需的存儲空間較大,約是一般圖像的2 、3倍,那麽,所需的存儲成本也要高得多。這種高代價的圖像存儲僅用來满足用戶利用識 別的需要似乎有點得不償失。因此低分辨率的圖像也能進行漢字識別,只是識別率相對較低 而已。我們也曾做過对比實驗,同一頁印刷質量良好的B5紙型文件約500字,以300dpi進行掃描,識別率為100%;以150dpi進行扫描,識別率為99.4%(誤识3字)。這對於一般用戶而言無所謂的。

 (四)建立文本數據庫。這種方式也應在已有文件目錄的条件下使用。其優點主要有:

1節省存储空間和存儲成本。仍以一页B5型紙約500漢字的文件為例,以文本方式存儲約需1000字節;以圖像方式存儲約需25000字節。因此,同量漢字的文本方式存儲比圖像方式存儲成本低得多。

2為全文檢索提供數據,能夠實現深层次開發利用檔案信息资源的目的。

其缺點主要有:

1建立文本數據庫的工作量較大。

2不能滿足用戶阅讀檔案原件的需求。

3 由於沒有圖像隨時提供依據,不便於對文本數據的準確性進行核實。

 (五)輸入目錄並保存圖像。

 (六)輸入目錄、建立文本數據庫。

 (七)保存圖像、建立文本件數據。

 (八)輸入目錄、保存圖像並建立文本數據庫。

 這是充分发揮OCR軟件功能,深層次开發利用檔案信息資源的應用方式。但工程量較大,人力、資金需求較多,建庫周期較長。

 隨著漢字識別技術水平的提高和應用的普及,可能還會產生新的應

用方式,但無論使用哪一 種方式,都必須符合本單位檔案管理工作的實際,統筹考慮檔案狀況、人员配備、經費能力、办公自動化水平、檔案現代化建設发展規劃等方面的因素,以切實提高檔案信息資源開發利用能力为目的,這樣才能收到事半功倍的效果。

        
下载论文

論文《淺析漢字識別技術在檔案管理工作中的應用》其它版本

檔案管理論文服務

網站聲明 | 聯系我們 | 網站地圖 | 論文下載地址 | 代寫論文 | 作者搜索 | 英文版 | 手機版 CopyRight@2008 - 2017 免費論文下載中心 京ICP备17062730号