數據挖掘在企業歷史數據中的應用

論文類別:經濟學論文 > 新經濟學論文
論文作者: 李小榮
上傳時間:2013/10/15 13:13:00

  [摘 要] 企業應用系統在長時間使用後,都會出現數據量增大和應用系統性能下降的現象。本文針對這一狀況,提出在清除歷史數據前或對歷史數據進行歸檔前,對其進行轉移和復制並在可能的情況下構建數據倉庫,對企業歷史數據進行挖掘的方法。詳細介紹了數據挖掘技術的概念、數據挖掘流程和常用的模型,以及數據挖掘在企業歷史數據中的主要應用。
  [關鍵詞] 數據挖掘; 模型; 算法
  
  1引言
  
  隨著企業信息化應用的不斷深入,各種大型應用系統紛紛上線,如ERP(Enterprise Resource Planning,企業資源計劃),CRM(Customer Relationship Management,客戶關系管理),SCM(Supply Chain Management,供應鏈管理)等,一些小型應用軟件及企業內部開發人員開發的應用軟件的相繼使用,也成為企業信息化的必要補充。這些應用系統規模大小不一,系統架構各異,所使用的數據庫也不盡相同,可以是ORACLE,SQL Server,DB2,MYSQL等主流數據庫,甚至也包含Dbase,Excel等數據源。另外,各種應用的功能模塊也不相同,有的多而全,有的小而單一,但主要包含財務管理、客戶管理、供應商管理、進銷存管理等模塊。隨著時間的推移,業務記錄越來越多,數據庫中的數據量也越來越大。對於小型的應用軟件,由於系統邏輯相對簡單,可以對數據庫中的歷史數據按照規定進行清除,然後將其快速部署在新的硬件環境上。但是大型應用軟件因為系統復雜,尤其是多組織的跨集團公司的應用系統,加上數據的多年積累,應用系統性能每況愈下,此時如果進行數據遷移和應用移植,一般由專業公司來做,而且費力費時,需要長時間的測試然後進行切換。通常的做法是,對歷史數據進行定期清除,然後通過添加新的存儲設備來改善系統性能。傳統應用系統的使用都局限在業務記錄層面,首先業務用戶錄入業務操作記錄,然後通過查詢或者調用報表來查看業務過程和結果。更深層的應用,是建立在分析的基礎上,則可以就某個獨立應用的數據庫進行數據挖掘,也可以通過數據倉庫將企業不同應用系統下異構數據庫中的歷史數據進行整合,然後進行數據挖掘,讓歷史數據進一步發揮“余熱”,從而為企業生產經營提供決策支持。數據倉庫雖然能整合異構數據源,並對數據進行預先清理,但由於其成本大,實施周期長,故較少采用。一般較經濟的做法是,把應用數據庫中的數據導入只讀的數據庫中,以此作為數據集市(Data Mart),進行數據挖掘。另一方面,隨著數據挖掘專用軟件技術的日臻成熟及計算機硬件性價比的大幅提高,使得數據挖掘的實施成為可能職稱論文。
  
  2數據挖掘技術
  
  數據挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。是以先進的工具軟件基於人工智能(AI)和數學統計分析技術對海量數據根據某種算法進行計算機輔助分析,提取隱含的定性關系的過程,是知識發現(knowledge discovery in database)的關鍵步驟。
  數據挖掘的流程包括:(1)定義問題,明確數據挖掘的目的。(2)數據準備,包括選擇數據——在大型數據庫和數據倉庫目標中提取數據挖掘的目標數據集;數據預處理——進行數據再加工,包括檢查數據的完整性及數據的一致性、去噪聲,填補丟失的域,刪除無效數據等。(3)數據挖掘,在凈化和轉換的數據集上根據選擇的算法進行數據挖掘。(4)結果分析,解釋和評價數據挖掘結果,並轉換為終端用戶能夠理解的知識。其常用算法包括:神經網絡方法、遺傳算法、決策樹方法、粗集方法、覆蓋正例排斥反例方法、統計分析方法和模糊集方法。數據挖掘模型按照功能分為預測模型和描述模型,描述性挖掘任務刻畫的數據一般特性;預測性數據挖掘任務在當前數據上進行判斷,以便預測。
  數據挖掘用來構建6種模型:分類模型(Classification Model)、衰退模型(Regression Model)、時間序列模型(Time Series Model)、聚類模型(Clustering Model)、聯合分析模型(Association Model)和順序發現模型(Sequence Model)。前兩者被用來作預測,而聯合分析模型和順序發現模型被用來描述行為,聚類模型則被用來描述或預測。分類模型用於提取能代表群體的特征屬性,一般用規則或決策樹模式表示。聚類模型則將一個群體分成多個類,使同類個體盡可能相似,而不同個體差異盡可能大,聚類分析可以建立宏觀的概念,發現數據的分布模式,以及可能的數據屬性之間的相互關系。聯合分析模型用於發現事物間的關聯規則和相關程度,關聯分為簡單關聯、時序關聯和因果關聯,關聯分析的目的是找出數據庫中隱藏的關聯網,一般用支持度和可信度兩個閾值來度量關聯規則的相關性,其挖掘算法主要有:Apriori,STEM,AIS等。衰退模型用屬性的歷史數據預測未來趨勢。時間序列模型是指通過時間序列搜索出的重復發生概率較高的模式,是用已知的數據來預測未來,其方法主要有加權移動平均法和最小二乘法。順序發現模型與聯合分析模型相似,不同的是順序發現的對象是在時域分布的,發現的規則與先後順序有關。
  
  3數據挖掘在企業歷史數據中的應用
  
  3.1數據挖掘在財務分析中的應用
  財務分析通過評價企業過去和現在的經營成果和財務狀況及其變動情況,來了解過去,評價現在,預測未來。財務分析中常用的方法有比較分析、結構分析、因素分析、比率分析等。
  3.1.1成本分析
  企業管理者堅信對成本的精確計算和對資源的充分利用可以有效地改善企業的運營狀況,但其復雜的操作使得很多人望而卻步。利用數據挖掘中的回歸分析、分類分析等方法能確定成本動因,更加準確計算成本。同時,也可以通過分析成本與價值之間的關系,確定采用其最佳策略的成本,持續改進和優化企業的價值鏈。
  3.1.2市場分析
  選擇適當的產品系列和組合以實現最大利益是企業追求的目標,這些利益可以是短期利潤,也可以是長期市場占有率,還可以是構建長期客戶群及其綜合體。為了達到這些目標,不僅僅需要價格和成本數據,有時還需要知道替代品的情況,以及在某一市場段位上它們與原產品競爭的狀況。另外,企業也需要了解某一個產品是如何刺激另外一些產品的銷量的,等等。例如,非盈利性產品本身是沒有利潤可言的,但如果它帶來了可觀的客戶流量,並刺激了高利潤產品的銷售,那麽這種產品就非常有利可圖,就應該包括在產品清單中。這些信息可通過關聯分析等技術來得到。

免費論文下載中心 http://www.hi138.com

  3.1.3投資決策分析
  投資決策分析本身就是一個非常復雜的過程,往往要借助一些工具和模型。數據挖掘技術提供了有效的工具,從公司的財務報告、宏觀經濟環境以及行業基本狀況等大量的數據資料中挖掘出與決策相關的實質性的信息,保證投資決策的正確性和有效性。
  3.1.4風險分析
  利用數據挖掘工具來評價企業的財務風險,建立企業財務危機預警模型,進行破產預測。破產預測或稱財務危機預警模型能夠幫助企業管理者及時了解企業的財務風險,提前采取風險防範措施,避免破產。另外,破產預測模型也能幫助分析破產的原因。
  3.2數據挖掘在客戶關系管理中的應用
  3.2.1新客戶的挖掘
  通過歷史數據,用數據挖掘技術建立“客戶行為反應”預測模型,對客戶的未來行為進行預測。客戶的反應分為3種:負反應、無反應、正反應。負反應表明客戶不感興趣;無反應說明需求可有可無;而正反應意味需要對此客戶進行挖掘並推銷產品。
  3.2.2老客戶的保持
  持續穩定的客戶群是企業發展的保障。通過數據挖掘能及時了解客戶對產品和服務的滿意程度及客戶波動原因,快速改進不足之處,牢牢抓住現有客戶並吸引潛在的客戶,為企業帶來更大收益。
  3.2.3客戶盈利能力分析
  通過客戶利潤回報預測模型,可以將客戶分為高價值客戶、低價值客戶、無價值客戶。高價值客戶是能帶來最多利潤的客戶,需要采取措施保持並提高客戶的忠誠度;低價值客戶和無價值客戶,可以通過適度關註及優惠政策,盡可能將其提升為高價值客戶或低價值客戶。通過預測模型還可以發現客戶回報大小的變化趨勢,根據趨勢方向可以及時采取措施進行幹預。
  3.2.4客戶細分
  客戶細分常用的模型有決策樹模型和聚類模型。按照不同的標準,比如客戶消費心理、購買習慣、對產品的特殊需求等來劃分不同的客戶群,開發個性化產品並提供針對性服務,提高用戶滿意度,最大程度挖掘客戶潛在的購買力。
  3.3數據挖掘在供應商管理中的應用
  3.3.1供應商動態分類
  以供應商行為屬性的數據分析為基礎,提出基於變量加權的k-均值子空間聚類算法(FW-Kmeans)建立供應商動態分類模型。該模型在保留k-均值算法處理大規模供應商行為數據能力的同時,克服了子空間聚類算法普遍存在的稀疏矩陣處理的缺陷。對比傳統的靜態分類,新方法通過對決策結果的對比和調整,能夠得到動態且合理的供應商分類結果。
  3.3.2供應商績效評價
  能夠適應電子供應鏈環境,采用平衡記分卡思想建立評價體系結構,以關鍵績效指標確定評價標準。同時根據粗糙集無需任何先驗知識,依據知識的粒度性處理不完備信息,能夠在保留關鍵信息的前提下得到知識的最小表達等優點,提出基於粗糙集的綜合評價方法,解決了評價體系中客觀約簡決策屬性並設置權重等關鍵問題。與傳統的運籌學方法相比,新評價體系的層次清晰,易於理解和操作,能夠對供應商績效進行系統、有效的評價。
  3.3.3供應商選擇模型
  該模型綜合了數據包絡分析(DEA)以相對效率的量化衡量為基礎,避免確定各指標在優先意義下的權數,對輸入輸出指標有較大的包容性等特點,以及遺傳算法所具有的學習性、進化性和多向性,全局搜索的特征,高效且客觀地解決多屬性輸入輸出,多目標規劃的供應商選擇問題。與傳統的多目標規劃方法相比,新模型提高了決策的可擴展性、適應性和效率。
  3.4數據挖掘在庫存管理中的應用
  根據庫存信息及銷售和生產計劃,利用神經網絡、回歸分析和決策樹等數據挖掘方法預測未來庫存,通過分析歷史銷售和生產數據,幫助庫房管理人員進行庫存的控制,從而為企業資源優化配置提供決策依據, 例如降低庫存、提高庫存周轉率、提高庫存資金使用率等。
  
  4總結
  
  數據挖掘作為一種先進的數據分析手段,在越來越多的企業得到應用,並在各行各業中得到深入發展。挖掘工具的功能愈加強大,匯合的算法也越來越多,新的算法不斷出現,並將實現算法的自動選擇和參數自動調優。加上計算機硬件技術和數據庫技術的快速發展,數據挖掘技術必將在企業中得到廣泛和深入的應用,為企業發展提供有力幫助。
  
  主要

參考文獻


  [1] 譚建豪. 數據挖掘技術[M].北京:中國水利水電出版社,2009.
  [2] 朱明.數據挖掘[M].北京:中國科學技術大學出版社,2002.
  [3] 紀希禹. 數據挖掘技術應用實例[M].北京:機械工業出版社,2009.

免費論文下載中心 http://www.hi138.com
下载论文

論文《數據挖掘在企業歷史數據中的應用》其它版本

新經濟學論文服務

網站聲明 | 聯系我們 | 網站地圖 | 論文下載地址 | 代寫論文 | 作者搜索 | 英文版 | 手機版 CopyRight@2008 - 2017 免費論文下載中心 京ICP备17062730号