主成分淺析法結合馬氏距離判別法在類風濕性關節炎中醫證候診斷中的應用

論文類別:醫藥學論文 > 醫學論文
論文標簽:中醫學論文
上傳時間:2012-10-17 10:19:00

           作者:李建婷, 鄧兆智, 郭新峰, 余煜棉

【摘要】 【目的】應用主成分分析法(PCA)結合馬氏距離判別法對類風濕性關節炎(RA)患者的癥狀、體征進行分析,最終建立辨證分型“量化指標”的計算機軟件,使中醫證候具體化、數据化。【方法】從對RA的中醫診斷證候的分類中选取廣州地區常見的中醫證候類型,對入選病例的癥狀、舌象、脈象及局部關節體征的出現頻數、持續時間、性質、程度等項目進行積分法的量化記录。用計算機模式識別法中主成分分析法結合馬氏距離判別法處理上述各種臨床數據,對其證候進行分類判別。【結果】訓練樣本200例,判別準確率96.53%;預報樣本42例,判別準確率92.50%,總242例,判別準確率95.87%。【結論】主成分分析法結合馬氏距離判別法對RA证候的判別分類所得出的結果和臨床醫生判斷的結果基本一致。說明本法能使中醫的辨證分型診斷在保持中醫特色的前提下實現標準化和規範化。
【關鍵詞】 關節炎,類風濕性/诊斷; 证候; 主成分分析法; 馬氏距離判別法

  計算机模式識別法是基於多元統計分析基礎上的一種方法,它是將難以判別的高維空間的几何特征從空間區域劃分和從其屬性出發,降維到人們可以識別的一、二維平面上進行識別比较的一種處理多元數據的非函數的图像識別方法[1-3]。其中主成分分析法(PCA)與馬氏距离判別法是模式識別技術中分类判別方法中的兩種。PCA研究如何將多個彼此相關、信息重疊的指標變量通過適当的線形組合成為彼此獨立而又提取了原指標變異信息並帶有特定專業含義的綜合成分,用以描述觀察單位的特征。馬氏距離判別法可通過對已知分類樣本數據的識別學习,建立相應的判別規則,進而對未知樣本進行分類判別。在中醫證候研究中,可通過運用PCA法將各種相關但又有可能重疊的癥狀、體征等變量提取出來並組成綜合成分,再結合馬氏距離判別法對其進行判別;應用計算機的統計、分析功能及計算機人工智能的理論和技術,結合醫學的理論和中醫專家的知識、經驗以達到應用計算機來實現辨證論治的目的。中醫的“證”是疾病發展过程中某一階段的本質屬性的高度概括,它是獨特癥状的集合群。用模糊數學語言来講,“證”可看作是一種由相應的“癥”所构成的模糊集合,癥的不同的模糊集合,構成了不同的證,通過對“癥”、“證”等模擬量化的方法,可建立起符合中醫診療思維規律的相應疾病的數學模型,從而進行辨證施治[3]。
  
  本研究通過对類風濕性關節炎(RA)患者的臨床癥狀、體征進行定性定量,由医生診斷其證候類型后,將原始數據輸入计算機,利用PCA法結合馬氏距離判別法對RA患者及其最常見的寒熱錯杂證、濕熱阻絡證、寒濕阻絡证、氣陰兩虛證、痰瘀阻絡证進行判別,對RA的癥狀指標由计算機進行篩選,從中選出多個因素作為特征參量,進行分類判別,以期建立RA辨證分型“量化指標”的计算機軟件,使中醫證候具體化、數據化。
  1 研究對象與方法
  1.1 診斷標準 西醫診斷標準按1987年美國風濕病學會制定的RA診断標準。RA中醫證候分類是在《中药新藥臨床研究指導原则》、《實用中醫風濕病學》[4]、《中醫證候診斷治療學》[5]的基礎上,結合廣東地區患者的常見癥狀,以關節局部疼痛、腫脹、畸形、攣縮、僵硬及关節被動運動等體征為主證,按癥狀和體征出現的頻數、持续時間、性質程度、与外界刺激的關系等歸納為54個指标,即關節紅、腫、触熱、酸痛、刺痛、冷痛、活動後痛、麻脹、拘急、 晨僵、強直變形、結節红斑、重著、怕冷、喜暖、自覺發热、屈伸不利、局部紫黯、功能、X線片、發热、惡風寒、口渴、煩熱、遇天冷濕發作、面色(白光)白、面色晦暗、眼瞼浮腫、五心煩熱、咽幹、失眠多夢、眩暈、盜汗、午後潮熱、倦怠、氣短乏力、易汗、眼幹、口幹不欲饮、手足不溫、胸脘满悶、納差、遺精、月經量少、肌膚無澤、形體消瘦、腰膝酸軟、耳鳴、尿黃、尿頻、夜尿、大便爛、大便溏、大便幹。按症狀、體征的有無與輕重程度,分別計為0~2分、2~4分、4~6分、6~8分。根據計分的多少,將RA患者分為寒熱錯雜組、濕熱阻絡組、痰瘀阻絡組、氣陰兩虛組、寒濕阻络組。
  1.2 研究對象 選擇1997~2000年廣州中醫藥大學第二附屬医院風濕病專科連續收治的300例RA患者。
  1.3 調查方法 采取住院醫師、主治醫師、主任醫師三級調查負責制,由住院醫師先進行望、聞、問、切四診,根據診斷標準判別證型,再由主治醫師、主任醫師分別進行,最後統一意見。
  1.4 統計學處理 首先根據指標的權重值大小並结合t檢驗從中選取最有效的特征參量,然後用BASIC語言編制PCA及馬氏距離判別法,對證候進行分類判別並與臨床判斷比較。運用PCA可對原始變量進行線性組合,建立m個新的变量,即主成分。這批新變量都是舊變量的線性組合,各新變量間是相互獨立的,與線性无關。同時在新變量中,方差最大的为第1主成分,方差次大的为第2主成分……方差最小的為第m個主成分,方差最小的貢獻最小;原始變量作线性變換、組合之後,構成新的主成分。將有用的信息盡可能集中到前面的若幹主成分,再用信息較集中的若干主成分建立數學模型或者作圖形輸出。馬氏距離判別法設有3个母體G1、G2和G3,均有m個特征值,分別有n1、n2、n3個樣本,對这些已知分類樣本數據进行識別學習,通過計算找出各類樣本在高維空間的重心,建立判別函數(或規則),然後計算待判未知類別的樣本點到各類“重心”的馬氏距离,將待判樣本判為距離短的那一類;或者將各已知分類的樣本点從高維空間降維到二維平面上形成各類樣本的二維區域,待判樣本為所落在區域的那一點。
  2 結果
  
  对300例RA樣本根據正态分布及癥狀典型情況進行篩选,以200例作為訓練樣本,42例作為預報樣本,采用馬氏距離判別法,對樣本進行分類。結果如下:寒熱錯雜證候訓練樣本45例,預報樣本12例;寒濕阻絡證候訓練樣本41例,預報樣本13例;氣阴兩虛證候訓練樣本39例,預報樣本8例;濕熱阻络證候訓練樣本39例,预報樣本5例;痰瘀阻絡證候訓練样本36例,預報樣本4例。
  2.1 RA的分類特征參量PCA法結果 見表1~3及圖1。
  
  根據RA的54個變量的权重值大小以及t檢驗結果,对變量進行篩選,經過反复試驗,結果表明以下17個變量判別準確率最高,達96.5%,將其篩选出作為RA的分類特征參量。這17個變量為關節腫(X1)、觸热(X2)、晨僵(X3)、強直变形(X4)、結節紅斑(X5)、怕冷(X6)、喜暖(X7)、自覺發熱(X8)、屈伸不利(X9)、局部紫黯(X10)、功能(X11)、X線片(X12)、口渴(X13)、遇天冷濕發作(X14)、倦怠(X15)、眼干(X16)、便溏(X17)。
  
  由表1結果可以看出关節腫(X1)、晨僵(X3)、屈伸不利(X9)、功能(X11)、X線片(X12)等幾項分值較高,說明在RA患者中這幾個變量起著重要作用。這與臨床以及RA西醫诊斷標準都是一致的。
  
  17個因素之間的相互關系:若兩因素之間的相关系數r為正數時為正相關,r為負數時為負相關,但只有r的絕對值大於r0.05=0.138時才具有統計學意義,可信度为95%。
  
  表2表明:(1)顯著相關的变量為:腫與觸熱、晨僵、強直變形、自覺熱、屈伸不利、功能、X線片、口渴;强直變形與腫、晨僵;結節紅斑与晨僵;喜暖與怕冷;自覺热與腫、觸熱;屈伸不利與腫、觸热、晨僵、強直變形;功能與腫、觸熱、晨僵、強直變形、自觉熱、屈伸不利;X線片與肿;觸熱、晨僵、強直變形、自觉熱、屈伸不利、功能;口渴與腫;遇天冷濕發作與怕冷;倦怠與觸熱、晨僵、怕冷、功能;眼幹與晨僵、結節紅斑、倦怠;便溏與眼幹。(2)負相關的变量為:眼幹與強直變形、怕冷;便溏與觸熱、遇天冷濕發作;自覺熱與怕冷;遇天冷濕發作與触熱、結節紅斑、自覺熱。
  
  表3為各主成分對應的信息量占总信息量的百分數。各個主成分并不代表某一證候(變量),在表3中主成分1、2所占信息量為26.7%和18.7%,其他各主成分均占百分之幾的信息,反映了在類風濕的證候分型中,原來的17个變量,沒有哪一個變量特別敏感,所以只能用多個變量提供的信息總和進行證候判別。 转貼於 免費論文下載中心 http://www.hi138.com   由圖1可見,5類樣本點大體上都聚集在各自不同的區域,其圖界基本上是清楚的,說明分類成功。如果增加或減少變量都可發現判別準確率降低,圖界不清晰;如果變量增減變動過大,则可使數據點集混合交錯,分類不清。
  圖中橫坐標為PCA1(主成分1),纵坐標為PCA2(主成分2);1.寒熱錯雜證;2.濕熱阻絡證;3.氣阴兩虛證;4.寒濕阻絡證;5.痰瘀阻絡證
  圖1 200個樣本17個变量的PCA法輸出圖(略)
  2.2 馬氏距離判別法結果
  
  從表4可知,寒熱錯雜证判別準確率為96.49%,濕熱阻絡證為96.30%,氣陰两虛證為89.36%,寒濕阻絡證為97.73%,痰瘀阻絡證為100%。總訓練樣本200例,判別準確率96.53%;預報樣本42例,判別準確率92.5%,總判別准確率95.87%。本研究证明,主成分分析法結合馬氏距離判別法對RA證候的判别分類所得出的結果和臨床医生判斷的結果基本一致。从而證實了中醫證候理論的客觀性和科學性,說明本法能使中醫的辨證分型診斷在保持中醫特色的前提下得以標準化和規范化,並在某種程度上減少了臨床醫生的主觀性,有利於中醫辨證分型診斷的标準化、規範化。
  表1 總樣本17个變量的平均值和標準差(略)
  表2 各因素的相關系数(17個變量)(略)
  表3 主成分1~17提取的特征根及所占信息比例(略)
  表4 17个變量的馬氏距離判別法結果(準確率)(略)
  3 討論
  
  計算機模式識別技術是國内外廣泛應用的建立在計算機技術和多元統計分析基礎上的一種非函數的方法。這種技術避免建立因素(變量)間的嚴格的數學關系,采用一定的數學統計手段去研究由數據組成的高维空間,尋找規律,進行聚類、判別、預報等研究。人類自身只能識別三维以下空間的樣本點的聚集状態,對於三維以上空間的識別要借助一定的統計手段——多元統計分析技術。計算機模式識别技術就是其中一種十分有效的研究高維空間的手段,它借助於計算機技術將高维空間的樣本點分布,利用一定的數學模型降維到人類能判别的一、二、三維空間上,讓人們對樣本點進行比較、判別及預報等研究,進而探討變量間的關系。
  
  本研究主要采用馬氏距離判別法和主成分分析法兩種方法進行判別分析。其優點在於因判別函數和判別規則並不牵涉到分布的類型,可以不要求母體為正態分布,具有廣泛的實际意義。本文主要利用PCA技術輸出降維圖形。為獲得更多信息量,我們一般選用主成分1、2進行圖形輸出。因为主成分提供的信息量最多,最能反映原始數據在高维空間的聚集態,能較有效地表現原始數據在空間上的分布情況。從主成分分析法中的相关系數矩陣可看出大部分結果與臨床相符,如遇天冷濕發作與怕冷,怕冷與喜暖顯著相關,遇天冷濕發作增加,怕冷亦會增加;怕冷增加,喜暖亦會增加,這與臨床上是一致的。自覺熱與喜暖、怕冷呈負相關,自覺熱增加,則喜暖、怕冷減少。證明計算機模式識別法的結果與临床常規診斷的一致性。
  
  計算機的判斷與臨床判斷也有不盡一致的地方,從圖1可看出不同類的樣本雖然基本上聚集在不同区域,但仍有一些樣本并非落在本區域內而是混雜在其他區域中,這一方面是由於我們只用了主成分1和2兩個主成分作圖,僅僅占全部的百分之四十多,即我們從17維空間中降維到二維平面上來判別,這二維只能反映信息量的45%左右,所以分類不可能100%清楚。另一方面亦可能與臨床癥狀不典型或臨床医師持不同觀點及臨床兼夾證候存在所致。在临床上可見到一些非典型患者,中醫辨證時常可因医師的不同而得到不同的辨證結果。由於中醫證型外延的模糊性,我们在圖上可發現有些患者的坐標位置處在幾個證候的交界區中,有時很難確定屬於哪個證候,但是圖形的空間位置正好客觀、精确地表達了該患者與周圍其他證候之間的關系。在疾病病情發展的不同阶段中,可以出現一個特征性明顯的證候,也可以同時出現具有幾個證候的特征或者說特征性並不明顯的情況,對於特征性不明顯的的證候,无論是臨床醫生還是計算機都較難识別。本研究只是對RA中醫證候診斷量化、標準化、科學化進行了初步探討,今後仍需要進一步深入研究。
【参考文獻】
  [1]鄧兆智,余煜棉.計算機模式識別法對類風湿性關節炎中醫證候判断與常規臨床判斷的比較[J] .中國中西醫結合杂誌,1996,16(12):727.

  [2]何國輝,甘俊英.PCA類內平均臉法在人臉識別中的應用研究[J] .计算機應用研究,2006,23(3):165.

  [3]鄧兆智,李增禧,余煜棉,等.計算機模式識別法在類風濕性关節炎中醫辨證微量元素譜上的应用[J].廣州中醫學院学報,1992,9(4):216.

  [4]路誌正,焦樹德.實用中醫風湿病學[M].北京:人民衛生出版社,1996.

  [5]程紹恩,夏洪生.中醫證候诊斷治療學[M]. 第3版.北京:北京科學技術出版社,1995.轉貼于 免費論文下載中心 http://www.hi138.com
下载论文

論文《主成分淺析法結合馬氏距離判別法在類風濕性關節炎中醫證候診斷中的應用》其它版本

醫學論文服務

網站聲明 | 聯系我們 | 網站地圖 | 論文下載地址 | 代寫論文 | 作者搜索 | 英文版 | 手機版 CopyRight@2008 - 2014 免費論文下載中心 沪ICP备14015432号-2