基於SemRank的CWME專家權威度計算方法研討

論文類別:計算機論文 > 計算機理論論文
論文作者: 王艾 李耀東 李維傑
上傳時間:2013/2/1 8:24:00

  摘 要:針對綜合集成研討環境中的專家權威度評價問題,提出了一種基於SemRank的專家權威度計算方法。該方法既考慮專家之間的交互結構,又考慮專家發言內容之間的語義關聯。由於專家之間的交互具有動態復雜性,在計算語義關聯時,引入了時間衰減函數,反映時間這一要素的影響。實驗結果表明,提出的專家權威度計算方法合理有效;在綜合集成研討環境中,對促進專家良性互動和激發專家思維具有一定的作用。

  關鍵詞:基於cyberspace的綜合集成研討廳;群體交互;SemRank;開放的復雜巨系統

  Expert authority estimating method based on SemRank in CWME
  
  WANG Ai, LI Yao-dong, LI Wei-jie
  (Key Laboratory of Complex Systems & Intelligence Science, Institute of Automation, Chinese Academy of Sciences, Beijing100190, China)
  Abstract:To solve the problem of measuring experts’ authority in CWME,this paper proposed a method for estimating expert authority based on SemRank.This method not only considered the interactive structure between experts, but also took into account semantic relation between the experts’ speeches.As the interaction between experts possessed dynamic complexity,introduced the time decay function to estimating semantic relation. Experimental result shows that the proposed method is feasible and effective. It lays a good foundation for experts to interact and inspire in CWME.
  Key words:cyberspace for workshop of metasynthetic engineering(CWME); collective interaction; SemRank; open complex giant systems
  0 引言
  1990年錢學森等人[1]提出開放的復雜巨系統的概念,以及處理這類系統的方法論——從定性到定量的綜合集成方法。綜合集成法就其實質而言是將專家群體(各種有關的專家)、數據和各種信息與計算機技術有機地結合起來,把各種學科的科學理論和人的經驗知識結合起來,三者構成一個系統。這個方法的成功關鍵在於充分發揮了系統的整體優勢和綜合優勢。1992年3月,錢學森進一步提出了人機結合,從定性到定量的綜合集成研討廳(HWME)體系的思想[2]。這個研討廳的構思是把人集成於系統之中,采用人機結合、以人為主的技術路線,充分發揮人的作用,使研討的集體在討論問題時互相啟發,互相激活,使集體創見遠遠勝過個人的智慧[3]。
  隨著Internet和各種通信網絡的迅速普及,cyberspace(電子空間和數字空間)成為一個重要的概念,它使參與者跨越時間和地域的限制,隨時隨地就所關心的問題進行研究、交流和探討,並可隨時利用網絡上的大量資源。信息技術的這個發展,為綜合集成研討廳的實現提供了一種新的、可能的形式,即基於cyberspace的綜合集成研討廳(CWME)[4]。通過多年的探索與實踐,已經成功建立了幾個典型的CWME系統[5,6]。
  在CWME體系中,專家群體是最具有能動性的成員,各專家以研討的方式暢所欲言,充分表達自己的觀點,隨時進行質詢和辯論,以促進對復雜問題認識的提高。但是在研討過程中,每個專家對同一復雜問題的認識和判斷都不盡相同,且參與者個人的行為和判斷會不同程度地影響周圍每個人的思維判斷,使得專家群體中的交互關系存在著微妙的隨時間變化的動態復雜性。因此,在綜合集成研討廳體系中,如何衡量專家意見的合理性,計算在研討過程中湧現出來的專家權威度,刻畫專家群體之間的交互關系和結構,從而促進研討流暢、高效地進行,是研討廳體系實踐和應用過程中的一個重要問題。
  文獻[7]提出一種對發言觀點進行權威度計算的方法。該方法借鑒萬維網網頁的鏈接概念,根據發言之間的響應關系建立廣義專家群體的有向鏈接結構。該結構采用有向屬性圖表示,專家的每條發言作為一個節點,每個節點有兩個屬性,即見解質量屬性和見解評價屬性。專家發言之間的響應關系作為有向邊(鏈接)。根據發言響應和被響應的情況計算每條發言的權威度,發言被響應的次數越多,該條發言的權威度越高;權威度較高的發言所響應的發言,其權威度也較高,反之權威度越小。文獻[8]提出了基於即時發言評價的專家權威度計算方法。在研討過程中,各位專家在主持人的引導下按照一定的評價指標即時對發言進行評價,所采用的評價指標是相關度、可信度、合理度以及啟發度。在研討過程中,一個專家的權威度主要是由其發言效率和評價效率決定的。因此,基於即時發言評價的專家權威度計算方法的基本思想是通過計算專家的發言效率和評價效率,並對兩者進行適當加權,進而得出專家的總體權威度。
  上述方法盡管可以計算專家某條發言的權威度,但是並沒有從語義的角度考慮專家的發言內容之間的關系,同時也沒有考慮專家群體交互的動態復雜性。基於此,本文提出了基於Semantic-PageRank(SemRank)的專家權威度計算方法。該方法既考慮專家之間的交互結構,又考慮專家發言內容之間的語義關聯;在計算語義關聯時,該方法還引入了時間要素這一概念來體現專家交互的動態復雜性。實驗結果表明,本文提出的專家權威度計算方法合理、有效,可以為與會專家在綜合集成研討環境中進行良性互動提供一定的參考意義。
  1 PageRank算法
  本文提出的SemRank算法是在PageRank的基礎發展得到的,“PageRank”技術[9]最早由斯坦福大學的“Google”研究小組提出。可以用一種“隨機沖浪”模型作為“PageRank”的理論基礎,該模型描述網絡用戶對網頁的訪問行為。假設如下:
  a)用戶隨機地選擇一個網頁作為上網的起始網頁;
  b)看完這個網頁後,從該網頁所含的超鏈接中隨機地選擇一個頁面繼續進行瀏覽;
  c)沿著超鏈接前進了一定數目的網頁後,用戶對這個主題感到厭煩,重新隨機選擇一個網頁進行瀏覽,如此反復。
  根據上述的用戶行為模型,PageRank的基本思想就是引入一個網頁的權威值的概念,其網頁的權威值與網頁的內容無關,權威值計算是根據網絡的拓撲結構圖。網頁p的權威值取決於兩個要素:a)有多少網頁引用了它(網頁p);b)引用網頁p的這些網頁的權威值。因此這是一個循環叠代的過程[10]。計算公式如下:

  x?p=dN+(1-d)?q∈pa[p]x?qh?q(1)
  
  其中:d∈(0,1)是阻尼因子;h?q是節點q的出度,就是q有多少個超鏈接外鏈;pa[p]是指向p的網頁集合;N是指網絡拓撲結構中節點數,即網頁的數量。
  
  2 基於SemRank的專家權威度計算方法
  綜合集成研討廳體系的鏈接結構是通過專家群體的有效互動建立起來的。在互動過程中,專家對以前的發言進行評論,同時發表自己對問題的見解,通過這種響應建立起個體之間響應關系,進而可建立專家群體的有向鏈接結構。鏈接結構中,專家每次的發言為一個節點,專家發言的響應或者被響應關系為有向邊,從而使得這種鏈接結構可用有向屬性圖表示。這與PageRank中描述WWW的有向屬性有相似之處:WWW中的網頁對應一個節點,WWW中網頁的鏈接關系對應圖中的邊。文獻[7]采用的就是這個思路計算專家發言的權威度。
  在實踐過程中,運用上述方法卻經常遇到兩個問題:a)雖然某條發言A在長時間內得到較多的響應,但此時發言的主題已經發生了一定程度的改變,此時A的權威度理應下降,但是由於PageRank算法本身不考慮發言內容的語義相似度,導致計算出來的A的權威度偏高;b)越早的發言,權威度容易越高,這是因為較早的發言容易得到相對較多的響應,或者說最近的發言經常尚未得到充分的響應,此時按照PageRank計算的權威度會偏離真實的權威度情況。
  針對這兩個常見問題,在PageRank算法的基礎上,本文提出SemRank方法。該方法的優勢在於:a)引入發言內容的語義相似度計算方法,在衡量某條發言的權威度時,不僅考慮它得到了多少響應,同時考慮它與所響應的發言之間的語義聯系;b)引入時間衰減函數,對較近的響應賦予較大的權重,削弱某些早期發言過於長久的影響。
  SemRank算法同樣根據有向屬性圖來計算每條發言的權威度,然後對每個專家的所有發言的權威值求均值,獲得該專家的總體權威度。
  2.1 發言內容的動態相似度計算
  首先考慮專家發言之間的語義關聯,把研討中的每條發言表示成tf-idf向量形式,采用余弦相似度計算語義關聯程度,計算公式如下:
  
  sim(u,v)=?ω∈u,vtf?u(ω)tf?v(ω)idf(ω)?2
  
  ?ω∈u(tf?u(ω)idf(ω))?2
  ?ω∈v(tf?v(ω)idf(ω))?2
  (2)
  
  其中:tf?u(ω)和tf?v(ω)分別表示詞ω在發言u和v中的詞頻;idf(ω)表示逆文本頻率,計算公式為
  idf(ω)=log (N/n?ω)(3)
  
  其中:n?ω是表示有多少條發言包含詞ω,N為總的發言數。
  式(2)只考慮了專家發言之間的靜態關系。實際上這種關系應該是與時間相關的:兩條發言之間的時間間隔越長,語義之間的相似度就越低,反之則越高。因此本文考慮時間衰減要素,引入時間衰減函數(這裏考慮的時間信息是專家的每條發言在整個研討過程中的相對位置,而不是每條發言在研討過程中出現的絕對時間),得到如下的動態相似度計算公式:
  s?i(u,v,T)=sim(u,v)×f?i(u,v,T);i=1,2(4)
  其中:f?i(u,v,T)為發言u與v之間的時間衰減函數。這裏采用兩種形式:
  a)f?1(u,v,T)=1-|k-i-1|/N。其中:發言u為研討中第k個發言,發言v為研討中第i個發言。
  b)f?2(u,v,T)=1/|k-i|。其中:發言u為研討中第k個發言,發言v為研討中第i個發言。
  2.2 專家權威度計算
  基於SemRank的專家權威度計算的算法實現過程如下:
  初始值:向量P?0=(p?0(1),p?0(2),…,p?0(N)),其中p?0(u)=1/N(u=1,2,…,N)。?
  輸入:error ε。
  輸出: 向量P=(p(1),p(2),…,P(N))。
   t=0
   repeat
  t=t+1
  根據式(6)計算P?t(u)(u=1,2,…,N)
  δ=‖P?t-Pt-1‖
  until δ<ε
  returnP?t
  在考慮了發言內容之間的動態語義相似度以後,專家之間交互的有向屬性圖就成為了一個加權的有向屬性圖。從文獻[11]獲得啟發,在加權的有向屬性圖的基礎上計算專家發言的權威值。
  加權的有向屬性圖通過兩個矩陣的點乘形式表示:
  B?kN×N=AN×N?•×sim?kN×N;k=1,2(5)
  
  其中:B?kN×N(i, j)=AN×N(i, j)×sim?kN×N(i, j)(i, j=1,2,…,N;k=1,2);矩陣AN×N為鄰接矩陣,如果節點i到j之間有一條有向邊,則AN×N(i, j)為1,否則為0;矩陣sim?kN×N為動態相似度矩陣,式中sim?kN×N(i, j)=s?k(i,j,T)(k=1,2)。
  在此加權有向屬性圖矩陣B?kN×N的基礎上,專家發言的權威值計算如下:
  
  p?k(u)=dN+(1-d)?v∈adj[u]B?k(v,u)B?k(v,i)p?k(v) (6)
  其中:k=1或k=2,即計算矩陣B?kN×N時采用了哪個時間衰減函數;N是屬性圖的節點總數;d是阻尼因子,一般都在區間[0.1,0.2]選擇,一般選擇0.15;adj[u]是指向u的發言集合。
  最後將權威度向量進行歸一化,即
  P=(p(1)maxNi=1 p(i),
  p(2)maxNi=1 p(i),…,
  p(N)maxNi=1 p(i))(7)

免費論文下載中心 http://www.hi138.com   3 研討實例及其分析
  下面以一個初步形成的研討廳體系的專家研討過程為例(文獻[7]中的示例),來說明基於SemRank專家權威度計算方法。其中,發言專家是以一些博士研究生和碩士研究生進行的仿真,專家的發言是經濟專業人士幫助並提供的。其中,Zh代表主持人,T、C、G、L、M代表不同的專家,在主持人的主持下專家們進行研討的過程與結果如圖1所示。
  
  Zh:好,如果各位專家沒有意見,現在進入研討。首先請對今年的經濟形勢作一個基本判斷。
  T:在擴大內需政策影響下,經濟增長幅度止跌回升。今年仍有趨好潛力。首先,除了出口增幅趨緩外,投資、消費需求增速均有所提高;其二,結構矛盾繼續緩解,產銷銜接較好;其三 ,上半年工業企業經濟效益明顯好轉。
  
  C:(除了T提到的幾個因素外)另一個積極因素是工業經濟在結構調整中增長加快,上半年工業增長保持了10%以上,勢必對今年經濟起到積極作用。
 G:(除了C和T提到的因素外)另外啟動了一些供給政策,如對中小企業的支持、技改貼息提高裝備水平、國企改革等, 對改善宏觀經濟發展環境是十分必要的。
  L:(我不同意他們三人的分析)我擔心的是,世界經濟形勢會對我國經濟增長產生極其不利的影響。根據世界銀行估計,美國經濟今年預計增長0.7%(去年5%),世界經濟增長2.9%,全球貿易增長5.2%。
  T:(不同意 L的分析)我認為不必過分憂慮。實際上去年內需也起到重要作用。只要今年繼續堅持積極的財政政策,加上公務員增資、提高低收入者收入水平等政策到位,內需增長會彌補出口下滑對經濟增長的不利影響。
  
  M:L的意見確實值得註意。我國對美國的出口占全部出口的21%,如果美國經濟出現衰退,必將影響我國出口,還將對我國吸引外資、資本市場、投資信心等方面產生影響,因為……
  Zh :L,按你的判斷,今年經濟形勢走勢會如何?
  L:(響應 Zh)我不太樂觀,受世界經濟的影響,我國今年經濟增速會比上年下降,GDP增長 7%……
  M:我同意L的看法……
  T:(不同意 L)我認為,經濟增長幅度還會有所上升,到達 8.3%……
  C:( 對他們兩人L和T的意見都不太贊同)從總體上,我對今年經濟增長還是有信心的,GDP增長與上年持平,達到 8%。但以下問題值得註意:一是非國有經濟投資問題;二是消費增長具有一定的不確定性;三是農民收入連續多年沒有多大的改善,影響到總體的消費水平……
  G:(不太同意L、T、C的意見)考慮到出口會受到影響,GDP增長幅度將比去年略有下降,達到7.6%~7.8%……
  將2.2節中論述的基於SemRank的專家權威度計算方法應用於上述的研討過程,專家的每次發言為一個節點,用專家研討時的ID和發言時間或者次數標誌類節點,為清楚起見,用“專家ID+t+發言的次數”來標誌節點,獲得了以下的專家個體互動關系:
  Tt1;
  Ct1→Tt1; Gt1→Tt1,Ct1;
  Lt1→Tt1,Ct1,Gt1;Tt2→Lt1;Mt1→Lt1;
  Zht1→Lt1; Lt2→Zht1;Mt2→Lt2;
  Tt3→Lt2; Ct2→Lt2,Tt3;
  Gt2→Ct2,Lt2,Tt3;
  上述的研討數據需預處理,這裏采用中國科學院計算所ICTCLAS2008進行中文分詞,將專家的每條發言表示成tf-idf向量形式。根據2.2節中的算法計算專家發言的權威值,設置允許的輸出誤差error為0.000 1,式(6)中的阻尼因子為0.15,考慮前面提到的兩種時間衰減函數,共叠代了9次,獲得最終的結果如表1所示。作為對比,表1列出了采用基於HITS的鏈接結構分析算法[7]計算的專家發言權威值。由於HITS算法是不收斂的,采用的叠代次數為3。
  
  表1 專家發言權威值
  
  專家發言
  采用f?1(u,v,T)?時間衰減函數
  權威值排序
  
  采用f?2(u,v,T)?時間衰減函數
  權威值排序
  
  基於HITS的鏈接?結構分析算法
  權威值排序
  
  Tt11.00 11.00 10.173
  Ct10.71 30.74 30.134
  Gt10.31 60.41 60.076
  Lt10.86 20.87 20.067
  Tt20.14 90.14 90.008
  Mt10.14 90.14 90.008
  ZHt10.56 40.56 40.008
  Lt20.49 50.49 50.281
  Mt20.14 90.14 90.008
  Tt30.22 70.26 70.182
  Ct20.18 80.21 80.105
  Gt20.14 90.14 90.008
  
  根據上述專家每條發言的權威值,對每位專家所有的發言的權威值求和,再求平均,獲得專家的總體權威度如表2所示。分析表2可知,在采用2.1節中提出的兩種時間衰減函數時,專家的總體權威度排序比較一致。根據排序結果,本文主要重點關註專家L、T和C的發言(由於主持人主要是引導研討過程的,盡管排序是第2位,這裏不關註他的發言)。從這三位專家的發言可以歸納出今年的經濟形勢,有三種不同的意見:a)經濟增長幅度止跌回升,今年仍有趨好潛力;b)世界經濟形勢會對我國經濟增長產生極其不利的影響;c)工業經濟的結構調整,勢必對今年經濟起到積極作用。根據表1可知,采用基於HITS的鏈接結構分析算法計算專家發言權威值時,不可避免地出現了專家發言權威值為0的情況(如Tt2、Mt1),這是由於HITS算法本身的特性決定的,如果某條發言無人響應,該權威值就為0。采用SemRank方法時,專家發言的權威值不會出現為0的情況。由式(6)可知,每位專家的權威值都有非0的初始值d/N,這與現實情況是一致的,因為每位參與研討的專家都是領域和行業專家,其發言都具有一定的參考價值和權威度。
  
  表2 專家的總體權威度
  
  專家發言
  采用f?1(u,v,T)?時間衰減函數
  總體權威度排序
  
  采用f?2(u,v,T)?時間衰減函數
  總體權威度排序
  
  基於HITS的鏈接?結構分析算法
  總體權威度排序
  
  T0.453 30.467 40.1172
  C0.445 40.475 30.1153
  G0.225 50.275 50.0354
  L0.675 10.680 10.1701
  M0.140 60.140 60.0005
  Zh0.560 20.560 20.0005
  以專家G的第一條發言為例說明專家發言在研討中的權威值變化的情況。如圖2所示,采用SemRank方法時,在時刻2專家Gt1發言的權威值取得了最大值,這與實際情況是相符的。在發言Gt1提出來以後,其他專家會對這條發言評論,表達自己的意見。在某個時刻權威值會取得最大值,隨著研討的深入,大家討論的內容會發生改變(上述研討的示例,只是實驗所采用的研討腳本的一部分內容),討論的議題演變成如何幫助中小企業度過這次經濟危機,因此專家發言Gt1的權威值將會隨著時間變小,這也說明了SemRank方法利用語義以及時間因素來計算專家發言權威值是正確的,並與實際情況是相?符的。
  
  采用基於SemRank的專家權威度計算,可以衡量專家每條發言的權威值,評估每個專家的總體權威度。通過權威度計算以及排序,可知哪幾個專家發言是需要重點關註並引起最多爭議討論的,對形成最終的決策提供了有力的支持。

  4 結束語
  針對綜合集成研討環境中的專家權威度評價問題,本文提出基於SemRank的專家權威度計算方法。該方法既考慮了專家之間的交互結構,又考慮了專家發言內容之間的語義關聯,同時引入了時間衰減函數來反映交互的動態復雜性。實驗結果表明,本文提出的專家權威度計算方法合理、有效,可幫助專家快速了解當前的交互結構,避免思維的過分發散,加快專家群體的自組織過程,為深化認識、激發思維奠定了較好的基礎。
  本文所提的權威的計算方法盡管考慮到了發言之間的語義關聯關系以及時間衰減因素,但是由於這種關聯程度計算方法並不足以嚴格劃分發言的主題,在研討話題發生變化時,會在一定程度上導致權威度更新的滯後與混淆。在下一步的工作中,可以加入更多的語義理解及分析內容,采用分類和聚類方法,對專家發言進行動態主題建模,獲取專家主題的轉移趨勢,進而在此基礎上更加準確地計算專家在某一主題上的權威度,以及在所有主題上的綜合權威度。
  

參考文獻


  [1]錢學森,於景元,戴汝為.一個科學新領域——開放的復雜巨系統及其方法論[J].自然雜誌,1990,13(1):3-10.
  [2]王壽雲,於景元,戴汝為,等.開放的復雜巨系統[M].杭州:浙江科學技術出版社,1995.
  [3]戴汝為,李耀東.基於綜合集成的研討廳體系與系統復雜性[J] .復雜系統與復雜性科學,2004,1(4):1-24.
  [4]戴汝為.系統學與中醫藥創新發展[M].北京:科學出版社,2008.
  [5]李耀東,崔霞,戴汝為.綜合集成研討廳的理論框架、設計與實現[J].復雜系統與復雜性科學,2004,1(1):27-32.
  [6]趙明昌, 李耀東.一個新的綜合集成研討廳軟件框架[J].計算機工程與應用,2008, 44(11):1-4.
  [7]崔霞,戴汝為,李耀東.群體智慧在綜合集成研討廳體系中的湧現[J].系統仿真學報, 2003,15(1):146-153.
  [8]李敏花,戴汝為,李耀東.一種基於即時發言評價的專家權威度計算方法[J].模式識別與人工智能,2008,21(4):469-475.
  [9]李曉明,閆鴻飛,王繼民.搜索引擎——原理、技術與系統[M].北京:科學出版社,2005.
  
  [10]BIANCHINI M,GORI M,SCARSELLI F.Inside PageRank[J].ACM Trans on Internet Technology,2005,5(1):92-128.
  [11]HASSAN A,FADER A,CRESPIN M H,et al.Tracking the dynamic evolution of participant salience in a discussion[C]//Proc of the 22nd International Conference on Computational Linguistics.Morristown,NJ:Association for Computational Linguistics,2008:313-320.

免費論文下載中心 http://www.hi138.com
下载论文

論文《基於SemRank的CWME專家權威度計算方法研討》其它版本

計算機理論論文服務

網站聲明 | 聯系我們 | 網站地圖 | 論文下載地址 | 代寫論文 | 作者搜索 | 英文版 | 手機版 CopyRight@2008 - 2017 免費論文下載中心 京ICP备17062730号