-
- 素材大。
- 287 KB
- 素材授權(quán):
- 免費下載
- 素材格式:
- .ppt
- 素材上傳:
- lipeier
- 上傳時間:
- 2019-01-24
- 素材編號:
- 222655
- 素材類別:
- 課件PPT
-
素材預覽
這是南京大學論文ppt,包括了詞性標注概述,隱馬爾可夫模型概述,實驗介紹,實驗結(jié)果和分析,總結(jié),HMM的兩個假設(shè),總體來講,隱馬爾可夫模型詞性標注器可以達到較好的效果,但是對詞性標注任務來說,任何一點性能的提升都是對后續(xù)工作的大力支持等內(nèi)容,歡迎點擊下載。
南京大學論文ppt是由紅軟PPT免費下載網(wǎng)推薦的一款課件PPT類型的PowerPoint.
隱馬爾可夫模型(HMM)在中文詞性標注中的應用研究 答辯人: 指導老師: 提 綱 詞性標注概述 隱馬爾可夫模型概述 實驗介紹 實驗結(jié)果和分析 總結(jié) 詞性標注概述 詞性標注的目標和過程 目標:為句子中的每個詞都標上一個合適的詞性 過程: 原文: 這件事情在理論界、經(jīng)濟界引起了很大反響。 分詞后: 這 件 事情 在 理論界 、 經(jīng)濟界 引起 了 很 大 反響 。 詞性標注: 這/r 件/q 事情/n 在/p 理論界/n 、/w 經(jīng)濟界/n 引起/v 了/u 很/d 大/a 反響/n 。/w 詞性標注中的信息源 鄰接詞的詞性信息 詞本身提供的信息 詞性標注概述(cont.) 詞性標注的主要方法 基于規(guī)則的方法(Rule-based) 基于統(tǒng)計的方法(Statistics-based) 基于轉(zhuǎn)換的方法(Transformation-based) 詞性標注準確率 訓練數(shù)據(jù)量 標注集合 語料庫差別 未登錄詞 隱馬爾可夫模型(HMM)概述 HMM的兩個假設(shè): 有限視野假設(shè) P(Ot+1=Sk|O1,…Ot)=P(Ot+1=Sk| Ot) 時間不變性假設(shè) P(Ot+1=Sk|Ot) = P(O2=Sk|O1) 隱馬爾可夫模型概述(cont.) HMM模型: λ=(A,B,π) S是狀態(tài)集:S=(S1,S2,…SN) V是觀察集:V=(V1,V2,…VM) 狀態(tài)序列:Q = q1q2…qT (隱藏),觀察序列:O=o1o2…oT(可見) A是狀態(tài)轉(zhuǎn)移概率分布:A=[aij], aij=P(qt=sj|qt-1=si) (滿足假設(shè)1) B是觀察值生成概率分布:B=[bj(vk)], bj(vk)=P(ot=vk|qt=si) (滿足假設(shè)2) 初始觀察值概率分布:π= [πi], πi =P(q1=si) 隱馬爾可夫模型概述(cont..) 隱馬爾可夫模型的基本問題 給定一個模型λ=(A,B,π),怎樣有效的計算某個觀測序列發(fā)生的概率,即P(O|λ)。(模型擬合程度) 給定觀測序列O和模型λ,怎樣選擇一個狀態(tài)序列q1q2…qT,以便能夠最好的解釋觀測序列,這個過程通常也被稱為譯碼。(標注過程) 給定觀測序列O,以及通過改變模型λ=(A,B,π)的參數(shù)而得到的模型空間,怎樣才能找到一個最好的解釋這個觀測序列的模型。(模型訓練過程) 隱馬爾可夫模型概述(cont...) Viterbi算法: 實驗介紹 實驗語料庫簡介 人民日報標注語料庫 199801~199806 共含有標注42個,單詞130274個 實驗建模 S:預先定義的詞性標注集(42個標注) V:文本中的詞匯(130274個詞) A:詞性之間的轉(zhuǎn)移概率 B:某個詞性生成某個詞的概率 例,P(我|“代詞”) π :初始概率 實驗介紹(cont.) 模型訓練 最大似然估計法 實驗相關(guān)問題 數(shù)據(jù)稀疏問題 稀疏矩陣 未登錄詞和概率平滑 留出相應的概率空間 實驗結(jié)果和分析 整體實驗 用199801~199805作為訓練語料庫,標注199806的結(jié)果如下: 待標注總數(shù):1,244,415 正確標注數(shù):1,167,314 錯誤標注數(shù):77,101 標注正確率:0.938042 未登錄詞數(shù): 17,071 部分標注的結(jié)果: 標注 正確數(shù) 錯誤數(shù) 標注準確率 b 8568 675 0.92697 c 27530 1783 0.93917 d 51744 3048 0.94437 實驗結(jié)果和分析(cont.) Ag 246 158 0.60891 an 2222 1142 0.66052 Dg 50 52 0.49020 e 18 8 0.69231 結(jié)論:訓練庫中標注出現(xiàn)次數(shù)對結(jié)果有很大影響 小樣本實驗 然而/c ,/w 由于/c 歷史/n 的/u 原因/n ,/w 其/r 在/p 機制/n 方面/n 的/u 種種/q 弊端/n 日益/d 顯露/v ,/w 已/d 越來越/d 不/d 適應/v 社會主義/n 市場經(jīng)濟/n 的/u 要求/n 。/w 實驗結(jié)果和分析(cont..) 錯誤:“由于”的介詞詞性p錯誤標成了連詞詞性c。 分析:跟蹤發(fā)現(xiàn)“由于”的前一個詞“,”只能被標為w。根據(jù)Viterbi算法,下面將計算由w到下一詞性并發(fā)射單詞“由于”的概率。“由于”的可能詞性有三個,分別是p、c、d,相關(guān)概率的對數(shù)值如下: w:-11.3986 w->p:-2.5839 w->c:-2.8842 w->d:-2.6353 p->由于:-5.3571 c->由于:-4.6158 d->由于:-11.7821 p:-19.3397 c:-18.8987 d:-25.8160 結(jié)論:遇到概率差小于某個常數(shù)臨界值的時候,可以考慮用一些其它的方法(如簡單規(guī)則等)進行判定。 總 結(jié) 總體來講,隱馬爾可夫模型詞性標注器可以達到較好的效果,但是對詞性標注任務來說,任何一點性能的提升都是對后續(xù)工作的大力支持。 長距離依賴問題和偏置問題。 目前在研究中的最大熵隱馬模型(MEMMs),條件隨機場模型(CRFs)等模型都能在一定程度上解決詞性標注的問題,他們與隱馬爾可夫模型之間的聯(lián)系以及幾種模型的聯(lián)合也是本文后續(xù)研究學習的方向。 謝謝!
南京大學ppt紫色:這是南京大學ppt紫色,包括了南大簡介,南大校訓——誠樸雄偉,勵學敦行,特色專業(yè),理科近三年錄取分數(shù)線,文科近三年錄取分數(shù)線,寄語同學等內(nèi)容,歡迎點擊下載。
介紹南京大學的ppt:這是介紹南京大學的ppt,包括了學校簡介,學校風景,院系設(shè)置,截至2014年12月,南京大學有鼓樓、浦口、仙林三個校區(qū),28個直屬院系,各類學生總計31304人等內(nèi)容,歡迎點擊下載。
南京大學專業(yè)介紹ppt:這是南京大學專業(yè)介紹ppt,包括了南大簡介,歷史淵源,;掌,校訓篇,南大校歌,師資,所謂排名,學科建設(shè),特色 優(yōu)勢學科,杜廈圖書館,照片墻等內(nèi)容,歡迎點擊下載。