视频在线一区二区,欧美久久久久久,欧洲精品在线观看

分詞方法

目前的分詞方法歸納起來有3 類:

　　第一類是基于語法和規(guī)則的分詞法。其基本思想就是在分詞的同時進行句法、語義分析, 利用句法信息和語義信息來進行詞性標注, 以解決分詞歧義現(xiàn)象。因為現(xiàn)有的語法知識、句法規(guī)則十分籠統(tǒng)、復(fù)雜, 基于語法和規(guī)則的分詞法所能達到的精確度遠遠還不能令人滿意, 目前這種分詞系統(tǒng)還處在試驗階段。

　　第二類是機械式分詞法（即基于詞典）。機械分詞的原理是將文檔中的字符串與詞典中的詞條進行逐一匹配, 如果詞典中找到某個字符串, 則匹配成功, 可以切分, 否則不予切分。基于詞典的機械分詞法, 實現(xiàn)簡單, 實用性強, 但機械分詞法的最大的缺點就是詞典的完備性不能得到保證。據(jù)統(tǒng)計, 用一個含有70 000 個詞的詞典去切分含有15 000 個詞的語料庫, 仍然有30% 以上的詞條沒有被分出來, 也就是說有4500 個詞沒有在詞典中登錄。

　　第三類是基于統(tǒng)計的方法。基于統(tǒng)計的分詞法的基本原理是根據(jù)字符串在語料庫中出現(xiàn)的統(tǒng)計頻率來決定其是否構(gòu)成詞。詞是字的組合, 相鄰的字同時出現(xiàn)的次數(shù)越多, 就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映它們成為詞的可信度。

基于統(tǒng)計分詞

1．什么是基于統(tǒng)計的分詞模型
　　令C=C1C2...Cm．C 是待切分的漢字串，W=W1W2...Wn．W 是切分的結(jié)果。
　　設(shè)P(WlC)是漢字串C切分為W的某種估計概率。
　　Wa，Wb，?．Wk是C的所有可能的切分方案。那么，基于統(tǒng)計的切分模型就是這樣的一種分詞模型，它能夠找到目的詞串W ，使得W 滿足：
　　P(W|C)=MAX(P(Wa|C),P(Wb|C)...P(Wk|C))，
　　即估計概率為最大之詞串。我們稱函數(shù)P(W|C)為評價函數(shù)。一般的基于統(tǒng)計的分詞模型的評價函數(shù)，都是根據(jù)貝葉斯公式．同時結(jié)合系統(tǒng)本身的資源限制，經(jīng)過一定的簡化，近似得來的。

　　2．P(W|C)在不同資源需求下的近似方法

　　但是，由于當前的計算機技術(shù)和我們現(xiàn)有的語料資源所限，這種方法存在致命的缺陷：

　　①對于有6萬詞的詞典而言，僅詞和詞的bigram就可能需要60000 x 60000=3600M的統(tǒng)計空間，這是當前的計算機硬件水平所難以接受的，更不要說更大的n-gram 了。
　　②需要與上述空間相當?shù)氖煺Z料，否則就會產(chǎn)生訓(xùn)練語料不足所產(chǎn)生的數(shù)據(jù)稀疏問題。
　　③由于不同領(lǐng)域的語料庫的用詞有所差異，針對某一個領(lǐng)域的語料庫統(tǒng)計出來的n-gram，若用于其它領(lǐng)域，其效果難以預(yù)料，而目前通過語料庫搭配來克服領(lǐng)域差民間的方法尚未成熟。

　　因此，利用詞的n-gram 直接估計P(W)的方法，在目前是不可行的。基于上述的原因，大多數(shù)基于統(tǒng)計的分詞模型都沒有直接采用上述公式，而是采用各種各樣的估計方法，從不同的角度，實現(xiàn)對P(W)的近似。

　　3.馬爾可夫假設(shè)

　　馬爾可夫假設(shè)任意一個詞Wi出現(xiàn)的概率只同它前面的詞Wi-1有關(guān)，于是把上面的公式簡化成：

P(W)=P(W1) P(W2lW1) P(W3|W2)?P(Wk|Wk-1)

　　這里對應(yīng)的統(tǒng)計語言模型是二元模型。也可以假設(shè)一個詞由前面n-1個詞決定，對應(yīng)的模型稱為n元模型。

　　接著估算條件概率：

　　P(Wi|Wi-1)=P(Wi-1,Wi)/P(Wi-1)

　　而計算聯(lián)合概率P(Wi-1,Wi)和邊緣概率P(Wi-1),只要通過語料庫數(shù)一數(shù)Wi-1,Wi這對詞在統(tǒng)計的文本中前后相鄰出現(xiàn)了多少次#(Wi-1,Wi)，以及Wi-1本身在同樣的文本中出現(xiàn)了多少次#(Wi-1),然后用兩個數(shù)分別除以語料庫的大小#，即可得到這些詞或二元組的相對頻度，再根據(jù)大數(shù)定理，只要統(tǒng)計量足夠，相對頻度就等于概率：

　　P(Wi-1,Wi)~f(Wi-1,Wi)=#(Wi-1,Wi)/#? ;? p(Wi-1)~f(Wi-1)=#(Wi-1)/#

　　所以最后：

P(Wi|Wi-1)=#(Wi-1,Wi)/#(Wi-1)

　　參考文獻：

　　<基于統(tǒng)計的漢語分詞模型及實現(xiàn)方法>

　　<基于統(tǒng)計的無詞典分詞方法>

　　<數(shù)學(xué)之美>

基于統(tǒng)計的中文分詞

更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯(lián)系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點擊下面給點支持吧，站長非常感激您！手機微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義