黄色网页视频 I 影音先锋日日狠狠久久 I 秋霞午夜毛片 I 秋霞一二三区 I 国产成人片无码视频 I 国产 精品 自在自线 I av免费观看网站 I 日本精品久久久久中文字幕5 I 91看视频 I 看全色黄大色黄女片18 I 精品不卡一区 I 亚洲最新精品 I 欧美 激情 在线 I 人妻少妇精品久久 I 国产99视频精品免费专区 I 欧美影院 I 欧美精品在欧美一区二区少妇 I av大片网站 I 国产精品黄色片 I 888久久 I 狠狠干最新 I 看看黄色一级片 I 黄色精品久久 I 三级av在线 I 69色综合 I 国产日韩欧美91 I 亚洲精品偷拍 I 激情小说亚洲图片 I 久久国产视频精品 I 国产综合精品一区二区三区 I 色婷婷国产 I 最新成人av在线 I 国产私拍精品 I 日韩成人影音 I 日日夜夜天天综合

收集一些中文分詞工具

系統(tǒng) 2132 0

這部分內(nèi)容并非個人收集整理,而是網(wǎng)友辛苦整理,在此表示感謝!

接下來,在此基礎(chǔ)上發(fā)現(xiàn)好的分詞工具再進行完善!

?

中文分詞工具:
1) MSRSeg from Microsoft Research
http://research.microsoft.com/~jfgao/
2) Hylanda
http://www.hylanda.com/cgi-bin/download/download.asp?id=8
3) HIT
http://ir.hit.edu.cn/phpwebsite/index.php?module=announce&ANN_user_op=view&ANN_id=106
4) NEUCSP from Northeast University, China
http://www.nlplab.com/download/CIP/neucsp.zip
5) ICTCLAS from Chinese Academy of Science, China
http://www.nlp.org.cn/project/project.php?proj_id=6
6)分詞工具鏈接
http://www.chinesecomputing.com/nlp/segment.html
中文信息處理基礎(chǔ)
http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/2002_2003_1.htm

?

-----------------不同來源分割--------------------

?

1)計算所漢語詞法分析系統(tǒng) ICTCLAS

中國科學(xué)院計算技術(shù)研究所在多年研究基礎(chǔ)上,耗時一年研制出了基于多層隱馬模型的漢

語詞法分析系統(tǒng) ICTCLAS (Institute of Computing Technology, Chinese Lexical

Analysis System),該系統(tǒng)的功能有:中文分詞;詞性標注;未登錄詞識別。分詞正確率

高達97.58%(最近的973專家組評測結(jié)果),基于角色標注的未登錄詞識別能取得高于90%

召回率,其中中國人名的識別召回率接近98%,分詞和詞性標注處理速度為31.5KB/s。

ICTCLAS 和計算所其他14項免費發(fā)布的成果被中外媒體廣泛地報道,國內(nèi)很多免費的中文

分詞模塊都或多或少的參考過ICTCLAS的代碼。

下載頁面: http://www.nlp.org.cn/project/project.php?proj_id=6

由于 ICTCLAS 是由 C 語言寫成的,現(xiàn)在主流的開發(fā)工具用起來不太方便,于是有一些熱

心的程序員把 ICTCLAS 改為 Java 和 C# 等其他語言。

fenci,Java 的 ICTCLAS,下載頁面:

http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502

不過傳說代碼還是很難讀懂的,一群high IQ的人寫出來的,所以除非專門做分詞的值得去

研究,如果分詞只是一個步驟的話還是不要碰,而且現(xiàn)在的3.0已經(jīng)變成商業(yè)的了,搞研究的

人可以試用一個月,商用的還是算了.Free的3.0beta和1.0幾乎沒區(qū)別,再者狂bug不止,遇

到有些網(wǎng)頁就分不過去,測試了幾個語料庫都是比較郁悶,速度在 30kb/s,還是比較慢的.

這個除非買商業(yè)版的,雖然做的很好,還是提醒以后不要在這個上面浪費時間了.

(2)海量智能分詞研究版

海量智能計算技術(shù)研究中心為了使中文信息處理領(lǐng)域的研究者們能夠共同分享海量智能中

心的研究成果,共同提高中文信息處理水平,特此發(fā)布《海量智能分詞研究版》,供專家、

學(xué)者和愛好者進行研究。

下載頁面: http://www.hylanda.com/cgi-bin/download/download.asp?id=8

海量的分詞做的不錯,不過研究版的速度也是不堪的,都可以理解.這個速度就更慢了,而且

只支持window開發(fā).

(3)CSW中文智能分詞組件

運行環(huán)境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微軟的開發(fā)語言中調(diào)用。

簡介: CSW中文智能分詞DLL組件,可將一段文本自動的按常規(guī)漢語詞組進行拆分,并以指

定方式進行分隔,且可對其拆分后的詞組進行語義、詞頻標注。其廣范應(yīng)用于各行各業(yè)的

信息資料檢索、分析。

下載頁面: http://www.vgoogle.net/

這個如何出現(xiàn)如下錯誤"您當(dāng)前使用的CSW中文分詞組件5.0(標準C++版)已超過有效期,請

訪問我們網(wǎng)站 www.vgoogle.net 獲取最新版本或取得使用許可授權(quán)!".把系統(tǒng)時間調(diào)一下,

調(diào)到2008年4月1號之前.效果還可以,java下的20kb/s.

(4) C# 寫的中文分詞組件--雨痕

據(jù)作者介紹,一個 DLL 文件,可以做中英文分詞組件。完全C#托管代碼編寫,獨立開發(fā)。

下載頁面: http://www.rainsts.net/article.asp?id=48

這個現(xiàn)在也已經(jīng)不再發(fā)行了,何況是windows下.net開發(fā)的.

(5)ktdictseg也是c#開發(fā)的

http://www.hbdev.cn/tech/SrcShow.asp?Src_ID=26

ktdictseg 簡介: ktdictseg 是由kaitoo搜索開發(fā)的一款基于字典的簡單中英文分詞算法

* 主要功能: 中英文分詞,未登錄詞識別,多元歧義自動識別,全角字符識別能力

* 主要性能指標:

* 分詞準確度:90%以上(有待專家的權(quán)威評測)

* 處理速度: 600kbytes/s

(6)chseg

這個速度大約是0.5m/s.還是相當(dāng)不錯的,不過沒有詞性標注部分

(7)je-anlysis的分詞(java實現(xiàn)的)

1. 分詞效率: 每秒30萬字(測試環(huán)境迅馳1.6,第一次分詞需要1-2秒加載詞典)

2. 運行環(huán)境: Lucene 2.0

3. 免費安裝使用傳播,無限制商業(yè)應(yīng)用,但暫不開源,也不提供任何保證

4. 優(yōu)點

全面支持Lucene 2.0

增強了詞典維護的API

增加了商品編碼的匹配

增加了Mail地址的匹配

實現(xiàn)了詞尾消歧算法第二層的過濾

整理優(yōu)化了詞庫

支持詞典的動態(tài)擴展

支持中文數(shù)字的匹配(如:二零零六)

數(shù)量詞采用“n”作為數(shù)字通配符

優(yōu)化詞典結(jié)構(gòu)以便修改調(diào)整

支持英文、數(shù)字、中文(簡體)混合分詞

常用的數(shù)量和人名的匹配

超過22萬詞的詞庫整理

實現(xiàn)正向最大匹配算法

支持分詞粒度控制

(8)吳建強的分詞--java實現(xiàn)

1. ?? 分詞的算法

分詞算法采用的是最大匹配算法,按從左至右正向最大匹配和從右到左反向最大匹配,當(dāng)

兩種分詞結(jié)果不一致時,按最少切分原則,取切分詞數(shù)最少的一種,如果兩種分詞結(jié)果切

分的詞數(shù)一樣,取反向最大匹配作為分詞的結(jié)果,這種分詞的結(jié)果準確率在99%以上,可

以滿足一般的應(yīng)用和需求。

2. ?? 程序設(shè)計

建立一個字典,字典由多個子字典組成,每個子字典的單詞字數(shù)相同且已經(jīng)排序,以獨立

文件的形式存儲于磁盤,字典支持新單詞的導(dǎo)入。對于要一段文字,首先過濾一次,把源

文件按標點、英文字母、數(shù)字、其它符號分解成一個List,list中若包含中文的為要分詞

的最小單位,如:你好,你是哪的ABC人,過濾的結(jié)果為 你好/,/你是哪的/ABC/人,要

切分的部分有 你好 你是哪的 人 三部分,然后按分詞算法對這三個部分切分。

3. ?? 使用方法

首先導(dǎo)入詞庫,詞庫是純文本文件,每個單詞一行,然后可以開始分詞,具體運行參見

com.xq.Execute.java。詞庫用的是“中文詞庫素材”,大家可以在網(wǎng)上搜到.

4. ?? 測試

沒有字典時,導(dǎo)入“中文詞庫素材3.2\詞庫\標準詞庫\去除拼音字母的標準詞庫213663詞

條.TXT”這個文件用時17890毫秒,導(dǎo)入單詞數(shù)212512,z在這個字典上再導(dǎo)入“中文詞庫素

材3.2\詞庫\專業(yè)擴充詞庫\區(qū)縣地名(大詞庫不包含).txt”用時500毫秒,導(dǎo)入單詞:

1747,速度還是比較快的。對一篇兩千字的文章分詞用時110毫秒,準確率在99%以上,當(dāng)

詞庫越完善,準確率會更高。總體來看,導(dǎo)入詞庫、分詞速度和準確度對于一般的應(yīng)用是

可接受的。測試電腦配置:P43.2,1G內(nèi)存

-----------------不同來源分割--------------------

張文煥制作的詞庫工具有:
①拼音加加詞庫調(diào)頻 Ver1.07:本工具可以根據(jù)導(dǎo)入的拼音加加詞庫分析指定的文章統(tǒng)計詞頻,根據(jù)詞頻對詞條重新排序后導(dǎo)出優(yōu)化的詞庫。
②大分詞 Ver1.03:
③拼音加加詞庫注音 Ver1.20b:本程序是一個用來給拼音加加詞庫中的詞條多音字進行注音及優(yōu)化、修正的小工具。
④拼音加加詞庫排序 Ver1.04
⑤拼音加加詞庫整理 Ver1.00b
⑥拼音加加詞庫篩選 Ver1.06
⑦拼音加加詞庫固頂 Ver1.02
⑧拼音加加詞庫更新 Ver1.05

孫百川制作:
詞組工具

US01制作:
加加詞庫維護工具

注:這些工具都可以在張老師的“加加論壇”下載到。( http://bbs.jjol.cn/showthread.php?t=4399

?

相關(guān)閱讀:

http://hi.baidu.com/guoliqiang2006/blog/item/5c2b8939184a27cad562254d.html (我對nutch中文分詞工具的評價)

http://www.webryan.cn/2009/04/something-about-chinese-seg/ (關(guān)于中文分詞的一些瑣碎資料 | Ryan's Blog (郭亨的博客))

收集一些中文分詞工具


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發(fā)表我的評論
最新評論 總共0條評論