雖然是愚人節(jié),但是這個(gè)不是愚人節(jié)玩笑,最近花了一些時(shí)間在MeCab身上,越發(fā)喜歡這個(gè)來(lái)自島國(guó)的開(kāi)源分詞系統(tǒng),今天花了一些時(shí)間訓(xùn)練了一個(gè)更適用的模型和詞典,打包提供給大家使用,因?yàn)閿?shù)據(jù)和詞典涉及到一些版權(quán)問(wèn)題,所以打包文件里只是mecab用于發(fā)布的二進(jìn)制詞典和模型文件,目前在mac os和linux ubuntu系統(tǒng)下測(cè)試無(wú)誤,其他系統(tǒng)請(qǐng)自行測(cè)試使用:
鏈接: 密碼: 8udf
了解和安裝mecab請(qǐng)參考:
日文分詞器 Mecab 文檔
用MeCab打造一套實(shí)用的中文分詞系統(tǒng)
使用前請(qǐng)按上述文檔安裝mecab,下載這個(gè)中文分詞模型和詞典之后解壓,解壓后得到一個(gè)mecab-chinese-data目錄,執(zhí)行:
mecab -d mecab-chinese-data
揚(yáng)帆遠(yuǎn)東做與中國(guó)合作的先行
揚(yáng)帆v,*,*,*,*,*,揚(yáng)帆,*,*
遠(yuǎn)東ns,*,*,*,*,*,遠(yuǎn)東,*,*
做v,*,*,*,*,*,做,*,*
與p,*,*,*,*,*,與,*,*
中國(guó)ns,*,*,*,*,*,中國(guó),*,*
合作v,*,*,*,*,*,合作,*,*
的u,*,*,*,*,*,的,*,*
先行vn,*,*,*,*,*,先行,*,*
EOS
上述第二列提供了詞性標(biāo)注結(jié)果。
如果想得到單行的分詞結(jié)果,可以這樣執(zhí)行:
mecab -d ./mecab-chinese-data/ -O wakati
揚(yáng)帆遠(yuǎn)東做與中國(guó)合作的先行
揚(yáng)帆 遠(yuǎn)東 做 與 中國(guó) 合作 的 先行
如果想直接對(duì)文件分詞,可以這樣執(zhí)行:
mecab -d ./mecab-chinese-data/ INPUT -o OUTPUT
具體可以參考上述兩個(gè)文檔,另外我在mac下測(cè)試了一下中文維基百科語(yǔ)料的切分速度,大概700多M的語(yǔ)料,不到90秒切分完畢,大概7M/s的切分速度完全達(dá)到了工業(yè)屆的使用標(biāo)準(zhǔn)。另外Mecab還支持Nbest輸出,多種輸出格式,全切分模式,系統(tǒng)詞典和用戶詞典定制等等,同時(shí)通過(guò)SWIG提供了perl, ruby, python, java的調(diào)用接口,非常方便。
以下是在backoff2005 人民日?qǐng)?bào)語(yǔ)料庫(kù)上的測(cè)試結(jié)果:
=== SUMMARY:
=== TOTAL INSERTIONS:3803
=== TOTAL DELETIONS:1981
=== TOTAL SUBSTITUTIONS:5004
=== TOTAL NCHANGE:10788
=== TOTAL TRUE WORD COUNT:104372
=== TOTAL TEST WORD COUNT:106194
=== TOTAL TRUE WORDS RECALL:0.933
=== TOTAL TEST WORDS PRECISION:0.917
=== F MEASURE:0.925
=== OOV Rate:0.058
=== OOV Recall Rate:0.482
=== IV Recall Rate:0.961
###pku_test.result380319815004107881043721061940.9330.9170.9250.0580.4820.961
召回率93.3%,準(zhǔn)確率91.7%, F值為92.5%, 雖然還沒(méi)有一個(gè)單純針對(duì)這個(gè)測(cè)試語(yǔ)料比賽的分詞結(jié)果好,但是測(cè)試了一些其他語(yǔ)料后覺(jué)得這個(gè)版本完全可以作為一個(gè)基準(zhǔn)版本使用,另外mecab也提供了用戶定制詞典接口,方便用戶按自己的需求定制使用。
更多信息請(qǐng)查看IT技術(shù)專欄