中文分詞文章索引和分詞資料資源分享
昨天在AINLP公眾號上分享了樂雨泉同學的投稿文章:《 分詞那些事兒 》,有同學留言表示不過癮,我想了想,其實我愛自然語言處理部落格上已經積攢了不少中文分詞的文章,除了基於深度學習的分詞方法還沒有探討外,“古典”機器學習時代的中文分詞方法都有涉及,從基於詞典的中文分詞(最大匹配法),到基於統計的分詞方法(HMM、最大熵模型、條件隨機場模型CRF),再到Mecab、NLTK中文分詞,都有所涉及。回頭看,這些文章最早的大概有10年了,現在看有些稚嫩,可能不適宜再放到公眾號上推了,但是這裡做個索引,感興趣的同學可以在部落格上閱讀,基本上都是有程式碼可以參考的。
中文分詞入門系列
- 用MeCab打造一套實用的中文分詞系統
- 用MeCab打造一套實用的中文分詞系統(二)
- 用MeCab打造一套實用的中文分詞系統(三):MeCab-Chinese
- 用MeCab打造一套實用的中文分詞系統(四):MeCab增量更新
rickjin老大的兩篇日文翻譯文件,很有幫助
其他同學在52nlp部落格上分享的中文分詞相關文章,感謝大家
- Itenyh版-用HMM做中文分詞一:序
- Itenyh版-用HMM做中文分詞二:模型準備
- Itenyh版-用HMM做中文分詞三:前向演算法和Viterbi演算法的開銷
- Itenyh版-用HMM做中文分詞四:A Pure-HMM 分詞器
- Itenyh版-用HMM做中文分詞五:一個混合的分詞器
最後關於中文分詞的資料資源,多說兩句,中文分詞的研究時間比較長,方法比較多,從實際經驗看,好的詞庫資源可能更重要一些,最後提供一份中文分詞的相關資源,包括中文分詞字標註法全文pdf文件,以及web上其他同學分享的詞庫資源,感興趣的同學可以關注AINLP,回覆“fenci"獲取:
注:原創文章,轉載請註明出處及保留連結“我愛自然語言處理”: http://www.52nlp.cn