中文分詞

中文分詞文章索引和分詞資料資源分享

昨天在AINLP公眾號上分享了樂雨泉同學的投稿文章:《 分詞那些事兒 》,有同學留言表示不過癮,我想了想,其實我愛自然語言處理部落格上已經積攢了不少中文分詞的文章,除了基於深度學習的分詞方法還沒有探

手把手教你用itchat統計好友資訊,瞭解一下?

初學Python的時候,就寫過一篇利用Python的第三方庫進行好友頭像拼接, itchat itchat庫初探--微信好友全頭像的拼接,最近又研究了下itchat和matplotlib,目前實現了對微信好友

美食圖譜復現指南之依存句法分析

本文程式碼開源在: DesertsX/gulius-projects 哈工大語言云的官網有一篇名為 《使用語言云分析微博使用者飲食習慣》 的文章,裡面講到了藉助分詞、詞性標註和依存句法分析等NLP技術

ELK 使用小技巧(第 3 期)

ELK Tips 主要介紹一些 ELK 使用過程中的小技巧,內容主要來源為 Elastic 中文社群。 一、Logstash 1、Filebeat 設定多個 output 在 6.0 之前,File

Elasticsearch實踐(二):搜尋

本文以 Elasticsearch 6.2.4為例。 經過前面的基礎入門,我們對ES的基本操作也會了。現在來學習ES最強大的部分:全文檢索。 準備工作 批量匯入資料 先需要準備點資料,然後匯入:

【NLP】分詞演算法綜述

之前總是在看前沿文章,真正落實到工業級任務還是需要實打實的硬核基礎,我司選用了HANLP作為分片語件,在使用的過程中才感受到自己基礎的薄弱,決定最近好好把分詞的底層演算法梳理一下。 1. 簡介 NLP的

7個優秀的開源中文分詞庫推薦,實用性強!

縱觀整個開源領域,陸陸續續做中文分詞的也有不少,不過目前仍在維護的且質量較高的並不多。下面整理了一些個人認為比較優秀的中文分詞庫,以供大家參考使用。 1、jieba —— Python

隱馬爾可夫分詞

雖然目前 nlp 很多工已經發展到了使用深度學習的迴圈神經網路模型和注意力模型,但傳統的模型咱們也一樣要了解。這裡看下如何使用隱馬爾科夫模型(HMM)進行分詞。 隱馬爾科夫模型 隱馬爾科夫模型是一種有向

1715233429.2494