文字分類第4頁

基於文字挖掘技術的證券智慧監管專案

安全內參

2018-09-18 17:38:18

文 / 深圳證券交易所許保勳近年來，迅速發展的大資料、雲端計算、移動互聯技術受到了社會各方的重視。以大資料為支撐的網際網路與各領域的深入融合發展具有廣闊前景和無限潛力，已成為不可阻擋的時代潮流，

WWW 2019微軟亞洲研究院6篇入選論文一覽

微軟研究院AI頭條

2019-05-14 22:22:15

編者按：WWW 2019（The Web Conference）於5月13-17日在美國舊金山召開，今年會議共收到投稿1247篇，錄取225篇，錄取率為18%。微軟亞洲研究院共有6篇論文入選，內

elasticsearch學習筆i記（二十五）——Elasticsearch mapping詳解以及索引內部原理

SegmentFault部落格

2019-04-27 15:17:44

下面先簡單描述一下mapping是什麼？當我們插入幾條資料，讓ES自動為我們建立一個索引 PUT /website/_doc/1 { "post_date":

K 均值聚類

2019-03-27 12:32:12

通過迭代方式尋找 K 個簇的一種劃分方案，使得聚類結果對應的代價函式最小。 1、缺點需要人工預先確定初始 K 值，且該值和真實的資料未必吻合。 K 均值只能收斂到

中文分詞文章索引和分詞資料資源分享

我愛自然語言處理

2019-03-27 11:40:01

昨天在AINLP公眾號上分享了樂雨泉同學的投稿文章：《分詞那些事兒》，有同學留言表示不過癮，我想了想，其實我愛自然語言處理部落格上已經積攢了不少中文分詞的文章，除了基於深度學習的分詞方法還沒有探

聚類(Clustering)

簡書

2019-03-25 14:42:14

1.無監督學習：簡介聚類演算法：第一個無監督學習演算法（無標籤的資料）什麼是無監督學習呢？對比：監督學習問題指的是，我們有一系列標籤，然後用假設函式去擬合它，作為對比，在無監督學習中，我們的資

手把手教你用itchat統計好友資訊，瞭解一下？

2019-03-21 16:02:50

初學Python的時候，就寫過一篇利用Python的第三方庫進行好友頭像拼接， itchat itchat庫初探--微信好友全頭像的拼接，最近又研究了下itchat和matplotlib，目前實現了對微信好友

給全文搜尋引擎Manticore (Sphinx) search 增加中文分詞原薦

開源中國部落格

2019-03-06 11:05:17

文章首發於我的技術部落格：你可以在上面看到更多的Python教程和python爬蟲教程 Sphinx search 是一款非常棒的開源全文搜尋引擎，它使用C++開發，索引和搜尋的速

Consensus Clustering

生信筆記

2019-03-02 16:04:57

Consensus Clustering(一致性聚類)，無監督聚類方法，是一種常見的癌症亞型分類研究方法（如乳腺癌中的PAM50），可根據不同組學資料集將樣本區分成幾個亞型，從而發現新的疾病亞型或者對不同亞型

[譯] 資料科學中必須熟知的 5 種聚類演算法

2019-02-13 15:29:52

本文為 AI 研習社編譯的技術部落格，原標題： The 5 Clustering Algorithms Data Scientists Need to Know 作者 | George

美食圖譜復現指南之依存句法分析

簡書

2019-02-03 07:08:21

本文程式碼開源在： DesertsX/gulius-projects 哈工大語言云的官網有一篇名為《使用語言云分析微博使用者飲食習慣》的文章，裡面講到了藉助分詞、詞性標註和依存句法分析等NLP技術

如何用統計方法分析使用者畫像？（一）

簡書

2019-01-31 19:50:56

新時代的產品經理“上的了廳堂，下的了廚房，懂的了程式碼，分析的了資料” ，哭笑臉，調侃一下。在實際的產品設計開發中，產品經理的需求的分析離不開使用者使用場景及使用行為資料分析等，但是自己目標使用者群體到底是什麼

關於風控預警體系的搭建方案

2019-01-25 09:46:05

之前的文章講了關於業務風控整體的一個架構和基本的思考方法，今天針對風控鏈路中的“風險發現”環節做一個系統的介紹，由此來幫助大家快速的發現異常，減少對應的業務損失，快速止血。在開始介紹之前，我們先來看一

AAAI 2019 提前看：融合質量不理想資料

機器之心

2019-01-21 14:31:36

1. 介紹選文理由：從 AAAI 釋出的 paper list 整體來看，令人喜悅的是靠近底層的問題研究和靠近工業界的產品研究都很多。前者保證了科研界的活躍度和今後行業發展的基礎，後者則保證了短期內

ML.NET 示例：聚類之鳶尾花

2018-12-15 21:45:00

寫在前面準備近期將微軟的machinelearning-samples翻譯成中文，水平有限，如有錯漏，請大家多多指正。如果有朋友對此感興趣，可以加入我：