文字分類

基於文字挖掘技術的證券智慧監管專案

文 / 深圳證券交易所  許保勳 近年來,迅速發展的大資料、雲端計算、移動互聯技術受到了社會各方的重視。 以大資料為支撐的網際網路與各領域的深入融合發展具有廣闊前景和無限潛力,已成為不可阻擋的時代潮流,

K 均值聚類

通過迭代方式尋找 K 個簇的一種劃分方案,使得聚類結果對應的代價函式最小。 1、缺點 需要人工預先確定初始 K 值,且該值和真實的資料未必吻合。 K 均值只能收斂到

中文分詞文章索引和分詞資料資源分享

昨天在AINLP公眾號上分享了樂雨泉同學的投稿文章:《 分詞那些事兒 》,有同學留言表示不過癮,我想了想,其實我愛自然語言處理部落格上已經積攢了不少中文分詞的文章,除了基於深度學習的分詞方法還沒有探

聚類(Clustering)

1.無監督學習:簡介 聚類演算法:第一個無監督學習演算法(無標籤的資料) 什麼是無監督學習呢? 對比:監督學習問題指的是,我們有一系列標籤,然後用假設函式去擬合它,作為對比,在無監督學習中,我們的資

手把手教你用itchat統計好友資訊,瞭解一下?

初學Python的時候,就寫過一篇利用Python的第三方庫進行好友頭像拼接, itchat itchat庫初探--微信好友全頭像的拼接,最近又研究了下itchat和matplotlib,目前實現了對微信好友

Consensus Clustering

Consensus Clustering(一致性聚類),無監督聚類方法,是一種常見的癌症亞型分類研究方法(如乳腺癌中的PAM50),可根據不同組學資料集將樣本區分成幾個亞型,從而發現新的疾病亞型或者對不同亞型

美食圖譜復現指南之依存句法分析

本文程式碼開源在: DesertsX/gulius-projects 哈工大語言云的官網有一篇名為 《使用語言云分析微博使用者飲食習慣》 的文章,裡面講到了藉助分詞、詞性標註和依存句法分析等NLP技術

如何用統計方法分析使用者畫像?(一)

新時代的產品經理“上的了廳堂,下的了廚房,懂的了程式碼,分析的了資料” ,哭笑臉,調侃一下。在實際的產品設計開發中,產品經理的需求的分析離不開使用者使用場景及使用行為資料分析等,但是自己目標使用者群體到底是什麼

關於風控預警體系的搭建方案

之前的文章講了關於業務風控整體的一個架構和基本的思考方法,今天針對風控鏈路中的“風險發現”環節做一個系統的介紹,由此來幫助大家快速的發現異常,減少對應的業務損失,快速止血。 在開始介紹之前,我們先來看一

AAAI 2019 提前看:融合質量不理想資料

1. 介紹 選文理由:從 AAAI 釋出的 paper list 整體來看,令人喜悅的是靠近底層的問題研究和靠近工業界的產品研究都很多。前者保證了科研界的活躍度和今後行業發展的基礎,後者則保證了短期內

ML.NET 示例:聚類之鳶尾花

寫在前面 準備近期將微軟的machinelearning-samples翻譯成中文,水平有限,如有錯漏,請大家多多指正。 如果有朋友對此感興趣,可以加入我:

1716169921.9362