文字分類第7頁

sharding jdbc之解析引擎

部落格園精華區

2018-10-21 23:35:00

1. 解析引擎解析過程分為詞法解析和語法解析。解析引擎在 parsing 包下，包含兩大元件： Lexer：詞法解析器。 Parser：SQL解析器。

【神經網路】自編碼聚類演算法--DEC (Deep Embedded Clustering)

部落格園-原創精華區

2018-10-21 23:12:00

1.演算法描述最近在做AutoEncoder的一些探索，看到2016年的一篇論文，雖然不是最新的，但是思路和方法值得學習。論文原文連結 http://proceedings.mlr.press/v4

前端架構思想：聚類分層

稀土掘金

2018-10-19 13:53:53

在做前端應用的過程中，我經常發現元件之間、store的module之間關係錯綜複雜，扁平的結構並不能表示其關係，隨著元件和module的增加，程式碼越來越混亂，維護成本也越來也高。我對這個問題的解決進行了一系

elasticsearch實戰---中文拼音A-Z排序（完美解決）

稀土掘金

2018-10-16 13:47:33

公司目前業務系統偏向後臺系統，目前包含500W+資料，在許多列表中支援各種條件查詢，含有大量的模糊搜尋條件。由於在mysql中模糊查詢效率低下，目前公司已使用es搜尋引擎進行條件搜尋。es版本如下： ela

文章相似度計算

簡書

2018-10-16 13:29:49

演算法思路首先看個簡單的例子：句子A：我喜歡看電視，不喜歡看電影句子B：我不喜歡看電影，也不喜歡看電視基本思路如果兩句話的用詞越相似，它們的內容越相似。因此，可以從詞頻入手，計

CurriculumNet：基於大規模網路影象的弱監督學習演算法

機器之心

2018-10-15 12:35:23

我們日常進行的大多數影象搜尋行為，獲取的結果中都充滿了噪聲。比如，當你搜索“酒”的時候，可能就會發現一些奇怪的東西…… 這樣搜尋出的資料集，要用來訓練一個識別“酒”的模型，在大多數人的認知裡是很

【火爐煉AI】機器學習034-NLP對文字進行分詞

稀土掘金

2018-10-12 10:18:02

(本文所使用的Python庫和版本號: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2， NLTK 3.3) 文字分塊是將一大段文字分割成

Go 高效能分詞 Gse v0.20.0 釋出, 優化效能

開源中國

2018-10-10 06:11:30

Go 語言高效分詞, 支援英文、中文、日文等詞典用雙陣列trie（Double-Array Trie）實現，分詞器演算法為基於詞頻的最短路徑加動態規劃。支援普通和搜尋引擎兩種分詞模式，支援使用者詞

資料處理-招聘資訊-中文分詞與詞頻統計

簡書

2018-10-09 09:10:40

智慧決策上手系列教程索引通過前面的幾篇文章，相信大家都嘗試抓取了一些網站上招聘資訊的資料，並存儲到自己的檔案裡面了，可能是一堆 .json 或 .csv 檔案。如果你還沒有抓到資料，請看這

Lucene 全文檢索

簡書

2018-10-08 11:08:10

Lucene 全文檢索 Field域 Field是文件中的域，包括Field名和Field值兩部分，一個文件可以包括多個Field，Document只是Field的一個承載體，Field值即為要

融數鏈（FBT）網格化多維資料價值交換生態

Hi區塊鏈

2018-10-05 20:33:50

Fusionblock致力於打造全球首個數值交換生態系統。藉助大資料產業基礎，提煉資料為抽象事物物件，打造為解決資料服務工作流及商業流程的生態交易鏈，是新一代分片分層綜合架構下的一個多方事務協同管理，協同操作

NLPCC2013中文微博細粒度情感識別（二）

部落格園精華區

2018-10-02 16:06:00

偷懶若干天后迴歸。。在上一篇中我們得到了NLPCC2013的中文微博資料，將其按照8：1：1的比例分成了訓練集，驗證集和測試集。下一步就是對資料進行預處理以及embedding。這是第一次嘗試一邊寫部落格一邊把

[譯] Python 中的無監督學習演算法

稀土掘金

2018-09-26 13:59:50

原文地址： Unsupervised Learning with Python 原文作者：Vihar Kurama 譯文出自：掘金翻譯計劃本文永久連結： github

美國銀行為一個分散式系統的多重數字簽名申請了新的專利

九個億財經

2018-09-25 12:48:38

九個億財經訊息——美國據美國專利商標局(USPTO) 9月18日公佈的一份檔案顯示，美國第二大銀行美國銀行已經申請了一項新的專利，以適應分散式網路中的多個數字簽名。這項新專利提出了一種從聯網裝置管理資

一維陣列的聚類

IT技術部落格大學習

2018-09-23 08:47:58

需求：分析訂單的價格分佈方案：按照100為梯度，分析不同價格區間的訂單量缺陷：現實生活中，定價存在一些自然的價格分隔，如果按照步距劃分可能存在一些偏差，比如airbnb的價格篩選顯示出的房價分佈：