文字分類

sharding jdbc之解析引擎

1. 解析引擎 解析過程分為 詞法解析 和 語法解析 。 解析引擎在  parsing 包下,包含兩大元件: Lexer:詞法解析器。 Parser:SQL解析器。

前端架構思想:聚類分層

在做前端應用的過程中,我經常發現元件之間、store的module之間關係錯綜複雜,扁平的結構並不能表示其關係,隨著元件和module的增加,程式碼越來越混亂,維護成本也越來也高。我對這個問題的解決進行了一系

elasticsearch實戰---中文拼音A-Z排序(完美解決)

公司目前業務系統偏向後臺系統,目前包含500W+資料,在許多列表中支援各種條件查詢,含有大量的模糊搜尋條件。由於在mysql中模糊查詢效率低下,目前公司已使用es搜尋引擎進行條件搜尋。es版本如下: ela

文章相似度計算

演算法思路 首先看個簡單的例子: 句子A: 我喜歡看電視,不喜歡看電影 句子B: 我不喜歡看電影,也不喜歡看電視 基本思路 如果兩句話的用詞越相似,它們的內容越相似。因此,可以從詞頻入手,計

Go 高效能分詞 Gse v0.20.0 釋出, 優化效能

Go 語言高效分詞, 支援英文、中文、日文等 詞典用雙陣列trie(Double-Array Trie)實現, 分詞器演算法為基於詞頻的最短路徑加動態規劃。 支援普通和搜尋引擎兩種分詞模式,支援使用者詞

資料處理-招聘資訊-中文分詞與詞頻統計

智慧決策上手系列教程索引 通過前面的幾篇文章,相信大家都嘗試抓取了一些網站上招聘資訊的資料,並存儲到自己的檔案裡面了,可能是一堆 .json 或 .csv 檔案。 如果你還沒有抓到資料,請看這

Lucene 全文檢索

Lucene 全文檢索 Field域 Field是文件中的域,包括Field名和Field值兩部分,一個文件可以包括多個Field,Document只是Field的一個承載體,Field值即為要

融數鏈(FBT)網格化多維資料價值交換生態

Fusionblock致力於打造全球首個數值交換生態系統。藉助大資料產業基礎,提煉資料為抽象事物物件,打造為解決資料服務工作流及商業流程的生態交易鏈,是新一代分片分層綜合架構下的一個多方事務協同管理,協同操作

NLPCC2013中文微博細粒度情感識別(二)

偷懶若干天后迴歸。。在上一篇中我們得到了NLPCC2013的中文微博資料,將其按照8:1:1的比例分成了訓練集,驗證集和測試集。下一步就是對資料進行預處理以及embedding。這是第一次嘗試一邊寫部落格一邊把

一維陣列的聚類

需求:分析訂單的價格分佈 方案:按照100為梯度,分析不同價格區間的訂單量 缺陷:現實生活中,定價存在一些自然的價格分隔,如果按照步距劃分可能存在一些偏差,比如airbnb的價格篩選顯示出的房價分佈:

1716170354.2185