弘文高中

開放搜尋(Opensearch)之下拉提示

下拉提示是搜尋引擎的標配功能,它能起到減少使用者輸入的作用,自動補全搜尋關鍵字,提升使用者使用搜索引擎的體驗,好的下拉提示還可以引導使用者輸入質量高的 query ,這些高質量  query 最終能輸出使用者

sharding jdbc之解析引擎

1. 解析引擎 解析過程分為 詞法解析 和 語法解析 。 解析引擎在  parsing 包下,包含兩大元件: Lexer:詞法解析器。 Parser:SQL解析器。

elasticsearch實戰---中文拼音A-Z排序(完美解決)

公司目前業務系統偏向後臺系統,目前包含500W+資料,在許多列表中支援各種條件查詢,含有大量的模糊搜尋條件。由於在mysql中模糊查詢效率低下,目前公司已使用es搜尋引擎進行條件搜尋。es版本如下: ela

文章相似度計算

演算法思路 首先看個簡單的例子: 句子A: 我喜歡看電視,不喜歡看電影 句子B: 我不喜歡看電影,也不喜歡看電視 基本思路 如果兩句話的用詞越相似,它們的內容越相似。因此,可以從詞頻入手,計

斯柯達計劃將HPC計算量提升至15千兆次

據外媒報道,斯柯達計劃將其計算量提升至15千兆次(petaflops),打造捷克共和國境內功能最強大的私人高效能運算機基礎設施。 斯柯達並未提供其高效能運算機(HPC)計算量擴容的具體時間表,只是表示將逐步實現其

資料處理-招聘資訊-中文分詞與詞頻統計

智慧決策上手系列教程索引 通過前面的幾篇文章,相信大家都嘗試抓取了一些網站上招聘資訊的資料,並存儲到自己的檔案裡面了,可能是一堆 .json 或 .csv 檔案。 如果你還沒有抓到資料,請看這

Lucene 全文檢索

Lucene 全文檢索 Field域 Field是文件中的域,包括Field名和Field值兩部分,一個文件可以包括多個Field,Document只是Field的一個承載體,Field值即為要

NLPCC2013中文微博細粒度情感識別(二)

偷懶若干天后迴歸。。在上一篇中我們得到了NLPCC2013的中文微博資料,將其按照8:1:1的比例分成了訓練集,驗證集和測試集。下一步就是對資料進行預處理以及embedding。這是第一次嘗試一邊寫部落格一邊把

深度有趣 | 25 影象標題生成

輸入是一張圖片,輸出是一句對圖片進行描述的文字,這就是影象標題生成 基本思路是先通過預訓練的影象分類模型,從某一個卷積層得到原始圖片的表示,或者稱為上下文contexts 例如從VGG19的 conv

centos coreseek4.1安裝和配置

概念 1. sphinx是國外的一款搜尋軟體,一款基於SQL的高效能全文檢索引擎 2. coreseek是在sphinx的基礎上,增加了中文分詞功能,增加對中文的支援。4.1版本是2011年釋出的,它是基於

深度有趣 | 15 淺談中文分詞

簡單瞭解下中文分詞的概念,並用標準資料集、Keras和TensorFlow,分別基於LSTM和CNN實現中文分詞器 原理 中文分詞是指,將句子根據語義切分成詞 我來到北京清華大學 -> 我

深度有趣 | 03 高階又一般的詞雲

詞雲是一種資料呈現方式 不會的時候,感覺很厲害、很高大上 會用了之後,感覺到哪都看到別人在用 掌握用 Python 實現詞雲的方法 準備 安裝包 pip instal

高通與中移動:中國或率先實現車聯網

【手機中國新聞】近年來,無人駕駛絕對是一個超級火爆的話題,但在其真正落地之前,還需要解決的一個主要問題就是如何將車輛連入網路!近日,中國移動研究院、中國移動全資子公司中移物聯網有限公司和高通正式釋出了基於Qu

1715057876.7226