中影文化城第5頁

Torchtext指南（側重於NMT）

部落格園-原創精華區

2018-10-31 13:22:00

Torchtext指南（側重於NMT） torchtext是一個對於NLP來說非常棒的預處理資料的工具。本文記錄一下自己學習的過程，側重於NMT。一個基本的操作流程：建立Fie

58同城全鏈條升級：市場下沉，智慧連線資訊化

創業邦

2018-10-30 20:53:38

服務這個賽道很寬，美團解決了吃喝玩樂，58同城、安居客、趕集網則聚焦在找工作、找房子、買車、家政等同城資訊服務上。相較之下，找房和買車雖然比吃喝玩樂更低頻，但卻是中國人的絕對剛需。也正因房子和車子在中國

Elasticsearch 搜尋片語，如何更準？

2018-10-30 07:08:19

更好的閱讀體驗，開啟【閱讀原文】，在PC上瀏覽 Lucene用了很久，其版本更新也很快。在ES出來之後，直接使用Lucene的時候就比較少了，更多的就在ES框架下一站式完成，ES目前在專案中幾乎佔據了半壁江

es簡單打造站內搜尋

部落格園精華區

2018-10-27 22:41:00

最近挺忙的，在外出差，又同時幹兩個專案。白天一個晚上一個，特別是白天做的專案，馬上就要上線了，在客戶這裡三天兩頭開會，問題很多真的很想好好靜下來懟程式碼，半夜做夢都能fix bugs~ 和客戶交流真的是門技術

開放搜尋(Opensearch)之下拉提示

雲棲團隊部落格

2018-10-25 21:53:06

下拉提示是搜尋引擎的標配功能，它能起到減少使用者輸入的作用，自動補全搜尋關鍵字，提升使用者使用搜索引擎的體驗，好的下拉提示還可以引導使用者輸入質量高的 query ，這些高質量 query 最終能輸出使用者

銳捷雲桌面引領趨勢與500餘專家熱議智慧教育

51CTO網路動態

2018-10-23 10:39:42

10月19日，以“雲領變革賦能新教育”為主題的“2018高校智慧教育創新與應用示範研討會”在寧波大學盛大開幕!來自全國高校的500位教育專家齊聚一堂，就教育資訊化創新應用的熱點話題進行深入交流, 共繪智慧教育

使用jieba和wordcloud進行中文分詞並生成《悲傷逆流成河》詞雲

部落格園精華區

2018-10-22 18:51:00

因為詞雲有利於體現文字資訊，所以我就將那天無聊時爬取的《悲傷逆流成河》的評論處理了一下，生成了詞雲。關於爬取影評的爬蟲大概長這個樣子(實際上是沒有爬完的): #!/usr/bin/env python

sharding jdbc之解析引擎

部落格園精華區

2018-10-21 23:35:00

1. 解析引擎解析過程分為詞法解析和語法解析。解析引擎在 parsing 包下，包含兩大元件： Lexer：詞法解析器。 Parser：SQL解析器。

elasticsearch實戰---中文拼音A-Z排序（完美解決）

稀土掘金

2018-10-16 13:47:33

公司目前業務系統偏向後臺系統，目前包含500W+資料，在許多列表中支援各種條件查詢，含有大量的模糊搜尋條件。由於在mysql中模糊查詢效率低下，目前公司已使用es搜尋引擎進行條件搜尋。es版本如下： ela

文章相似度計算

簡書

2018-10-16 13:29:49

演算法思路首先看個簡單的例子：句子A：我喜歡看電視，不喜歡看電影句子B：我不喜歡看電影，也不喜歡看電視基本思路如果兩句話的用詞越相似，它們的內容越相似。因此，可以從詞頻入手，計

【火爐煉AI】機器學習034-NLP對文字進行分詞

稀土掘金

2018-10-12 10:18:02

(本文所使用的Python庫和版本號: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2， NLTK 3.3) 文字分塊是將一大段文字分割成

Go 高效能分詞 Gse v0.20.0 釋出, 優化效能

開源中國

2018-10-10 06:11:30

Go 語言高效分詞, 支援英文、中文、日文等詞典用雙陣列trie（Double-Array Trie）實現，分詞器演算法為基於詞頻的最短路徑加動態規劃。支援普通和搜尋引擎兩種分詞模式，支援使用者詞

資料處理-招聘資訊-中文分詞與詞頻統計

簡書

2018-10-09 09:10:40

智慧決策上手系列教程索引通過前面的幾篇文章，相信大家都嘗試抓取了一些網站上招聘資訊的資料，並存儲到自己的檔案裡面了，可能是一堆 .json 或 .csv 檔案。如果你還沒有抓到資料，請看這

Lucene 全文檢索

簡書

2018-10-08 11:08:10

Lucene 全文檢索 Field域 Field是文件中的域，包括Field名和Field值兩部分，一個文件可以包括多個Field，Document只是Field的一個承載體，Field值即為要

「國慶特輯」NO.7 國慶假期人太多，有哪些在家放空自己的好物

極果

2018-10-07 12:11:24

國慶特輯好物推薦國慶要結束了，極果君作為一個常年滑水全靠浪的小編，此刻的心情就像不能再飄搖的海草。也知道各位看官，國慶各種放飛自我，所以極果君在這裡，整理了近半年來的好物，供各位在各種