中文公開聊天語料庫

開源 · 發表 2019-03-24 08:32:04

摘要：說明該庫是對目前市面上已有的開源中文聊天語料的蒐集和系統化整理工作該庫蒐集了包含 chatterbot 豆瓣多輪 PTT八卦語料青雲語料電視劇對白語料貼吧論壇回帖語料微博語料小黃雞語料共8個...

說明

該庫是對目前市面上已有的開源中文聊天語料的蒐集和系統化整理工作

該庫蒐集了包含

chatterbot
豆瓣多輪
PTT八卦語料
青雲語料
電視劇對白語料
貼吧論壇回帖語料
微博語料
小黃雞語料

共8個公開閒聊常用語料和簡訊，白鷺時代問答等語料。

並對8個常見語料的資料進行了統一化規整和處理，達到直接可以粗略使用的目的。

使用該專案，即可對所有的聊天語料進行一次性的處理和統一下載，不需要到處自己去搜集下載和分別處理各種不同的格式。

注意

以下所有語料都已經統一下載好，存在https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取碼：f2ex 中。給出的語料原連結是為了說明該語料的原始出處是在哪裡

環境

python3

處理過程

將各個來源的語料按照其原格式進行提取，提取後進行繁體字轉換，然後統一變成一輪一輪的對話。

資料來源及說明

語料名稱	語料數量	語料來源說明	語料特點	語料樣例	是否已分詞
chatterbot	560	開源專案	按型別分類，質量較高	Q:你會開心的 A:幸福不是真正的可預測的情緒。	否
douban（豆瓣多輪）	352W	來自北航和微軟的paper, 開源專案	噪音相對較少，原本是多輪（平均7.6輪）	Q:煙臺十一哪好玩 A:哪都好玩 · · · ·	是
ptt（PTT八卦語料）	40W	開源專案，臺灣PTT論壇八卦版	繁體，語料較生活化，有噪音	Q:為什麼鄉民總是欺負國高中生呢QQA:如果以為選好科系就會變成比爾蓋茲那不如退學吧	否
qingyun（青雲語料）	10W	某聊天機器人交流群	相對不錯，生活化	Q:看來你很愛錢 A:噢是嗎？那麼你也差不多了	否
subtitle（電視劇對白語料）	274W	開源專案，來自爬取的電影和美劇的字幕	有一些噪音，對白不一定是嚴謹的對話，原本是多輪（平均5.3輪）	Q:京戲裡頭的人都是不自由的A:他們讓人拿籠子給套起來了了	否
tieba（貼吧論壇回帖語料）	232W	偶然找到的	多輪，有噪音	Q:前排，魯迷們都起床了吧A:標題說助攻，但是看了那球，真是活生生的諷刺了	否
weibo（微博語料）	443W	來自華為的paper	仍有一些噪音	Q:北京的小純潔們，週日見。#硬漢擺拍清純照# A:嗷嗷大溼的左手在幹嘛，看著小純潔擼麼。	否
xiaohuangji（小黃雞語料）	45W	原人人網專案語料	有一些不雅對話，少量噪音	Q:你談過戀愛麼A:談過，哎，別提了，傷心..。	否

語料名稱	語料原始URL（即出處，尊重原始版權）
chatterbot	https://github.com/gunthercox/chatterbot-corpus/tree/master/chatterbot_corpus/data/chinese
douban（豆瓣多輪）	https://github.com/MarkWuNLP/MultiTurnResponseSelection
ptt（PTT八卦語料）	https://github.com/zake7749/Gossiping-Chinese-Corpus
qingyun（青雲語料）	無
subtitle（電視劇對白語料）	https://github.com/fateleak/dgk_lost_conv
tieba（貼吧論壇回帖語料）	https://pan.baidu.com/s/1mUknfwy1nhSM7XzH8xi7gQ 密碼:i4si
weibo（微博語料）	61.93.89.94/Noah_NRM_Data/
xiaohuangji（小黃雞語料）	https://github.com/candlewill/Dialog_Corpus

使用方法

下載語料https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取碼：f2ex

將解壓後的raw_chat_corpus資料夾放到當前目錄下目錄結構為

raw_chat_corpus
-- language
-- process_pipelines
-- raw_chat_corpus
---- chatterbot-1k
---- douban-multiturn-100w
---- ....
-- main.py
-- ...

執行命令即可

python main.py

或者

python3 main.py

生成結果

每個來源的語料分別生成一個獨立的*.tsv檔案，都放在新生成的clean_chat_corpus資料夾下。

生成結果格式為 tsv格式，每行是一個樣本，先是query，再是answer

query \t answer

結果的使用

這個就根據每個人不同的情況自主使用即可

個人對於聊天機器人方向實踐也不是很多，以下一篇之前寫的知乎專欄供參考《從產品完整性的角度淺談chatbot》

https://zhuanlan.zhihu.com/p/34927757

文章粗略講解了如下一些方面，介紹了聊天機器人在實際產品化過程中可能遇到的問題和解決辦法。

chatbot自身人格的設定
產品上線需要考慮的敏感詞處理
文字檢索模型的使用
文字生成模型的使用
回答打分機制
萬能回答的使用策略
多媒體訊息的處理
產品模型部署的問題

版權說明

本專案為非商業專案，為純蒐集和彙總資料，如有侵權，請在issue下留言。