中文公開聊天語料庫
說明
該庫是對目前市面上已有的開源中文聊天語料的蒐集和系統化整理工作
該庫蒐集了包含
- chatterbot
- 豆瓣多輪
- PTT八卦語料
- 青雲語料
- 電視劇對白語料
- 貼吧論壇回帖語料
- 微博語料
- 小黃雞語料
共8個公開閒聊常用語料和簡訊,白鷺時代問答等語料。
並對8個常見語料的資料進行了統一化規整和處理,達到直接可以粗略使用的目的。
使用該專案,即可對所有的聊天語料進行一次性的處理和統一下載,不需要到處自己去搜集下載和分別處理各種不同的格式。
注意
以下所有語料都已經統一下載好,存在https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取碼:f2ex 中。給出的語料原連結是為了說明該語料的原始出處是在哪裡
環境
python3
處理過程
將各個來源的語料按照其原格式進行提取,提取後進行繁體字轉換,然後統一變成一輪一輪的對話。
資料來源及說明
語料名稱 | 語料數量 | 語料來源說明 | 語料特點 | 語料樣例 | 是否已分詞 |
---|---|---|---|---|---|
chatterbot | 560 | 開源專案 | 按型別分類,質量較高 | Q:你會開心的 A:幸福不是真正的可預測的情緒。 | 否 |
douban(豆瓣多輪) | 352W | 來自北航和微軟的paper, 開源專案 | 噪音相對較少,原本是多輪(平均7.6輪) | Q:煙臺 十一 哪 好玩 A:哪 都 好玩 · · · · | 是 |
ptt(PTT八卦語料) | 40W | 開源專案,臺灣PTT論壇八卦版 | 繁體,語料較生活化,有噪音 | Q:為什麼鄉民總是欺負國高中生呢QQA:如果以為選好科系就會變成比爾蓋茲那不如退學吧 | 否 |
qingyun(青雲語料) | 10W | 某聊天機器人交流群 | 相對不錯,生活化 | Q:看來你很愛錢 A:噢是嗎?那麼你也差不多了 | 否 |
subtitle(電視劇對白語料) | 274W | 開源專案,來自爬取的電影和美劇的字幕 | 有一些噪音,對白不一定是嚴謹的對話,原本是多輪(平均5.3輪) | Q:京戲裡頭的人都是不自由的A:他們讓人拿籠子給套起來了了 | 否 |
tieba(貼吧論壇回帖語料) | 232W | 偶然找到的 | 多輪,有噪音 | Q:前排,魯迷們都起床了吧A:標題說助攻,但是看了那球,真是活生生的諷刺了 | 否 |
weibo(微博語料) | 443W | 來自華為的paper | 仍有一些噪音 | Q:北京的小純潔們,週日見。#硬漢擺拍清純照# A:嗷嗷大溼的左手在幹嘛,看著小純潔擼麼。 | 否 |
xiaohuangji(小黃雞語料) | 45W | 原人人網專案語料 | 有一些不雅對話,少量噪音 | Q:你談過戀愛麼A:談過,哎,別提了,傷心..。 | 否 |
語料名稱 | 語料原始URL(即出處,尊重原始版權) |
---|---|
chatterbot | https://github.com/gunthercox/chatterbot-corpus/tree/master/chatterbot_corpus/data/chinese |
douban(豆瓣多輪) | https://github.com/MarkWuNLP/MultiTurnResponseSelection |
ptt(PTT八卦語料) | https://github.com/zake7749/Gossiping-Chinese-Corpus |
qingyun(青雲語料) | 無 |
subtitle(電視劇對白語料) | https://github.com/fateleak/dgk_lost_conv |
tieba(貼吧論壇回帖語料) | https://pan.baidu.com/s/1mUknfwy1nhSM7XzH8xi7gQ 密碼:i4si |
weibo(微博語料) | 61.93.89.94/Noah_NRM_Data/ |
xiaohuangji(小黃雞語料) | https://github.com/candlewill/Dialog_Corpus |
使用方法
下載語料https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取碼:f2ex
將解壓後的raw_chat_corpus資料夾放到當前目錄下 目錄結構為
raw_chat_corpus -- language -- process_pipelines -- raw_chat_corpus ---- chatterbot-1k ---- douban-multiturn-100w ---- .... -- main.py -- ...
執行命令即可
python main.py
或者
python3 main.py
生成結果
每個來源的語料分別生成一個獨立的*.tsv檔案,都放在新生成的clean_chat_corpus資料夾下。
生成結果格式為 tsv格式,每行是一個樣本,先是query,再是answer
query \t answer
結果的使用
這個就根據每個人不同的情況自主使用即可
個人對於聊天機器人方向實踐也不是很多,以下一篇之前寫的知乎專欄供參考《從產品完整性的角度淺談chatbot》
https://zhuanlan.zhihu.com/p/34927757
文章粗略講解了如下一些方面,介紹了聊天機器人在實際產品化過程中可能遇到的問題和解決辦法。
- chatbot自身人格的設定
- 產品上線需要考慮的敏感詞處理
- 文字檢索模型的使用
- 文字生成模型的使用
- 回答打分機制
- 萬能回答的使用策略
- 多媒體訊息的處理
- 產品模型部署的問題
版權說明
本專案為非商業專案,為純蒐集和彙總資料,如有侵權,請在issue下留言。