那個20多萬“不可描述”照片的資料集,有人用它做了鑑黃模型 | Demo
編者按:本文來自 量子位 ,作者三井,發自凹非寺。
有人上手了!
近日, GitHub出現一個名為“NSFW Model”的專案。通俗一點來說,就是一個鑑黃模型。
這個模型,使用的資料來自前不久量子位介紹的那個資料集,內含多20萬張“不可描述”圖片。
同時,這個模型也被專案的貢獻者做成了Demo。
既然有了Demo,那肯定是免不了測試一番……
Demo效果
Demo網站十分簡單,進去之後能做什麼一目瞭然。
上傳圖片之後,是自動給出結果,不需要點選其他按鈕。但有時候不會給出結果…..還有待完善。
結果是資料集中提到的5種類別的可能性。分別是:hentai、sexy、neutral、drawings、porn。具體每個類別代表的意思,如下圖所示:
好了,開始第一個測試:
這個圖有71%的可能性是hentai;16%的可能性是porn。你覺得準嗎?
再來一個:
71%的可能性是sexy。
但下面這個,就有點不好說了。
porn到了76%,19%是hentai。按照這個標準,《超體》別想正常上映了……
但整體上,這個模型還是能工作的,比如整個漫畫,就很好的識別出來了,比如其他的一些,也能識別出來(但圖片就不好放了)。
至於準確率怎麼樣,沒法給出定論。如果你有興趣,可以去體驗下這個Demo。地址:
http://ai.midday.me/
話說話來,看到這個模型,你有沒有想自己上手體驗一下?GitHub有相關的開原始碼。
請收好專案地址:
https://github.com/rockyzhengwu/nsfw
最後,資料集地址:
https://github.com/alexkimxyz/nsfw_data_scrapper
One More Thing
在Demo網站的下方,寫了一句愛因斯坦的話:
Two things are infinite: the universe and human stupidity; and I’m not sure about the universe.
只有兩樣東西是無限的,就是宇宙,還有人類的愚蠢,不過我對前者還沒什麼把握。