“淨網2019”行動即將開始,企業如何做好內容安全?
近日,全國“掃黃打非”辦公室為貫徹落實2019年“掃黃打非”專項行動,從3月起開始大力組織開展“淨網2019”、“護苗2019”、“秋風2019”等專項行動,持續淨化社會文化環境。
值得關注的是,本次線上“掃黃打非”工作,將重點整治物件瞄準了包括自媒體、文學、直播以及學習類APP等場景。豐富大眾娛樂生活的直播 APP 快速發展,衍生出了眾多全新內容平臺,別有用心者嗅到機會,開始散播色情、暴力等“網路垃圾”。此外,網際網路流量的不斷增加,也使得網際網路“掃黃打非”工作難度不斷升級。面對此次國家新一輪的淨網行動號召, 直播 APP 等內容平臺何去何從?
梳理網際網路“掃黃打非”的歷程,不難發現出現了三次顯著的技術對抗更迭:
- 網際網路起步階段,網際網路鑑黃主要走“人肉攻略”,人工完成圖片鑑定工作;
- 隨著網際網路的發展,網路資料量驟增,以膚色識別演算法過濾“黃色”圖片成為了主流手段,機器鑑黃與人工鑑黃相互配合;
3.如今,到了移動網際網路階段,網路資料再次驟增,人工鑑黃已經很難適應如今的工作量,加上視訊、直播等業務的暴漲,純靠膚色識別演算法作為“過濾”的方式,已經過時。
好在人工智慧的適時出現,通過深度學習匹配處理龐大的資料資訊。
特徵提取+智慧識別,掃蕩“音檢視文”的黑暗角落
針對藏匿在網際網路“音檢視文”中的不良內容 , 騰訊雲天御 對色情、暴力、敏感等非法內容中提取的特徵,配合騰訊多年的內容安全經驗,針對不同形式的違規內容, 打造了一整套的高效識別引擎模組 。
首先,面對圖片內容會有相似度識別通過與過往的資料內容相比,判斷該圖片是否屬於違法範圍。如果命中將會給予客戶攔截的建議,否則將送到後續的智慧識別模組識別色情、暴力、敏感等非法內容。
針對視訊內容,騰訊雲天御會根據一定頻率擷取視訊圖片,得到視訊按幀記錄的圖片庫。去掉重複的和模糊的,提取關鍵因素的圖片送到產品後臺系統。之後對其採用圖片識別模組的操作,對其視訊內容進行判斷。
此外,在面對文字內容資訊時,騰訊雲天御通過智慧模型處理系統,對其包含的內容做檢測,識別其中是否包含色情、暴力、敏感等違法要素,給予迅速地攔截。
除了能夠檢測正常文字之外,還配置了強大的文字預處理系統對抗非法分子創造的惡意文字,有效地打擊了非法分子的惡意文字傳播行為,建立一個健康的檢測模型。
以 AI 正視聽,毫秒級識別不良音訊
道高一尺,魔高一丈。除了常見的圖片、視訊、文字等形式外, 音訊如今也成了垃圾內容的“主戰場” 。
當下,遊戲內語音交流已成常態,無論是手機遊戲中的音訊傳輸,還是通過語音及時通訊工具傳輸的音訊內容,都是音訊垃圾內容的災區。此外,在直播平臺直播過程中,也有違規音訊內容的傳播、傳遞,製造網路垃圾。
音訊內容往往時間短或是通道複雜等問題,難以分辨,隱隱成為當下“掃黃打非”的難點。
騰訊雲天御語音識別模組能夠對語音進行音訊分類和種子庫匹配等方式來過濾惡意音訊,同時還通過音轉文技術對樣本庫進行更新,達到精確識別語音的目的。
在具體技術上,騰訊雲天御採用了高效的 i-vector 系統保證較長音訊正確快速檢出,同時對資訊量不足的短音訊採用 DNN embedding 系統進行特定檢出,兩者互為補充,加上多種通道補償演算法的融合,同時保證了系統的識別效能和識別效果。
基於變長統計和深度學習混合的鑑黃系統, 騰訊雲天御可以做到0.02秒能夠識別1秒的音訊。
權威認證 騰訊雲天御守衛您的內容安全
騰訊雲天御針對網際網路不良內容的體系化識別能力,也獲得了國家的認可。2019年1月16日,在由中國資訊通訊研究院指導,雲端計算標準和開源推進委員會承辦,雲端計算開源產業聯盟支援的”嚴守紅線,共築安全-內容安全的管與控”的雲端計算安全沙龍上,中國資訊通訊研究院釋出了國內首批內容安全解決方案評估成果,騰訊雲成為首批通過試點評估測試的企業。
目前,騰訊雲天御已在多個行業被應用,守護近萬家客戶的內容安全,保障業務健康開展,守衛網際網路的一片淨土