大資料和AI分析在內容安全中的應用
在中國政策下,網際網路得利者如何進行內容安全管理。簡訊,文章,直播視訊充斥著內容安全風險,提供的內容安全的核心能力,適用的核心場景,具體如下:
場景一:UGC內容智慧稽核
UGC內容主要分為幾個場景。一個是會員區域,在網際網路場景中,會員區域的內容很多都需要進行管理。會員的頭像,會員的名字以及會員的切屏。對會員資訊的更改是不允許的,所以說我們對會員區域的管理是必須要有的。另外一些互動類的,比如對發帖資訊進行管理檢測。第三是直播區域,如直播的封面,直播本身的視訊內容以及彈幕和互動的資訊。還有一部分是電商場景,這部分國家是有嚴禁的管控,比如菸草禁止在網際網路上售賣。所以我們在電商場景也提供內容安全的檢測和識別。商家的產品,產品描述需要通過管理,另外買家的買家秀也需要通過管理。另外一部分是新聞門戶,如果是通過自助的媒體進行釋出其實這一塊的風險是較少的,但是如果是通過第三方轉展的新聞,那麼需要對第三方的轉展內容進行內容稽核,以免對平臺造成進一步的風險。
場景二:垃圾簡訊/彩信
目前中國很多運營商的公司是做簡訊業務的分發和售賣。對於簡訊,我們也提供文字反垃圾等識別服務,違法內容識別,如廣告簡訊,賭博簡訊,促銷簡訊等。
功能一:智慧鑑黃
目前支援圖片和視訊的鑑黃功能,我們的識別準確率基本上達到99%的標準。其中分為純的色情,低俗等內容。通過國家政策的調控,我們是可以隨時調配標準的。
功能二:暴力涉政識別
我們支援暴力涉政的識別,目前包括武器,敏感人物,血腥場面,特定著裝,煙光場面以及特殊符號等的識別。
功能三:廣告識別
廣告識別的特色是多層防護,層次過濾,以最快的速度達到最大的效果。其中主要包括二維碼識別,OCR識別。我們可以把廣告中的文字提取出來,再過一遍演算法。
功能四:不良場景
主要可以支援識別畫中畫,無意義直播,抽菸,紋身,自殺等不良場景。每個場景採用獨立模型,解決了單一分類模型不同分類訓練的相互干擾,準確度不高等文通。
功能五:文字反垃圾
主要針對評論,正文,小說場景,文字場景。目前的技術除了關鍵詞的提取以外,還有深度學習,語義分析的技術。語義分析主要針對小說場景。
功能六:語音反垃圾
語音識別主要包括兩部分,一個是有語義,另一個是無語義。語音轉文字場景中可以使用文字反垃圾的模型。第二個是聲紋識別,主要在比較嘈雜的環境中識別違法的內容。
功能七:視訊/直播流綜合決策
這項功能主要包括兩部分。一個是視訊指紋識別,因為阿里積累了一個龐大的視訊庫,可以對視訊中的指紋進行匹配,命中快速返回。第二是常見的直播截幀的方式,通過不同頻度的截幀,多維綜合決策,反饋在什麼時間點出現了內容風險。
場景三:人臉定位
因為很多app有美顏的功能,化妝的功能。我們可以通過人臉識別功能,識別出人的姓名,性別,年齡,簡單描述以及能夠識別出敏感人物的臉。
場景四:人臉認證
利用人臉識別功能可以做到人臉認證,通常在實名認證的場景。比如說註冊認證,遠端開戶等場景。比如在深圳入住酒店都有識別人臉,看這個人是不是存在風險的。阿里提供人臉1:1的比對功能,核對是否與身份證一致。
場景五:人臉搜尋
阿里可以為教育,安防機構提供相關的人臉搜尋功能,比如前段時間的紅黃藍事件,幫助他們提示風險。另外在無人商店,餐飲做管理,識別風險。
目前我們的功能是1:N的搜尋,首先定位一個人臉,再從人臉庫中進行對比搜尋。
場景六:圖中文字抓取分析
垃圾廣告中做圖片文字分析,可以防止垃圾廣告的宣傳。另外票據資訊的提取,可以幫助稅務業務的執行。通過OCR功能,可以從很多圖片中提取不同的文字,繁體字,特殊字元等等。
場景七:特殊標識識別
很多標識被相關人士盜用了之後,無法保障使用者的版權,阿里可以提供特殊標識識別做到版權保護。另外直播場景中的競品屏障,如自己的直播場景中出現競爭對手的LOGO。使用LOGO檢測,支援任何定製化的LOGO訓練。
在不久的將來,多智時代一定會徹底走入我們的生活,有興趣入行未來前沿產業的朋友,可以收藏ofollow,noindex" target="_blank"> 多智時代 ,及時獲取人工智慧、大資料、雲端計算和物聯網的前沿資訊和基礎知識,讓我們一起攜手,引領人工智慧的未來!