大資料和AI分析在內容安全中的應用

大資料移動直播阿里巴巴 · 發表 2018-11-28 14:57:01

摘要：在中國政策下，網際網路得利者如何進行內容安全管理。簡訊，文章，直播視訊充斥著內容安全風險，提供的內容安全的核心能力，適用的核心場景，具體如下：場景一:UGC內容智慧稽核 UGC內容主要分為幾個場景。一個是會員區域，在網際網路場景中，會員區域的內容很多都需要進行管理。會員的頭像，會員的...

在中國政策下，網際網路得利者如何進行內容安全管理。簡訊，文章，直播視訊充斥著內容安全風險，提供的內容安全的核心能力，適用的核心場景，具體如下：

場景一:UGC內容智慧稽核

UGC內容主要分為幾個場景。一個是會員區域，在網際網路場景中，會員區域的內容很多都需要進行管理。會員的頭像，會員的名字以及會員的切屏。對會員資訊的更改是不允許的，所以說我們對會員區域的管理是必須要有的。另外一些互動類的，比如對發帖資訊進行管理檢測。第三是直播區域，如直播的封面，直播本身的視訊內容以及彈幕和互動的資訊。還有一部分是電商場景，這部分國家是有嚴禁的管控，比如菸草禁止在網際網路上售賣。所以我們在電商場景也提供內容安全的檢測和識別。商家的產品，產品描述需要通過管理，另外買家的買家秀也需要通過管理。另外一部分是新聞門戶，如果是通過自助的媒體進行釋出其實這一塊的風險是較少的，但是如果是通過第三方轉展的新聞，那麼需要對第三方的轉展內容進行內容稽核，以免對平臺造成進一步的風險。

場景二:垃圾簡訊/彩信

目前中國很多運營商的公司是做簡訊業務的分發和售賣。對於簡訊，我們也提供文字反垃圾等識別服務，違法內容識別，如廣告簡訊，賭博簡訊，促銷簡訊等。

功能一:智慧鑑黃

目前支援圖片和視訊的鑑黃功能，我們的識別準確率基本上達到99%的標準。其中分為純的色情，低俗等內容。通過國家政策的調控，我們是可以隨時調配標準的。

功能二:暴力涉政識別

我們支援暴力涉政的識別，目前包括武器，敏感人物，血腥場面，特定著裝，煙光場面以及特殊符號等的識別。

功能三:廣告識別

廣告識別的特色是多層防護，層次過濾，以最快的速度達到最大的效果。其中主要包括二維碼識別，OCR識別。我們可以把廣告中的文字提取出來，再過一遍演算法。

功能四:不良場景

主要可以支援識別畫中畫，無意義直播，抽菸，紋身，自殺等不良場景。每個場景採用獨立模型，解決了單一分類模型不同分類訓練的相互干擾，準確度不高等文通。

功能五：文字反垃圾

主要針對評論，正文，小說場景，文字場景。目前的技術除了關鍵詞的提取以外，還有深度學習，語義分析的技術。語義分析主要針對小說場景。

功能六:語音反垃圾

語音識別主要包括兩部分，一個是有語義，另一個是無語義。語音轉文字場景中可以使用文字反垃圾的模型。第二個是聲紋識別，主要在比較嘈雜的環境中識別違法的內容。

功能七:視訊/直播流綜合決策

這項功能主要包括兩部分。一個是視訊指紋識別，因為阿里積累了一個龐大的視訊庫，可以對視訊中的指紋進行匹配，命中快速返回。第二是常見的直播截幀的方式，通過不同頻度的截幀，多維綜合決策，反饋在什麼時間點出現了內容風險。

場景三：人臉定位

因為很多app有美顏的功能，化妝的功能。我們可以通過人臉識別功能，識別出人的姓名，性別，年齡，簡單描述以及能夠識別出敏感人物的臉。

場景四：人臉認證

利用人臉識別功能可以做到人臉認證，通常在實名認證的場景。比如說註冊認證，遠端開戶等場景。比如在深圳入住酒店都有識別人臉，看這個人是不是存在風險的。阿里提供人臉1：1的比對功能，核對是否與身份證一致。

場景五：人臉搜尋

阿里可以為教育，安防機構提供相關的人臉搜尋功能，比如前段時間的紅黃藍事件，幫助他們提示風險。另外在無人商店，餐飲做管理，識別風險。

目前我們的功能是1：N的搜尋，首先定位一個人臉，再從人臉庫中進行對比搜尋。

場景六：圖中文字抓取分析

垃圾廣告中做圖片文字分析，可以防止垃圾廣告的宣傳。另外票據資訊的提取，可以幫助稅務業務的執行。通過OCR功能，可以從很多圖片中提取不同的文字，繁體字，特殊字元等等。

場景七：特殊標識識別

很多標識被相關人士盜用了之後，無法保障使用者的版權，阿里可以提供特殊標識識別做到版權保護。另外直播場景中的競品屏障，如自己的直播場景中出現競爭對手的LOGO。使用LOGO檢測，支援任何定製化的LOGO訓練。

在不久的將來，多智時代一定會徹底走入我們的生活，有興趣入行未來前沿產業的朋友，可以收藏ofollow,noindex" target="_blank"> 多智時代 ，及時獲取人工智慧、大資料、雲端計算和物聯網的前沿資訊和基礎知識，讓我們一起攜手，引領人工智慧的未來！

大資料和AI分析在內容安全中的應用

您可能也會喜歡…