基於文字挖掘技術的證券智慧監管專案
文 / 深圳證券交易所 許保勳
近年來,迅速發展的大資料、雲端計算、移動互聯技術受到了社會各方的重視。 以大資料為支撐的網際網路與各領域的深入融合發展具有廣闊前景和無限潛力,已成為不可阻擋的時代潮流,將對我國經濟社會發展產生著戰略性和全域性性的深遠影響。
基於各類文字等非結構化、結構化資料進行決策將變成各行各業的主要資訊應用模式,大資料及其處理技術將成為企業的核心價值和技術領先標誌。金融市場尤其是資本市場表現得更為明顯。首先,資本市場資訊流的主體是文字資訊,“網際網路+”背景下的文字資訊量及傳播模式對監管工作形成的挑戰凸顯,證券價格受資訊驅動的影響更為明顯,只有在對資訊流的運作有相當程度理解的基礎上,才能實現風險管理、政策模擬、市場效應等深層次的監管和服務。其次,目前不管是市場主體還是監管當局,近年來,隨著大資料和網際網路的快速發展,各類網路資訊大量聚集並迅速傳播,對證券價格的影響程度和頻繁度越來越大,尤其是在2015年股市的異常波動中表現得更為明顯,對監管工作形成嚴峻的挑戰。面對資訊驅動模式下經濟、金融風險監測工作的嚴峻形勢。 如何對非結構化的文字資訊進行分析並用於監管已經成為監管當局必須解決的問題和技術攻關專案。
促進科技監管,加強智慧應用
基於文字挖掘技術的證券智慧監管專案以推進監管轉型、提升服務質量為總體目標,緊緊把握大資料時代下證券市場監察、上市公司監管、網路輿情監控的資訊服務需要,側重於對資訊的快速加工、精準反應應用。 專案以“文字資訊資料庫”為基礎構建架構,結合監管轉型業務需要,推進完成“搶帽子交易操縱網路資訊監測系統”“資訊披露直通車公告類別整合系統”和“智慧資訊服務系統”等創新應用專案。 專案正式啟動以來,三個創新應用專案有效地提升了大資料市場監察水平和上市公司資訊披露智慧化水平,在證券監管系統內形成了良好的示範效應,促進系統內文字挖掘智慧監管平臺的建設。
“文字資訊資料庫” 的目標是打造企業級市場資訊儲存和服務平臺。 構建統一的資訊蒐集、加工處理和分析、資訊服務、評價反饋於一體的資訊管理資訊化智慧服務平臺,通過整合資訊蒐集渠道和改進資訊收集效率,提高對重要資訊採集處理的及時性和有效性,實現對多種型別資訊源的採集、分類和儲存,建立共享性好、安全性好、可擴充套件的資訊資源庫。
“文字資訊資料庫” 為市場異常波動期間交易所監控市場風險、分析市場資訊傳播情況提供了有效的資料支援。 在市場異常波動之前,基於專案成果每日快速把握市場熱點、公司公告、分析師研報、大V言論、網路輿情等情況,深入分析市場特別是創業板的快速大幅上漲情況,以及各種可能的風險因素。市場異常波動期間,結合微信、微博等新媒體資訊傳播特點,挖掘引起市場恐慌負面資訊線索,為管理層制定救市對策提供了有效的資料支援。
“搶帽子交易操縱”是指證券公司、諮詢機構、專業中介機構及其工作人員,買賣或持有相關證券,並對該證券或其發行人、上市公司公開做出評價、預測或者投資建議,以便通過期待的市場波動取得經濟利益的行為。“搶帽子交易操縱網路資訊監測系統”旨在利用文字挖掘技術進行證券市場監控的嘗試,通過對文字挖掘技術(包括證券行業領域知識庫的構建、財經類文字特徵的篩選、文字分類演算法的構建、文字資訊抽取方法)研究,構建包含文字資訊和市場資料資訊的綜合市場監控模型,逐步探索積累文字挖掘在金融證券領域的應用經驗,為防範和打擊證券違法犯罪行為起到重要作用。通過“搶帽子交易操縱網路資訊監測系統”推送的薦股資訊,同時結合賬戶交易資料,開展了大量搶帽子交易異常賬戶識別工作,有效打擊了投資者在薦股前買入薦股後賣出、買入推薦股票比重大、買入推薦股票放量等各種異常交易行為,有效遏制了市場操縱等違法違規行為。
“資訊披露直通車公告類別整合系統”採用歷史公告文字資料構建了公告“自動標註機”過濾獲取公告類別訓練資料檔案,採用改進後的機器學習方法(層次分類演算法)構建公告文字分類器(如重大資產重組、股東大會等類別公告)。各類公告分類器測試樣本召回率達99%以上,有效地排除了多起上市公司直通披露錯誤類別標註風險,杜絕了類別標註錯誤可能造成的巨大社會影響,對交易所公司監管提供了有力支援。
“智慧資訊服務系統”以網路新聞、電子報、股吧、部落格、微信、微博、互動易、券商研究報告和上市公司公告為收集物件,按照公司監管、市場監察、市場分析、輿情監測的業務需求對相應的文字資料進行分類標識、熱度分析和情感分析,幫助監管員事前提示監控重點、事中進行快速監控分析,事後進行違規深度分析,有效提升交易所一線監管效率,全面提高交易所風險監測和預研預判的科技監管能力。
技術創新,從更迭中找突破口
敢做第一個吃螃蟹的人。大資料時代下,證券監管工作中需要處理大量非結構化資訊,目前主要以人工處理為主,經常面臨監管廣度不足、深度不足、效率低下等問題。基於文字挖掘的證券智慧監管專案為在證券監管系統內較早引入文字挖掘大資料技術,實現了證券市場交易監察、上市公司監管、資訊披露、輿情監控等的智慧化處理,拓寬了傳統的基於結構化和市場資料的市場監管模式,為我國證券監管提供了全新的市場監管模式,標誌著證券監管全面進入大資料時代。
行業自然語言處理技術需要突破。中文自然語言處理技術是中文文字挖掘的難點,中文的複雜是從分詞就開始的,斷句和語調不同意思會完全不同。海外沒有相關經驗可借鑑,國內也沒有相關的針對證券行業的現成技術,以致文字資訊分類、關鍵資訊提取等資訊加工處理也無法做好。 基於文字挖掘的證券智慧監管專案在自然語言處理技術方面有三個突破: 一是 較早構建了中文較完備的證券金融領域專業詞庫; 二是 自主研發“詞彙區分度”和“覆蓋面”抽取特徵指標演算法,構建出高質量的薦股特徵關鍵詞庫; 三是 結合證券類文字行文特點,構建出具有層次的文字分類演算法和非結構化資訊抽取策略。 上述三個突破融合語言學、金融學、統計學、計算機技術等交叉學科,創造性地實現自然語言處理的突破,並具有良好的通用性,成功地將文字資訊等大資料技術應用於市場監管領域。
創造性地利用文字挖掘技術打擊證券違法行為。通過搶帽子交易操縱網路資訊監測系統、資訊披露直通車公告類別整合系統、智慧資訊服務系統等文字挖掘應用, 一是創造性地從海量網路資訊中挖掘對股價有重要影響的資訊, 提升本單位對股價異動事前預警的自動化水平; 二是對資訊操縱類案件, 利用文字分析和資訊抽取在網路上進行違規行為證據的收集; 三是結合網路資訊挖掘結果與成交量、股價、波動率等市場交易資料, 為違規可疑案件進行篩選,能有效提高監管系統預警效率; 四是實現了資訊披露中資訊類別的自動化識別與糾正, 降低了市場操作風險,提高了市場監管水平。
圖 文字資訊資料庫技術架構和運用規劃
行業內率先構建了統一的文字資訊資料庫基於證券監管機構的視角,利用交易所在資料資源的優勢以及在證券領域的專業地位,率先構建了集資訊蒐集、加工處理、智慧分析、資訊服務於一體的文字資訊資料庫平臺,促進了監管轉型,降低了監管成本,全面提高監管工作的智慧化水平。
宣告:本文來自安全內參,版權歸作者所有。文章內容僅代表作者獨立觀點,不代表安全內參立場,轉載目的在於傳遞更多資訊。如需轉載,請聯絡原作者獲取授權。