人工智慧實戰2019_第0次個人作業_鄒鎮洪
作業正文:
1. 描述你在這門課想要達到的具體目標。
- 掌握在在雲上部署機器學習模型的能力。
- 部分地藉助Azure或AWS完成一個實用app。
- 提高團隊合作coding的能力。
2. 描述你學過什麼計算機語言, 程式碼量大約是多少行。我們這次課程主要用 Python 語言, 請抓緊時間自學或鞏固你的Python 知識。
- Python:程式碼20k+行,主要包括一個關於商品推薦的專案。
- C:程式碼約4k行,主要是數值分析作業。
3. 如果你要和另外 4 - 5 名同學一起做一個小的 AI 專案,你有什麼想法,請描述一下。請按照這個NABCD 格式來寫你的專案建議。
我的構想專案是輔助視覺系統,但實現起來較為困難,暫認為以B中第2部分所述,先構建一個video to text的demo比較合適。
以下是NABCD內容:
1) N (Need 需求)
對於視障人員而言,目前主要輔助工具為導盲犬、陪護人員等具備視力的生物,但無疑這些服務均需要一定成本和時間進行培養,且仍在許多情況下不適用,比如導盲犬無法於盲人進行充分的資訊交流、陪護人員難以做到終生陪伴等。對於如夜晚等弱視環境而言,視覺輔助系統,如夜視鏡,也有著重要的工程應用。於此同時,各種視覺輔助穿戴裝置不斷湧現,如谷歌眼鏡等,說明這裡有一定的市場,而在計算視覺和自然語言處理技術的加持下它會發展得更好。
2) A (Approach 做法)
計劃分三部分達成,其中第2部分在3-5年達成內較為現實:
-
提高微型計算機計算能力
主要通過提高感測器精度和計算機實時影象處理能力達成,尤其是後者,需要解決當前CV和NLP技術在小規模機器(眼睛搭載微控制器)上以低能耗高速計算的能力,以及高能小型電池的研發。但還有一個替代方案,如果日後5G通訊和物聯網技術發展充分,也可以藉助街道攝像頭獲取街景資料,眼睛負責近距離影象,而資料全部上傳雲端,雲端模型完成訓練後傳回本地,好處是可以通過雲端的機器數量冗餘來暴力實現高速實時處理,特別適用於限制範圍的場景,如實景遊戲。 -
搭建video to text模型
現有演算法專注於文字理解、視訊實體識別、視訊分類等基本步驟,這些步驟的組合可以搭建一個粗糙的video to text模型,但該模型的複雜度過高,我們希望可以構建全新的end to end模型,並希望輸出為“自然對畫面的動態描述”而不是“機械地描述客觀環境狀態”,以模擬真人的對話效果。 -
實景測試並逐步推向市場
按科學實驗->康復醫療->工地應用->市場娛樂的步驟逐步開發產品,從醫療入手是因為醫療領域的需求最硬且對產品功能多樣化要求最低,最後進軍娛樂是因為娛樂市場對產品體驗要求最高,過早投入面臨較高的冷場風險。
3) B (Benefit 好處)
無疑,當前沒有任何一款裝置可以幫助視障患者恢復視覺,當前視覺輔助產品也僅限於雷達和紅外探測等初級感知智慧,無法適用於複雜的生活實景,也無法於使用者進行充分的資訊交流,如浙大在2017年的視覺輔助系統 。這款產品將為使用者帶來全新的體驗,在較大程度上讓盲人獲取外部視覺資訊。
但無疑,在當先微機計算能力、電池技術、人工智慧技術和行動通訊水平下,5年內仍看不到實現的可能,且產品在早期必然價格不菲。目前有可能實現的僅有第2部分。
但我相信這是一項重要的穿戴產品,隨著計算機視覺技術和智慧眼睛技術的發展終將出現,因此早期的技術累計是必要的。
4) C (Competitors 競爭)
產品競爭:現有的初級視覺輔助系統和AR裝置(遊戲領域);未來的腦機智慧裝置(直接與腦電訊號交流)
當前技術競爭:各大CV公司的視訊理解技術均為強大競爭,國內主要是位元組跳動、BAT,自動駕駛廠商也構成部分競爭。
5) D (Delivery 交付, Data 資料)
交付:已在A 中闡述,先從醫療合作入手。
資料:未進行調研,目前國內僅有浙大一家開發了盲人輔助視覺系統,2017年獲得600萬美元融資,估計競爭較少是技術問題。