五杀电影院信息技術有限公司
 
 

Chinaledger技術委員會主任白碩:智能金融,你準備好了嗎?

 
 

    編者按:

    一段時間以來,人工智能的概念又熱了起來,這股熱潮在金融領域也有很多表現。在曆史上,人工智能曾經有過幾波熱潮和熱潮之後的冷卻期。在中國科學院大學金融科技研究中心主任、五杀电影院董事長劉世平博士主編的《大數據在金融行業實用案例剖析》中,由Chinaledger技術委員會主任、前上海證券交易所總工程師白碩博士編寫的《智能金融:你準備好了嗎?》一文,將為讀者回顧一下人工智能的冷熱史,有助於我們正確認識眼下這股人工智能熱的實質,開創智能金融的新局麵。

    一、 人工智能曆史

    (一)第一波熱潮

    從1956年達特茅斯會議正式確立人工智能學科起,第一波熱潮中的很多成果已經寫進了教科書,包括能夠進行線性分類的感知機、會自我學習的跳棋機、會跟人類東拉西扯的自然語言對話程序Aliza、會在積木世界中根據自然語言指令操縱積木塊的SHRDLU係統以及號稱適合人工智能編程的LISP語言等。從今天的角度看,除了LISP語言之外,這些係統充其量可以稱之為玩具係統。終結這波熱潮的殺手鐧成果,是馬文明斯基關於“異或”邏輯不可能用感知機實現的論斷。此後,人工智能大體上結束了玩具係統的時代。進入低潮。

    (二)第二波熱潮

    第二波熱潮的緣起,歸功於“專家係統”的部分成功。在醫學、石油勘探等領域使用人類專家的領域知識和經驗,將之在計算機內形式化表示並進行有限度的推理,取得了一定的進步,增強了人工智能脫離玩具時代、進入實用時代的信心。這種信心從美國跨越太平洋傳播到日本,使日本的計算機科學界為之振奮,弄出了一個聚焦計算機邏輯推理能力的名為“第五代計算機”的龐大計劃。我們不否認這個計劃對於提振日本在計算機科學技術領域水平的重要作用,但從整體上說,這個計劃是失敗的,甚至可以說是學術領域的一個知名度很高、負麵影響很廣的巨大泡沫。隨著機器推理能力的提升遇到計算理論上難以克服的本質性局限以及用傳統思路處理以圖像、語音的識別和自然語言理解等典型的所謂“非良定義問題”效果不佳的困擾,這個泡沫最終破裂,人工智能再次陷入低潮。

    (三)熱潮原因

    這一波人工智能熱潮的來襲,牽動了更加廣泛人群的神經。在產業界,各種“大腦”、各種機器人項目比翼齊飛。在投資界,所謂“人工智能概念股”首次在資本市場登堂入室。在學術界,真腦、仿腦、電腦的研究者都認為自己對人工智能的話語權當仁不讓。在傳媒界,各種跟人工智能有關的八卦、科幻和過敏性恐慌聳人聽聞。究其原因,一是硬件的進步使得機器的計算、存儲、傳輸等性能均有了數量級的提升,仿神經器件的研製也有了突破性進展;二是算法的進步使得“深度學習”的方法大行其道,在讓計算機獲得圖像、語音識別和自然語言處理等非良定義問題的模型方麵有了實質性的進步;三是大數據的積累使得機器學習不再是無源之水無本之木,而成為了提升實用效果的主要依靠;四是神經科學、認知科學、生命科學甚至物理學的各路學者麵對深度學習的成功全都不甘寂寞,紛紛將焦點和研究資源對準人工智能。


    (四)熱潮表現


    “深度學習”方法促成計算機應對“非良定義問題”的能力全麵提升,是最為要害的關鍵所在。什麽是“非良定義問題”?

    總的說來,“非良定義”問題具有以下三個特點:(1)整體性。局部雖然不確定性較大,但這樣的局部所組成的整體不確定性卻相對較小。(2)主觀性。局部的物理信號說了不全算數,不同個體之間存在著個體差異。(3)模糊性。模式之間不存在截然的邊界,無法用公式、規則進行形式化定義,簡單規則隻能覆蓋少數情形,其餘則是各種“長尾”。

    用機器學習的方法應付“非良定義”問題,可以概括為在三個空間、三個階段組合而成的九宮格,見下圖:


    三個空間依次是問題空間、特征空間和解空間。其中,原始在問題空間表示,對問題的表示進行適合機器學習的轉換和近似後進入了特征空間(一般是歐氏空間),問題的解則放到解空間表示。學習的三個階段依次是建模、調參和運行。建模確定問題表示的一般框架,即問題“長什麽樣”;調參確定問題表示中的細節待定參數;運行則是學習結束後解決問題的程序。其中,建模需要較強的洞察力,而調參則可以在已有標注的樣本數據基礎上交給機器學習算法進行。

    從上麵的分析不難看出,非良定義問題的解決,與良定義問題的解決相比存在一定的風險:建模有可能失真;采樣有可能造成分布誤差;標注可能有錯誤;學習有可能“過擬合”。但是,隻要這些風險被控製在一定可容忍範圍內,就不妨礙其結果的應用。人工智能的第三波熱潮,主要地是依靠非良定義問題的解決方案達到了應用相對可容忍的成熟水平而興起的。

    回顧曆史是為了麵向未來。為了更加直觀地解釋我們對人工智能未來的發展方向的預判,讓我們先來看一下從“計算的難易程度”和“表示的清晰程度”兩個維度繪製的“人工智能研究領域參考圖譜”。


    從這張圖上可以清楚地看到:人工智能第一波熱潮,首先突破了左上角,也就是計算上相對容易、表示上相對清晰的一些“玩具係統”。人工智能第二波熱潮,突破了計算上難度適中、表示上基本清晰的一些領域,如公式推導、專家係統、智能控製等,但在向左、向下兩個方向都遭遇了瓶頸。人工智能第三波熱潮,率先向右下角突破,使語音識別、圖像識別和淺層自然語言理解達到了基本實用化的水平。剩下來難啃的骨頭,在右下角有深層自然語言理解、情感與自我意識,在右上角有推理和規劃,在中路有常識獲取。我們的預判是:對於良定義問題,將以常識獲取為樞紐從“硬算”轉而向“巧算”做文章;對於非良定義問題,將更多地從淺層走向深層、從靜態轉向動態、從調參轉向建模。基於歐氏空間的特征表示有可能進一步引入時序,使基於統計的方法和基於規則的方法達成新的統一和互補。

    二、金融領域智能應用


    (一)金融監管

    2016年我國股市出現了重大的異常波動的一個直接的起因就是高杠杆場外配資的崩盤。而場外配資發展到足以引發連鎖反應的程度,包括交易所在內的核心機構對其規模缺乏及時的掌控和判斷。從事後分析看,首先,涉及場外配資的賬戶和不涉及場外配資的賬戶,在交易行為模式上是有很大差異的。試想,如果采用人工智能特別是機器學習的大數據分析技術,對兩類賬戶做出有意義的區分,從而動態掌握場外配資的人數規模和資金規模,我們就可以對平倉警戒線提前做出預判,避免踩踏現象的發生。其次,已經做大的場外配資業務,在輿情上已經有很多表現,拉配資的廣告充斥網絡,關於配資業務的包括杠杆率在內的各類細節描述鋪天蓋地。如果采用人工智能特別是自然語言處理、情感分析等技術,對場外配資業務在輿情上的表現及早進行分析處理,對已經接入配資的交易通道體現在輿情上的蛛絲馬跡進行定向搜尋,我們就可以及早發現場外配資的業務模式和接入方式提前做出預判,趕在風險集中爆發之前打掉這個毒瘤。再有,現貨和期貨交易所之間存在著複雜的業務聯動關係和套利模式,一些明顯違規的程序化交易策略也都具體化為可追蹤、可識別的微觀執行模式。如果采用人工智能特別是時間序列深度分析技術,我們就可以對惡意做空勢力實施高效識別和精準打擊。所以,場內的曆史數據、場外的非結構化數據以及跨交易所融合的實時交易數據如能充分利用起來,輔之以人工智能的手段,可以提高智能監管的水平,防患於未然。

    (二)金融非現場業務

    以開戶為例,非現場開戶具有很好的便捷性,可以大大提升用戶體驗。但是,遠程“刷臉”被認為有較高信息安全風險,被監管部門叫停。其實,刷臉的最大問題,是不能準確識別對麵的影響是來自文件還是真人,真人是戴的麵具還是真實肌膚。所以,在遠程刷臉的同時,如果能輔之以自然語言對話等手段,讓用戶從不同通道、不同角度自證與經營機構共享的秘密,對用戶真實身份的確認,風險性就會大大降低。

    (三)金融客戶培訓

    我們上交所為了推出期權業務,編寫了很多教材供培訓使用。但無論是教學環節、練習環節還是考試環節,手段都是傳統的,沒有發揮出信息時代特別是人工智能的威力。

    如果采用人工智能當中的知識圖譜技術,把題目的知識點和學員對知識點的掌握情況都用知識圖譜來表示,就可以實現智能化教學、因材施教,提升培訓的信息化、智能化水平,提高教學效果,也便於學員自學。

    三、智能金融崛起

    總而言之,隨著人工智能技術的進展及其向各個應用領域的滲透,我們稱之為“智能金融”的新型業態正在崛起。它充分對接移動互聯基礎設施,充分利用業務大數據,合理吸納機器學習、自然語言處理、知識圖譜等人工智能技術,貼近用戶主動服務,進而獲得對金融業務更加深刻的理解,形成一個不斷自我正反饋的良性循環。我們應該積極做好技術、業務和客戶準備,迎接智能金融時代的到來。

 
 

時間:2017年8月31日

 
    返回