財聯社9月6日訊(記者 劉超鳳)作為2022世界人工智能大會合作伙伴之一,數庫科技近日主辦了“數無疆·智無界”——數據智能論壇,并與會發布了基于產業鏈數據的SAM2.0產業數字化平臺。
包括產業鏈數據在內的基本面數據、短期市場情緒面數據,都是量化投資深度挖掘的另類數據,有助于提升量化策略的勝率,獲得更準的預測能力。目前,“數庫產業鏈圖譜”數據已掛牌上海數據交易所并開展相關交易。
【資料圖】
數據、算法、算力是人工智能核心三要素,也是量化投資的核心競爭力。在明汯投資合伙人、投資總監解環宇看來,任一要素出現明顯短板,則有可能錯失量化高速發展的機遇。明汯每年的投入都以指數級增長,“預計到今年年底,明汯在金融數據的應用場景下AI算力達到400P Flops。”
AI三要素不可有短板
明汯投資合伙人、投資總監解環宇認為,人工智能核心三要素(數據、算法、算力)在量化投資中都至關重要,三要素有效協同有助于量化投資策略持續有效迭代。若某一要素出現明顯短板,則有可能錯失量化高速發展的機遇。
算法是整個量化投資的核心。上世紀90年代前后,人工智能的概念和方法論開始引入量化投資領域,但大多以概念形式存在,實戰中仍以定價模型和統計方法為主流。從2000年開始,對沖基金開始使用更加復雜的預測模型。隨著技術和數據的積累,逐漸出現深度學習、強化學習等人工智能技術。2016年是重要的時間點,谷歌DeepMind開發的AlphaGo打敗世界圍棋冠軍李世石。這是轟動性事件,整個工業界、量化界加速把重心從統計學習、機器學習轉到更前沿的深度學習上。
目前,量化投資的主要模型包括因子挖掘模型、預測算法模型、組合優化及交易算法模型。“所謂因子挖掘模型,是把清洗好的數據做特征工程;做完因子工程之后,就去做預測模型,量化策略的本質就是做預測。”解環宇解釋稱。
模型的算法高度依賴算力。明汯投資早期只有幾臺CPU服務器,算是“小米加步槍”時代,目前已有大規模、高性能的計算集群,其間僅經歷五六年時間。
“2021年,我們自有的高性能計算集群已經位居世界超算排名TOP500榜單前列。預計到今年底,我們的計算集群將擁有1500張GPU卡、3萬CPU核、1Pb內存以及5Pb磁盤存儲,在金融數據的應用場景下AI算力達到400P Flops(每秒浮點運算次數)。”解環宇談到。
會上,解環宇還展示了其正在推行的量化投資AI框架,在他看來一個較為成熟的量化投資AI平臺應該具備兩大特質:前瞻性和高效迭代,前者體現在較為完善的頂層設計上,后者體現在多項目協同推進中。
量化挖掘新數據
在量化投資中,數據挖掘同樣重要。為了提高策略的效率,量化私募在最基礎的量價數據之上,挖掘基本面因子等另類數據。有的大型量化私募機構甚至雇專人管理“壞股票池”。
路博邁董事總經理、中國量化投資總監周平表示,在2008年金融危機前后,全球頂尖量化資金出現巨大回撤。彼時大資金由于金融危機而選擇撤回資金,而基于上市公司結構化數據(比如財務數據、交易數據、分析師相關數據)的量化策略具有高度相關性,導致大資金拋售時行業普遍出現大跌。于是很多機構更新迭代,采用了新數據或新算法。這些新數據分為兩類,第一類是反映短期市場情緒面的數據,比如新聞;第二類是深入產業鏈、非結構化的基本面數據。
基本面數據是量化私募非常看重的一類數據。不少量化私募開發基本面量化策略,這是典型的多因子模型,它將基本面因子與傳統量價因子結合,交易頻率較低但持倉周期較長。基本面因子的加入,也為模型帶來了更高的勝率和更準的預測能力,避免踩雷。
本次大會上數庫科技發布的SAM2.0產業數字化平臺,就是深入產業鏈的基本面數據“海洋”,擬合了整個中國經濟運轉。數庫科技創始人兼總裁沈鑫表示,SAM2.0描繪的是整個產業生態,把所有的產業鏈進行細切,切成元產業鏈。每個產品節點都連接了大量數據(包括企業、產能、政策等),每個產品節點都可被視為一個宇宙,這些小的“元宇宙”連接起來便形成了元鏈,而作為基本單位的元鏈就像樂高模塊一樣,通過信息的實時動態捕捉和連接,最終呈現出一個完整映射實體神經網絡的數據結構。
凡預測價格的數據皆重要
對于投資機構而言,任何與預測價格相關的數據都是重要數據。周平也遺憾地提到,“市場上真正用來預測資產價格的信息非常少。金融信息的最大缺點是低信噪比,即數據中噪音比例高,提取有效信號的難度比較大。雖然我們有海量數據,也有多樣化處理方式,但是結果最優才是最基本的原則。”
解環宇也認為,金融數據具有低信噪比、時序單調性的特點,相對比較復雜,處理金融數據時要非常注重邏輯,制造模型時也要強調避免過擬合。
微眾銀行AI投研負責人、資深人工智能科學家殷磊也介紹了公司在數據領域的探索。目前,微眾銀行使用大數據有兩個目標,一是做風險控制,二是進行投資。
人工智能和大數據在風險控制領域相對成熟。“微眾銀行從初期利用征信數據對企業或個人授信,逐漸演變到為信用記錄空白或單薄的企業或個人授信。整個過程中,除了采用稅務數據外,也使用用戶習慣數據來把控風險。由于數據的獲取比較零散,以及數據本身信噪比較低,把控好下沉程度和壞賬率的平衡尤為重要。”殷磊表示。
微眾銀行的投資以固收為主,主要跟蹤標的是利率以及企業信用風險。近三年利率波動很大。等待官方公布的GDP和PMI數據,在投資上相對滯后。“為了提前預知經濟發展趨勢,我們會使用先進手段捕捉到高頻數據并合成交易信息,納入利率跟蹤范圍。比如,獲取大多數停車場的使用率可以了解國內消費情況,或者跟蹤大部分鋼鐵廠鋼爐開工率了解上游鋼鐵生產情況等等。”殷磊表示。
可交易的數據產品
目前,數據是可以交易的,這一般是指數據產品,而非原始數據。2021年11月,上海數據交易所揭牌成立,并達成了部分首單交易。伴隨著上海數據交易所的成立,國內數據產品可以通過場內交易被定價,最終成為資產。
上海數據交易所副總經理韋志林表示,數交所為數據要素的流動提供了安全性,提高了效率,形成了場內估價體系,整個交易完成后形成從數據資源到數據產品,再到數字產品的逐次遞進過程。
在數據交易全過程中,要同時滿足數據來源、數據主體的合規性,減少數據流通中的可能風險。因此,數據服務商要對不同數據進行分類分級,并采取不同的確權和授權方式,確保數據來源的合規性。上海數據交易所制定了一整套規范體系,確保交易雙方在可信框架下進行數據交付。