J.P.摩根:《大數據和 AI 策略——面向投資的機器學習和另類數據方法》(摘要)

論文類別:計算機論文 > 互聯網研究論文
論文標簽:投資策略論文
上傳時間:2017/5/24 20:32:00

  (免費論文下載中心訊)J.P.摩根最新的280頁研究報告《大數據和AI策略——面向投資的機器學習和另類數據方法》,極為詳盡地梳理、評述、預測了對沖基金和投資者使用機器學習技術利用、分析另類數據的現狀與未來,對於一切關註這一新興大趨勢的人們、一切投資者都有重要的借鑒意義。

  大數據,特別是另類數據集的構建和利用,已經極大地改變了投資領域的面貌。對沖基金和其他經驗豐富的投資者日益增加了對“另類數據”(alternative data)的消費。只要可能影響投資決策但又不屬於市場統計數據和公司財報這類傳統信息的數據都稱為“另類數據”。

  不過,如果沒有內行的數據科學家,這類數據就難以使用,而且有時候並不可靠。對沖基金只是在最近才能獲得衛星圖像分析之類的數據,所以沒有多少歷史數據用來核實其價值。部分批評者認為,如此復雜的公司和經濟分析方法的好處被誇大了。

  就在前不久,微軟AI首席科學家、IEEE Fellow鄧力離開微軟,加盟對沖基金公司Citadel,擔任首席人工智能官(Chief Artificial-Intelligence Officer)。這條消息再次引發了人們對於AI技術、尤其是機器學習技術在金融投資領域應用的關註。

  J.P.摩根最新的280頁研究報告《大數據和AI策略——面向投資的機器學習和另類數據方法》,極為詳盡地梳理、評述、預測了對沖基金和投資者使用機器學習技術利用、分析另類數據的現狀與未來,對於一切關註這一新興大趨勢的人們、一切投資者都有重要的借鑒意義。我們節選了這一長篇報告非常小的一部分介紹給讀者朋友們。

  1、另類數據的可用以及分析這些數據的新定量技術——機器學習,正在成為競爭優勢的新來源

  大數據和機器學習“革命”:目前,聯網設備以電子方式獲得了大多數的記錄和觀察。這原則上允許投資者實時訪問廣泛的市場相關數據。例如,可用於評估通貨膨脹數百萬項目的在線價格,可以實時估計銷售量的商店訪問和交易的客戶數量,可以評估石油鉆井平臺或農業活動產量的衛星圖像。歷史上,類似的數據只能以低頻率(例如每月CPI、每周鉆機數量、美國農業部作物報告、零售銷售報告和季度收入等)提供。鑒於可用的數據量,有經驗的量化投資者在理論上可以接近獲得實時的某公司特定的數據,而這些數據不能從傳統的數據源獲得。在實踐中,有用的數據不容易獲得,需要購買,需要組織和分析另類數據集以提取可交易信號。大型或非結構化數據集的分析通常使用機器學習來完成。在設計定量策略方面,成功應用機器學習技術需要一定的理論知識和很多實踐經驗。

  在苦苦追尋Alpha(對於非金融領域的讀者,可以簡單地將Alpha理解為超額回報)的過程中,基金經理越來越多地采用量化策略。另類數據的可用以及分析這些數據的新定量技術——機器學習,正在成為競爭優勢的新來源。這種“數據的工業革命”旨在通過信息優勢和發現新的不相關信號的能力來提供Alpha。大數據信息優勢來自手機、衛星、社交媒體等新技術創造的數據。大數據的信息優勢與專家、行業網絡甚至企業管理能力不直接相關,更多體現的是收集大量數據並實時分析數據的能力。在這方面,大數據有能力深刻改變投資環境,進一步將投資行業趨勢從自由決定性轉變為量化投資風格。

  有三個趨勢使大數據革命成為可能:

  1)可用數據量的指數增加;

  2)提高計算能力和數據存儲容量的成本降低;

  3)分析復雜數據集的機器學習方法取得了進展。

  有許多經常使用的概念可以用於描述大數據,這裏我們給出最簡明的用來描述大數據的維度:

  大數據有三個重要的特征維度:

  體量:通過記錄、公報、圖表、文件等等收集並存儲的數據的規模,大數據的“大”的下限正在持續升高;

  速度:數據的發送和接收速度經常被作為大數據的顯著特征。大數據能夠批量傳送;大數據的獲取是實時的,或是接近實時的。

  多樣性:大數據經常具有多樣性的形式——結構化的(如SQL表格或CSV文件),半結構化的(如JSON或HTML),非結構化的(如博客或視頻信息)。

  2、另類數據集的分類

  在投資管理中,大數據革命的核心在於能夠提供具有信息優勢的數據資源。另類數據帶來的優勢可能是在於發現傳統的信息源中沒有包含的新信息,或者發現的是相同的信息,但是速度更快,時間更早。例如,礦井或者土地的衛星圖片能夠在媒體或者官方報告前,揭示供應短缺。

  我們旨在提供大數據的框架或分類。首先,我們根據數據的生成方式對數據進行分類。然後,我們考慮的是數據集的屬性,也就是與投資專業直接相關的,例如將數據集映射到資產類別或投資風格,alpha內容,數據質量,技術規格等。

  我們首先在高水平上對數據來源進行分類,指出它們到底是由個人(如社交媒體帖子)生成,還是通過業務流程(如電子商務或信用卡交易數據)生成,或由傳感器(比如衛星圖片、雷達等等)生成。這種一方法擴展了Kitchin(2015年)和聯合國報告(2015年)在非財務文本中早期的嘗試。雖然這種分類法在某種程度上只是理論上的,但是,在分析這三個類型的數據時,確實存在共同特征,分析方法和共同的挑戰。例如,個人生成的數據通常是非結構化的文本格式,需要自然語言處理。傳感器生成的數據往往是非結構化的,並且可能需要分析技術,例如計數對象,或消除天氣/雲從衛星圖像的影響。許多商業上生成的數據集,如信用卡交易和公司的“廢棄”數據都面臨共同的法律和隱私問題。

  在根據數據來源對數據進行分類之後,我們還要提供另一個投資人士可能更為感興趣的分類方法。一個零售版塊的投資組合經理可能更關心的是特定的銷售數據,而無所謂它們是衛星生成的還是消費者誌願填寫的。高頻交易者關心每天產生的數據,比如推特、最新發布等等,但不太關心有明顯延遲的信息,比如信用卡數據。在下圖這個“投資分類”中,我們為各種另類數據標示了不同的屬性,這些屬性和投資專業人士比如CIO、投資組合經理等高度相關。

  3、機器學習技術的分類:怎樣才算是人工智能

  大型和較少結構化的數據集通常不能用簡單的電子表格工作和散點圖進行分析。我們需要新的方法來解決新數據集的復雜性和規模。例如,使用金融分析師的標準工具不可能對非結構化數據(如圖像,社交媒體和新聞稿)進行自動分析。即使在大型傳統數據集上,使用簡單的線性回歸往往會導致過度擬合或不一致的結果。機器學習方法可用於分析大數據,以及更有效地分析傳統數據集。

  毫無疑問,機器學習技術在應用於圖像識別,模式識別,自然語言處理以及自動駕駛汽車等復雜任務時,產生了一些驚人的成果。那麽,機器學習在金融中的應用是什麽,這些方法相互之間有何不同?

  首先需要強調,任務的自動化不是機器學習。我們可以指示計算機根據固定的規則執行某些操作。例如,如果資產價格下降了一定量(止損),我們可以指示電腦出售資產。即使給機器(也稱為“符號人工智能”)大量復雜的規則,並不意味著就是機器學習,這只能說是任務的自動化。使用這個“符號人工智能”,機器在遇到與此前預編程的規則不匹配的情況時,只會選擇自我“凍結”。

  在機器學習中,給予計算機一個輸入(一組變量和數據集),輸出是輸入變量的結果。該機器然後發現或“學習”在輸入和輸出之間起到鏈接作用的規則。

  最終,這個學習任務的成功會被進行“樣本外測試”,也就是,在未知的情景下,測試它所獲得的這種連接變量和可能的預測結果之間的關系能力。

  機器學習可以是監督的或無監督的。在監督學習中,我們試圖找到一個規則,一個可以用來預測變量的“方程式”。例如,我們可能想要尋找一種能夠預測未來市場表現的能力(趨勢跟蹤)信號。這可以通過運行先進的回歸模型來評估哪一個具有較高的預測能力,並且對於regime變化最為穩定。

  在無監督學習中,我們發現了數據的結構。例如,我們可能獲得了市場回報,現在嘗試確定回報的主要驅動力。例如,一個成功的模式可能會揭示,在某個時間點,市場受動量因素、能源價格、美元水平以及與流動性有關的新因素的驅動。深度學習是一種機器學習方法,可以分析在多個層級上學習數據(因此“深度”)。我們經常說的自動化的目標是執行易於定義但執行起來乏味的任務,而深度學習AI系統的目標是執行難以定義但易於執行的任務。深度學習本質上與人們學習的方式更相似,因此是人為重建人類智慧的真正嘗試。

  深度學習用於非結構化大數據集的預處理(例如,它用於計算衛星圖像中的汽車,識別新聞稿中的情緒等)。在假設的財務時間序列示例中,深度學習預測(或估計)了市場修正的概率。我們可以將大量的數據集輸入到深度學習模型中。該模型可能首先確定一些對市場產生負面影響的簡單特征,例如動量崩潰,波動性增加,流動性下降等。這些因素單提出來可能不會導致市場糾正(market correction)。此外,算法可以識別這些簡單特征之間的模式和它們之間的非線性關系。從這些模型中,它可以構建更復雜的特征,如EM驅動災難(EM driven crises),財務壓力,這些最終可能導致更為顯著的市場糾正(market correction)甚至衰退。

  4、在另類數據中實施機器學習的主要步驟

  鑒於風險和不確定的回報,許多投資者都在思考何時應該采用更具量化性的、數據驅動型的投資方法。首先我們簡要概述實施過程中的主要步驟(例如有多少需要外包、內部構建大數據/機器學習所需的人才、典型的技術設置等等)。

  首先需要識別和獲取數據。數據采集團隊可以直接通過數據所有者/供應商或聚合第三方數據的專業公司(並與供應商和最終用戶相匹配)來獲取新數據源的使用權。一旦許可協議到位,數據需要存儲和預處理。大數據很少呈現出幹凈的形式,一般都無法直接提供給機器學習算法使用。需要專門的團隊預處理數據(例如檢測異常值、缺失值等)。數據科學團隊由量化研究人員組成,借助機器學習、反向測試策略和可視化技術分析數據,根據數據推導出可交易信號或見解。最後,信號由投資組合經理實施,或者在某些情況下以自動化方式執行(這將涉及到系統的另一層和將信號鏈接到執行系統的軟件專家)。

  我們認為,大數據與機器學習革命將深刻改變投資環境。隨著越來越多的投資者采用大數據,市場的反應將更快,並將越來越多地期待傳統或“舊”數據源。這將為量化經理和願意采用和了解新數據集和分析方法的人們提供優勢。那些不學習、拒絕進化的人將面臨過時的風險。不管這些變化的時間表如何,我們認為,分析師,投資組合經理、交易者和首席信息官最終將不得不熟悉大數據和機器學習的發展和相關的交易策略。(來源:J.P.摩根 編選:中國電子商務研究中心)

全文鏈接:《大數據和 AI 策略——面向投資的機器學習和另類數據方法》

下载论文

論文《J.P.摩根:《大數據和 AI 策略——面向投資的機器學習和另類數據方法》(摘要)》其它版本

互聯網研究論文服務

網站聲明 | 聯系我們 | 網站地圖 | 論文下載地址 | 代寫論文 | 作者搜索 | 英文版 | 手機版 CopyRight@2008 - 2017 免費論文下載中心 京ICP备17062730号