定 價:256 元
叢書名:互聯(lián)網(wǎng)背景下金融創(chuàng)新與風險管理若干基礎理論與方法系列專著
- 作者:(英) 亞歷山大·德涅夫等著
- 出版時間:2023/7/1
- ISBN:9787030738646
- 出 版 社:科學出版社
- 中圖法分類:F830.41
- 頁碼:380
- 紙張:膠版紙
- 版次:1
- 開本:16開
本書基于金融領域的另類數(shù)據(jù), 提供了機器學習方法和數(shù)據(jù)源的實用概述。首次對另類數(shù)據(jù)進行了全面闡述, 為另類數(shù)據(jù)價值研究能夠系統(tǒng)地呈現(xiàn)在讀者面前提供了完美體驗。全書分為另類數(shù)據(jù)基礎與理論、另類數(shù)據(jù)的實際應用兩個部分。作者多方闡述了另類數(shù)據(jù)的發(fā)展與挑戰(zhàn), 提供了大量有價值的案例研究和實際例子。為讀者提供利用另類數(shù)據(jù)獲益的理論與方法, 同時也是讀者避開另類數(shù)據(jù)中復雜的理論與技術(shù)陷阱的指南。
更多科學出版社服務,請掃碼獲取。
目錄
第一部分 簡介與理論
第1章 另類數(shù)據(jù):現(xiàn)狀 3
1.1 引言 3
1.2 什么是“另類數(shù)據(jù)”? 5
1.3 另類數(shù)據(jù)的分類 6
1.4 另類數(shù)據(jù)的特征 8
1.5 為什么選擇另類數(shù)據(jù)? 10
1.6 誰在用另類數(shù)據(jù)? 13
1.7 策略容量與另類數(shù)據(jù) 15
1.8 另類數(shù)據(jù)的維度 17
1.9 誰是另類數(shù)據(jù)的供應商? 21
1.10 買方對另類數(shù)據(jù)集的使用 23
1.11 小結(jié) 24
第2章 另類數(shù)據(jù)的價值 25
2.1 引言 25
2.2 投資價值的衰減 25
2.3 數(shù)據(jù)市場 27
2.4 數(shù)據(jù)的貨幣價值(第一部分) 29
2.5 評估(另類)數(shù)據(jù)策略,包括或不包括回溯測試 33
2.6 數(shù)據(jù)的貨幣價值(第二部分) 36
2.7 成熟另類數(shù)據(jù)集的優(yōu)勢 42
2.8 小結(jié) 43
第3章 另類數(shù)據(jù)的風險與挑戰(zhàn) 44
3.1 數(shù)據(jù)中的法律問題 44
3.2 使用另類數(shù)據(jù)的風險 46
3.3 使用另類數(shù)據(jù)的挑戰(zhàn) 47
3.4 匯總數(shù)據(jù) 53
3.5 小結(jié) 54
第4章 機器學習技術(shù) 55
4.1 引言 55
4.2 機器學習:定義和技術(shù) 55
4.3 選擇哪種技術(shù)? 77
4.4 機器學習技術(shù)的假設和局限性 79
4.5 結(jié)構(gòu)化圖像 83
4.6 自然語言處理 87
4.7 小結(jié) 97
第5章 另類數(shù)據(jù)的使用過程 99
5.1 引言 99
5.2 進行另類數(shù)據(jù)之旅的步驟 100
5.3 組建使用另類數(shù)據(jù)的團隊 108
5.4 數(shù)據(jù)供應商 110
5.5 小結(jié) 112
第6章 因子投資 113
6.1 引言 113
6.2 因子模型 114
6.3 橫截面和時間序列交易方法之間的區(qū)別 120
6.4 為什么要進行因子投資? 120
6.5 使用另類數(shù)據(jù)輸入的智能Beta指標 121
6.6 ESG因子 122
6.7 直接和間接預測 123
6.8 小結(jié) 125
第二部分 實 際 應 用
第7章 缺失數(shù)據(jù):背景 129
7.1 介紹 129
7.2 缺失數(shù)據(jù)的分類 130
7.3 缺失數(shù)據(jù)處理的文獻綜述 132
7.4 小結(jié) 143
第8章 缺失數(shù)據(jù):案例研究 144
8.1 引言 144
8.2 案例研究:在多個CDS時間序列中插補缺失值 145
8.3 案例研究:衛(wèi)星圖像 166
8.4 小結(jié) 170
8.5 附錄:MICE程序概述 171
8.6 附錄:本章使用的軟件庫 172
第9章 離群值(異常值) 174
9.1 簡介 174
9.2 異常值定義、分類和檢測方法 174
9.3 時間結(jié)構(gòu) 176
9.4 全局與局部離群值、點異常和微簇 176
9.5 異常值檢測問題的設置 177
9.6 異常值檢測算法的比較評估 177
9.7 異常值解釋方法 180
9.8 案例研究:聯(lián)邦通信指數(shù)的離群值檢測 185
9.9 小結(jié) 192
9.10 附錄 193
第10章 汽車行業(yè)基本數(shù)據(jù) 196
10.1 引言 196
10.2 數(shù)據(jù) 197
10.3 方法一:間接法 201
10.4 方法二:直接法 213
10.5 高斯過程舉例 228
10.6 小結(jié) 230
10.7 附錄 230
第11章 調(diào)查和眾包數(shù)據(jù) 236
11.1 引言 236
11.2 另類數(shù)據(jù):調(diào)查數(shù)據(jù) 236
11.3 數(shù)據(jù) 238
11.4 產(chǎn)品 239
11.5 案例研究 240
11.6 關(guān)于調(diào)查的一些技術(shù)性考慮 245
11.7 眾包分析師估計調(diào)查 245
11.8 Alpha獲取數(shù)據(jù) 246
11.9 小結(jié) 247
11.10 附錄 247
第12章 采購經(jīng)理人指數(shù) 248
12.1 引言 248
12.2 PMI表現(xiàn) 249
12.3 GDP增長的即時預測 251
12.4 對金融市場的影響 252
12.5 小結(jié) 254
第13章 衛(wèi)星圖像和航空攝影 255
13.1 引言 255
13.2 美國出口增長的預測 257
13.3 汽車數(shù)量和零售商每股收益 258
13.4 利用衛(wèi)星數(shù)據(jù)測算中國制造業(yè)PMI 264
13.5 小結(jié) 266
第14章 位置數(shù)據(jù) 268
14.1 引言 268
14.2 利用航運數(shù)據(jù)實現(xiàn)原油追蹤 268
14.3 利用手機定位數(shù)據(jù)了解零售活動 271
14.4 出租車出行數(shù)據(jù)和紐約聯(lián)儲會議 278
14.5 公司商務機位置數(shù)據(jù)和并購 279
14.6 小結(jié) 281
第15章 文本、網(wǎng)頁、社交媒體和新聞 282
15.1 引言 282
15.2 收集網(wǎng)絡數(shù)據(jù) 282
15.3 社交媒體 283
15.4 新聞 292
15.5 其他網(wǎng)絡來源 302
15.6 小結(jié) 303
第16章 投資者關(guān)注度 304
16.1 引言 304
16.2 度量投資者關(guān)注度的指標—工資單的讀者群體 304
16.3 度量市場主體的指標—谷歌趨勢 306
16.4 度量投資者焦慮情緒的指標—投資百科的搜索數(shù)據(jù) 308
16.5 運用維基百科了解加密貨幣的價格走勢 311
16.6 通過各國網(wǎng)上關(guān)注度來了解外匯交易 311
16.7 小結(jié) 314
第17章 消費者交易 316
17.1 引言 316
17.2 信用卡和借記卡的交易數(shù)據(jù) 317
17.3 消費者收據(jù) 318
17.4 小結(jié) 320
第18章 政府、行業(yè)和公司數(shù)據(jù) 321
18.1 引言 321
18.2 使用創(chuàng)新性度量指標進行股權(quán)交易 321
18.3 量化貨幣危機風險 324
18.4 模擬中央銀行干預貨幣市場 326
18.5 小結(jié) 328
第19章 市場數(shù)據(jù) 329
19.1 引言 329
19.2 機構(gòu)外匯流量數(shù)據(jù)與外匯現(xiàn)貨之間的關(guān)系 329
19.3 使用高頻外匯數(shù)據(jù)理解流動性 333
19.4 小結(jié) 335
第20章 私募市場中的另類數(shù)據(jù) 337
20.1 引言 337
20.2 什么是私募股權(quán)公司和風險投資公司 337
20.3 私募股權(quán)數(shù)據(jù)集 339
20.4 理解私營企業(yè)的表現(xiàn) 340
20.5 小結(jié) 341
參考文獻 342
原書作者介紹和中文版譯者介紹 353
(1)原書作者介紹 353
(2)中文版譯者介紹 354
第一部分 簡介與理論
第1章 另類數(shù)據(jù):現(xiàn)狀
1.1 引言
另類數(shù)據(jù)這一話題在金融領域引發(fā)了熱議。在本書中,我們力圖詳細討論這一話題,展示如何利用另類數(shù)據(jù)來加強對金融市場的理解、提高收益和更好地進行風險管理。
本書的目標讀者是通過非傳統(tǒng)方法來尋求超額收益的投資者。這些方法與基本面分析以及單純依靠金融市場中廣泛存在的數(shù)據(jù)進行的定量(研究)方法不同。同時,本書也面向那些想要通過現(xiàn)有標準化和廣泛應用的數(shù)據(jù)集中未出現(xiàn)的信息來識別會造成負面影響事件的早期信號的風險管理師 。
在編寫本書時,對于另類數(shù)據(jù)是否能在投資過程中在更標準化的數(shù)據(jù)源之上增加價值,業(yè)內(nèi)意見不一。報刊上有一些關(guān)于對沖基金和銀行的新聞,它們已經(jīng)嘗試使用另類數(shù)據(jù),但未能從中獲取價值。然而,我們必須強調(diào),另類數(shù)據(jù)中缺乏預測信號只是潛在失敗的原因之一。實際上,我們將試圖通過實際案例說服讀者,在許多情況下,可以從另類數(shù)據(jù)中收集有用的信號。與此同時,我們還會解釋為什么任何旨在提取和成功應用這些信號的策略都是算法、流程、技術(shù)和嚴謹?shù)某杀拘б娣治龅慕Y(jié)合。如果不能正確處理其中任一個,都會導致無法從另類數(shù)據(jù)中提取出有用的見解。因此,證明數(shù)據(jù)集中存在信號并不足以從卓越的投資策略中獲益,這是因為還有許多其他微妙的問題在起作用,而這些問題大多是動態(tài)的,我們將在后面解釋。
在本書中,我們將詳細討論可以使另類數(shù)據(jù)有效達到我們之前提到的目的的技術(shù)方法。這些技術(shù)屬于機器學習(machine learning,ML)和人工智能(artificial intelligence,AI)領域。然而,我們不想用這些“深奧”的術(shù)語給人不必要的復雜印象。因此,我們采用一些更簡單、更傳統(tǒng)的方法,比如線性回歸和邏輯回歸 這些在金融界早已熟悉的方法。實際上,在許多情況下,使用更簡單的方法從金融領域的另類數(shù)據(jù)集中獲取信號往往非常有用。然而這并不是一本關(guān)于機器學習的教材,因此我們不會鉆研每種方法的細節(jié),我們只提供簡練的介紹。必要時,我們會向讀者推薦合適的參考文獻。
這也不是一本關(guān)于技術(shù)和基礎設施的書,盡管技術(shù)和基礎設施是另類數(shù)據(jù)在現(xiàn)實世界中使用的基礎。當然,這些包含數(shù)據(jù)工程的主題仍然非常重要。實際上,對于任何在數(shù)據(jù)中發(fā)現(xiàn)的信號,要在現(xiàn)實生活中發(fā)揮作用,這些主題都是必要的。然而,考慮到詳細處理這些問題需要廣泛和深入的專業(yè)知識,因此這些主題本身就值得被寫成一本書。不過,必須強調(diào)的是,現(xiàn)實生活中我們所應用的提取信號的方法往往會受到技術(shù)的限制。我們是否需要一種算法來快速工作并實現(xiàn)實時交付,還是可以忍受一些延遲?因此,我們選擇的算法類型在很大程度上取決于這樣的技術(shù)限制。盡管本書不是嚴格意義上的技術(shù)性書籍,但我們還是會自始至終在這些重要的方面進行提示。
在本書中,我們會通過實際案例研究,展示如何利用不同的另類數(shù)據(jù)源來實現(xiàn)在金融領域中的不同目的。這些案例研究將包含各種數(shù)據(jù)源,并針對每個數(shù)據(jù)源詳細討論如何解決特定的問題,如通過基本行業(yè)數(shù)據(jù)來預測股票收益,或從調(diào)查指數(shù)來預測經(jīng)濟變量。這些案例研究是獨立的,且能代表現(xiàn)實世界應用中可能出現(xiàn)的各種情況,涉及多個不同的資產(chǎn)類別。
最后,這本書不會成為所有現(xiàn)存另類數(shù)據(jù)源的目錄簿。我們認為為現(xiàn)存另類數(shù)據(jù)源形成目錄簿是徒勞的,因為在動態(tài)世界中,這種數(shù)據(jù)集的數(shù)量和種類每天都在增長。在我們看來,更重要的是如何使現(xiàn)有數(shù)據(jù)變得有用的過程和方法。在探索如何有效使用另類數(shù)據(jù)的過程中,我們也會非常務實地檢查在篩選數(shù)據(jù)集時出現(xiàn)的常見問題,以及任何實際應用程序都可能出現(xiàn)的失誤和錯誤。
本書的結(jié)構(gòu)如下。第一部分是另類數(shù)據(jù)的概況,以及使其應用在投資決策中的過程和方法。第1章將定義另類數(shù)據(jù)并創(chuàng)建一個分類法。第2章將討論如何為數(shù)據(jù)集定價這一微妙的問題。這一主題目前在業(yè)內(nèi)正受到熱烈討論。第3 章將討論另類數(shù)據(jù)相關(guān)的風險,尤其是法律風險,我們還將研究實施另類數(shù)據(jù)策略面對的技術(shù)性問題的細節(jié)。第4章介紹與理解另類數(shù)據(jù)相關(guān)的機器學習和結(jié)構(gòu)化技術(shù)。同樣,為了更深入地理解這些技術(shù),我們將向讀者推薦一些合適的參考文獻。
第5章將研究測試背后的過程和以另類數(shù)據(jù)信號為基礎的策略的實施。我們將推薦一種快速故障方法來解決問題。在一個數(shù)據(jù)集眾多且進一步激增的世界里,我們相信這是一種較好的方法。
第二部分重點關(guān)注一些真實世界中的用例。第6章介紹了因子投資,并對如何將另類數(shù)據(jù)整合到分析框架中進行討論。其中一個用例與投資策略沒有直接關(guān)系,但在任何項目一開始的時候都是一個問題,必須在嘗試其他事情之前予以處理。這個問題就是數(shù)據(jù)缺失(見第7章和第8章)。第9章解決了另一個在數(shù)據(jù)中普遍存在的異常值問題。之后,本書將研究投資策略和經(jīng)濟預測的用例,這些用例基于廣泛的不同類型的另類數(shù)據(jù)集,它們存在于許多不同的資產(chǎn)類別中,包括公開市場,如股票和外匯。本書還研究了另類數(shù)據(jù)在理解私募市場方面的適用性(第20章),由于缺乏公開信息,私募市場通常是更加不透明的。本書還將討論包括汽車供應鏈數(shù)據(jù)(第10章)、衛(wèi)星圖像(第13章)和機器可讀新聞(第15章)的另類數(shù)據(jù)集。在許多情況下,本書還將通過針對不同資產(chǎn)類別的交易策略來對用例進行說明。
那么,在開啟這段旅程之前,讓我們再解釋一下金融界所謂“另類數(shù)據(jù)”的含義,以及它為什么會成為如此熱門的一個話題。
1.2 什么是“另類數(shù)據(jù)”?
眾所周知,信息可以提供優(yōu)勢。因此,金融從業(yè)者歷來試圖收集盡可能多的數(shù)據(jù)。然而,隨著時間的推移,這些信息的性質(zhì)會發(fā)生變化,尤其是大數(shù)據(jù)革命 開始以來。從市場價格和資產(chǎn)負債表等“標準”來源發(fā)展到其他來源,特別是那些嚴格意義上不屬于金融范疇的來源。例如,衛(wèi)星圖像、社交媒體、船舶移動和物聯(lián)網(wǎng)。這些來自“非標準”源的數(shù)據(jù)被稱為另類數(shù)據(jù)。
在實踐中,另類數(shù)據(jù)有多個特征,我們在下面嘗試列舉出來。通常,它至少具有以下一個特征。
?相對來說,不常被市場參與者使用
。渴占杀靖,因此購買(成本)價格也更高
?通常在金融市場外
?歷史較短
?使用起來更具挑戰(zhàn)性
我們必須注意到,構(gòu)成另類數(shù)據(jù)的內(nèi)容可能隨著時間推移發(fā)生顯著變化,這取決于它的可獲得性,以及它在流程中的嵌入程度。顯然,今天大多數(shù)金融市場的數(shù)據(jù)比幾十年前更商品化也更容易獲取。因此,它通常不被稱為另類的。例如,股票收盤價的每日時間序列可以從許多途徑輕易獲取,因此它被認為是非另類的。相比之下,非常高頻的外匯數(shù)據(jù),盡管是金融數(shù)據(jù),但更加昂貴、專業(yè)而小眾。綜合性的外匯交易量和流量數(shù)據(jù)也是如此,這些數(shù)據(jù)相對不易獲取。因此,這些市場衍生的數(shù)據(jù)集可以被認為是另類的。數(shù)據(jù)集的成本和可用性很大程度上取決于幾個因素,如資產(chǎn)類別和頻率。因此,這些因素決定了是否給數(shù)據(jù)集貼上“另類”的標簽。當然,我們不可能給出明確的定義,“另類”和“非另類”的界限也有些模糊。同樣有可能的是,在不久的將來,我們認為“另類”的數(shù)據(jù)將會更加標準化和主流化。因此,它可能會失去“另類”的標簽,而僅僅被稱為數(shù)據(jù)。
近年來,另類數(shù)據(jù)的領域有了顯著擴張。其中一個主要原因是產(chǎn)生數(shù)據(jù)的設備和流程激增。此外,與手動操作相比,許多數(shù)據(jù)可以自動記錄。數(shù)據(jù)存儲的成本也在降低,從而使將數(shù)據(jù)更長久地保存在磁盤上變得可行。世界上還充斥著“廢氣數(shù)據(jù)”,這些數(shù)據(jù)是由那些主要目的不是收集、生成和出售數(shù)據(jù)的流程產(chǎn)生的。從這個意義上講,數(shù)據(jù)具有“副作用”。金融市場中廢氣數(shù)據(jù)最明顯的例子就是市場數(shù)據(jù)。交易者在交易所和場外交易的基礎上進行交易。每當他們發(fā)布報價或同意與交易對手按某個價格交易時,他們就創(chuàng)建了一個數(shù)據(jù)點。這個數(shù)據(jù)是作為交易活動的廢氣而存在的。發(fā)布市場數(shù)據(jù)的概念并不新鮮,多年來一直是市場的重要組成部分,也是交易所收入的重要組成部分。
然而,還有其他類型的廢氣數(shù)據(jù)被相對較少地使用。以一家大型新聞專線機構(gòu)為例。作為日常工作的一部分,記者們不斷地撰寫新聞來將信息告知讀者。這樣每天會生成大量的文本,這些文本可以存儲在磁盤上并進行結(jié)構(gòu)化處理。像谷歌、Facebook和Twitter這樣的公司,它們的用戶產(chǎn)生了大量的數(shù)據(jù),包括搜索、帖子和點贊。這些廢氣數(shù)據(jù)是用戶活動的副產(chǎn)品,通過向用戶投放廣告來實現(xiàn)盈利。此外,我們每個人每次使用手機都會創(chuàng)建廢氣數(shù)據(jù),創(chuàng)建我們的位置記錄,并在網(wǎng)上留下數(shù)字足跡。
產(chǎn)生并記錄這些廢氣數(shù)據(jù)的公司開始越來越多地考慮在本身組織之外通過數(shù)據(jù)獲利的方法。然而,大多數(shù)廢氣數(shù)據(jù)仍未得到充分利用。此類數(shù)據(jù)被稱為“暗數(shù)據(jù)”。它是內(nèi)部的、通常被存檔、一般無法訪問,且其結(jié)構(gòu)化不夠完善,較難進行分析。它可以是已歸檔的電子郵件、項目通信等。一旦這些數(shù)據(jù)被結(jié)構(gòu)化,這些數(shù)據(jù)對于生成內(nèi)部見解以及外部獲利方面更加有用。
1.3 另類數(shù)據(jù)的分類
正如已提到過的,我們不會描述所有另類數(shù)據(jù)的來源,但嘗試提供一個足以涵蓋實踐中遇到的大多數(shù)情況的簡潔分類。首先,我們可以將另類數(shù)據(jù)源劃分為以下高級類別的生成體 :個人、機構(gòu) 和傳感器,以及這些生成體的派生或組合。后者很重要,因為它會導致數(shù)據(jù)集實際上的無限增長。例如,從數(shù)據(jù)中提取的一