本書先從背景出發(fā),闡述黑盒模型存在的問(wèn)題以及不解決黑盒問(wèn)題模型可能帶來(lái)的后果,引出可解釋機(jī)器學(xué)習(xí)的重要性;隨后,我們從可解釋機(jī)器學(xué)習(xí)的研究方向,分為內(nèi)在可解釋模型算法和模型事后解析方法兩部分進(jìn)行介紹,闡述不同模型的原理、應(yīng)用及其可解釋性。z后通過(guò)三個(gè)不同的應(yīng)用場(chǎng)景,介紹在銀行實(shí)戰(zhàn)中的數(shù)據(jù)挖掘方法,由問(wèn)題、處理方法出發(fā),結(jié)合可解釋機(jī)器學(xué)習(xí)模型結(jié)果,證明模型的有效性和實(shí)用性,期望讀者通過(guò)對(duì)本書的閱讀,可以更快更好的解決實(shí)際業(yè)務(wù)問(wèn)題,而非紙上談兵。業(yè)務(wù)場(chǎng)景均為業(yè)內(nèi)的典型案例,希望能夠?qū)ψx者有所啟發(fā)。同時(shí),本書中還會(huì)有大量的公式與代碼,保證內(nèi)容的豐富與嚴(yán)謹(jǐn),經(jīng)得起推敲,使得讀者知其然且知其所以然。
讀者對(duì)象:
金融機(jī)構(gòu)、銀行、金融科技公司等數(shù)據(jù)技術(shù)相關(guān)崗位從業(yè)者。
人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘相關(guān)技術(shù)崗位從業(yè)者。
人工智能、機(jī)器學(xué)習(xí)、大數(shù)據(jù)相關(guān)專業(yè)的院校研究生、本科生。
1、涵蓋了可解釋機(jī)器學(xué)習(xí)前沿的研究成果及行業(yè)成功應(yīng)用經(jīng)驗(yàn)。
2、從算法層面系統(tǒng)地梳理了可解釋機(jī)器學(xué)習(xí)技術(shù)的研究體系,脈絡(luò)清晰,層層遞進(jìn)。
3、書中除詳盡闡述了各種經(jīng)典算法的原理外,還輔以數(shù)據(jù)、代碼實(shí)例演示算法實(shí)現(xiàn)的步驟,是一本理論與實(shí)踐相結(jié)合的實(shí)用指南。
4、提供了可解釋機(jī)器學(xué)習(xí)應(yīng)用于銀行業(yè)務(wù)場(chǎng)景的實(shí)際案例,讓讀者身臨其境,充分理解可解釋機(jī)器學(xué)習(xí)是如何解決現(xiàn)實(shí)問(wèn)題的。
5、涵蓋了金融科技領(lǐng)域的技術(shù)應(yīng)用成果,對(duì)金融機(jī)構(gòu)數(shù)字化建設(shè)有重要的參考價(jià)值。
為什么要寫這本書
2018年,索信達(dá)正式成立金融AI實(shí)驗(yàn)室,開(kāi)始研究和探索人工智能技術(shù)在金融行業(yè)中的應(yīng)用。在與學(xué)術(shù)界領(lǐng)先學(xué)者合作和交流的過(guò)程中,我們開(kāi)始接觸可解釋機(jī)器學(xué)習(xí)。通過(guò)數(shù)年的研究和實(shí)踐,我們發(fā)現(xiàn)可解釋機(jī)器學(xué)習(xí)恰好能夠彌補(bǔ)當(dāng)下人工智能技術(shù)在金融業(yè)應(yīng)用中的不足,F(xiàn)今,深度學(xué)習(xí)、集成學(xué)習(xí)等復(fù)雜機(jī)器學(xué)習(xí)算法大行其道,銀行里的營(yíng)銷模型、風(fēng)控模型幾乎全都順應(yīng)了這個(gè)大的技術(shù)潮流,雖然模型的精準(zhǔn)性已有了較大的提升,但是業(yè)務(wù)應(yīng)用風(fēng)險(xiǎn)卻如影相隨,模型的黑盒屬性導(dǎo)致模型結(jié)果在業(yè)務(wù)應(yīng)用上不具備清晰的邏輯和可解釋性。模型是否存在偏見(jiàn),何時(shí)適用,該如何使用?很多問(wèn)題都是模糊不清的。
對(duì)于金融等風(fēng)險(xiǎn)控制嚴(yán)格的領(lǐng)域,如果要應(yīng)用黑盒模型,我們必須慎之又慎。索信達(dá)作為一家深耕金融領(lǐng)域數(shù)據(jù)解決方案的提供商,一直都在致力于追求對(duì)行業(yè)問(wèn)題保持前瞻性的洞察力,這也是金融人工智能實(shí)驗(yàn)室成立的初衷和意義所在。可解釋機(jī)器學(xué)習(xí)在學(xué)術(shù)界尚屬新興事物,在國(guó)內(nèi)金融領(lǐng)域的應(yīng)用更是寥寥無(wú)幾,知者甚少,但是可解釋機(jī)器學(xué)習(xí)對(duì)于金融業(yè)規(guī)范、合理、安全地使用人工智能技術(shù)的價(jià)值和意義卻是非凡的。2021年初,中國(guó)人民銀行正式出臺(tái)《人工智能算法金融應(yīng)用評(píng)價(jià)規(guī)范》,這說(shuō)明國(guó)家監(jiān)管部門和行業(yè)專家已經(jīng)意識(shí)到人工智能算法在金融領(lǐng)域中的應(yīng)用存在亂象和潛在風(fēng)險(xiǎn),并對(duì)此提出了嚴(yán)格的評(píng)價(jià)規(guī)范。在這個(gè)評(píng)價(jià)標(biāo)準(zhǔn)下,對(duì)于未來(lái)人工智能技術(shù)在金融領(lǐng)域的應(yīng)用,可解釋機(jī)器學(xué)習(xí)無(wú)疑會(huì)是大勢(shì)所趨。索信達(dá)正好站在了引領(lǐng)潮流的當(dāng)口,有過(guò)可解釋機(jī)器學(xué)習(xí)在銀行業(yè)的成功實(shí)踐。例如,在客戶流失預(yù)警問(wèn)題的場(chǎng)景中,我們創(chuàng)造性地運(yùn)用可解釋機(jī)器學(xué)習(xí),真正做到了對(duì)單個(gè)客戶流失原因的歸因,大大提升了潛在流失客戶的挽留率。在促活營(yíng)銷場(chǎng)景中,利用可解釋機(jī)器學(xué)習(xí)輸出的客戶名單的營(yíng)銷轉(zhuǎn)化率提升了3倍。取得這些令人興奮的成果之后,我們想要讓整個(gè)金融業(yè)意識(shí)到可解釋機(jī)器學(xué)習(xí)的價(jià)值的使命感油然而生,于是便有了寫作這本書的動(dòng)機(jī),希望將這幾年在可解釋機(jī)器學(xué)習(xí)方面的研究,以及將其應(yīng)用在銀行業(yè)的實(shí)踐經(jīng)驗(yàn)分享給大家,更希望人工智能技術(shù)能夠持續(xù)助力金融業(yè)健康繁榮發(fā)展。作為一家金融科技公司,索信達(dá)也希望能夠?yàn)樾袠I(yè)的發(fā)展貢獻(xiàn)自己的一份力量!
讀者對(duì)象
金融機(jī)構(gòu)、銀行、金融科技公司等數(shù)據(jù)技術(shù)相關(guān)崗位從業(yè)者。
人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘相關(guān)技術(shù)崗位從業(yè)者。
人工智能、機(jī)器學(xué)習(xí)、大數(shù)據(jù)相關(guān)專業(yè)的院校研究生、本科生。
如何閱讀本書
本書共分為三大部分,具體內(nèi)容結(jié)構(gòu)如下。
部分為背景(第1~2章)。由于可解釋機(jī)器學(xué)習(xí)在業(yè)內(nèi)屬于新興知識(shí),因此本部分用兩章的篇幅,以各種生動(dòng)的例子,闡述可解釋機(jī)器學(xué)習(xí)的背景和重要性,幫助讀者建立對(duì)可解釋機(jī)器學(xué)習(xí)的初步印象。
第二部分為理論(第3~4章)。本部分主要按照可解釋機(jī)器學(xué)習(xí)已有的分類,從內(nèi)在可解釋和事后可解釋兩個(gè)方面來(lái)介紹本領(lǐng)域的常見(jiàn)模型,其中既包括傳統(tǒng)的統(tǒng)計(jì)學(xué)模型,又包括學(xué)術(shù)界新提出來(lái)的一些模型。本部分內(nèi)容可以讓讀者對(duì)目前已存在的各種可解釋機(jī)器學(xué)習(xí)算法有一個(gè)詳細(xì)的了解,并且能夠讓讀者參照示例代碼自己動(dòng)手實(shí)踐。
第三部分為實(shí)例(第5~7章)。本部分主要以案例的形式,重點(diǎn)介紹可解釋機(jī)器學(xué)習(xí)在銀行的營(yíng)銷、風(fēng)控和推薦系統(tǒng)等業(yè)務(wù)領(lǐng)域的應(yīng)用,以幫助讀者進(jìn)一步理解可解釋機(jī)器學(xué)習(xí)如何解決銀行業(yè)實(shí)際遇到的問(wèn)題。
勘誤和支持
由于作者的水平有限,寫作的時(shí)間比較緊張,書中難免會(huì)出現(xiàn)一些錯(cuò)誤或者不準(zhǔn)確的地方,如有發(fā)現(xiàn),懇請(qǐng)大家批評(píng)指正。如果大家有建議或意見(jiàn),歡迎發(fā)送郵件至郵箱shaop@datamargin.com,很期待聽(tīng)到大家的真摯反饋。
致謝
首先要特別感謝香港大學(xué)張愛(ài)軍博士團(tuán)隊(duì),他讓我們看到了可解釋機(jī)器學(xué)習(xí)的價(jià)值,他們?yōu)槲覀冎该髁搜芯康姆较蚝吐肪,對(duì)標(biāo)國(guó)際領(lǐng)先的研究團(tuán)隊(duì),讓我們對(duì)可解釋機(jī)器學(xué)習(xí)領(lǐng)域的研究能夠快速步入正軌。在理論研究階段,張愛(ài)軍博士給予了我們極其耐心、細(xì)致的指導(dǎo),讓我們的技術(shù)水平有了日新月異的突破和提升。
感謝索信達(dá)金融AI實(shí)驗(yàn)室參與寫作的小伙伴們:蘇思達(dá)、楊健穎、何悅、蘇鈺、孫兆悅、董弋嵩。感謝他們堅(jiān)持不懈、永不放棄的精神,以及克服巨大挑戰(zhàn)的勇氣。我們要做的研究和寫作對(duì)于每個(gè)人來(lái)說(shuō)都是全新的,雖然初沒(méi)有經(jīng)驗(yàn),也沒(méi)有太多寫作材料,困難重重,但是大家還是克服一切困難堅(jiān)持了下來(lái)。這種堅(jiān)持不懈和全心投入是我們珍貴的收獲。
感謝索信達(dá)華南服務(wù)二部李冉冉、何超、李震、鄒美靈團(tuán)隊(duì)的大力幫助,感謝他們?yōu)槲覀兲峁┝朔浅ky得的銀行實(shí)際業(yè)務(wù)的真實(shí)場(chǎng)景,并且協(xié)助我們順利完成技術(shù)實(shí)施。沒(méi)有他們的幫助,就沒(méi)有這些寶貴的案例材料。
后要感謝索信達(dá)市場(chǎng)部的蔣順利老師和機(jī)械工業(yè)出版社華章公司的編輯楊繡國(guó)老師在本書出版過(guò)程中提供的大力支持。
謹(jǐn)以此書,獻(xiàn)給金融機(jī)構(gòu)、金融科技公司的人工智能技術(shù)從業(yè)者,以及數(shù)據(jù)挖掘、數(shù)據(jù)分析等相關(guān)技術(shù)愛(ài)好者。
邵平
索信達(dá)控股AI實(shí)驗(yàn)室總監(jiān)
邵平
資深數(shù)據(jù)科學(xué)家,索信達(dá)控股金融AI實(shí)驗(yàn)室總監(jiān)。在大數(shù)據(jù)、人工智能領(lǐng)域有十多年技術(shù)研發(fā)和行業(yè)應(yīng)用經(jīng)驗(yàn)。技術(shù)方向涉及可解釋機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、時(shí)間序列預(yù)測(cè)、智能推薦、自然語(yǔ)言處理等。現(xiàn)主要致力于可解釋機(jī)器學(xué)習(xí)、推薦系統(tǒng)、銀行智能營(yíng)銷和智能風(fēng)控等領(lǐng)域的技術(shù)研究和項(xiàng)目實(shí)踐。
楊健穎
云南財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)碩士,高級(jí)數(shù)據(jù)挖掘工程師,一個(gè)對(duì)數(shù)據(jù)科學(xué)有堅(jiān)定信念的追求者,目前重點(diǎn)研究機(jī)器學(xué)習(xí)模型的可解釋性。
蘇思達(dá)
美國(guó)天普大學(xué)統(tǒng)計(jì)學(xué)碩士,機(jī)器學(xué)習(xí)算法專家,長(zhǎng)期為銀行提供大數(shù)據(jù)與人工智能解決方案和技術(shù)服務(wù)。主要研究方向?yàn)榭山忉寵C(jī)器學(xué)習(xí)與人工智能,曾撰寫《可解釋機(jī)器學(xué)習(xí)研究報(bào)告》和多篇可解釋機(jī)器學(xué)習(xí)相關(guān)文章。
前言
部分 背景
第1章 引言2
1.1 可解釋機(jī)器學(xué)習(xí)研究背景2
1.1.1 機(jī)器學(xué)習(xí)面臨的挑戰(zhàn)2
1.1.2 黑盒模型存在的問(wèn)題4
1.2 模型可解釋性的重要性8
1.3 國(guó)內(nèi)外的模型監(jiān)管政策10
1.4 本章小結(jié)11
第2章 可解釋機(jī)器學(xué)習(xí)12
2.1 模型的可解釋性12
2.1.1 可解釋性的定義13
2.1.2 可解釋性的分類14
2.1.3 可解釋機(jī)器學(xué)習(xí)的研究方向16
2.2 可解釋性的作用18
2.2.1 產(chǎn)生信任19
2.2.2 提供因果關(guān)系依據(jù)19
2.2.3 幫助模型診斷20
2.2.4 安全使用模型22
2.2.5 避免發(fā)生偏見(jiàn)與歧視22
2.3 可解釋性的實(shí)現(xiàn)23
2.3.1 建模前的可解釋性實(shí)現(xiàn)23
2.3.2 建模中的可解釋性實(shí)現(xiàn)26
2.3.3 建模后的可解釋性實(shí)現(xiàn)28
2.4 本章小結(jié)29
第二部分 理論
第3章 內(nèi)在可解釋機(jī)器學(xué)習(xí)模型32
3.1 傳統(tǒng)統(tǒng)計(jì)模型33
3.1.1 線性回歸33
3.1.2 廣義線性模型37
3.1.3 廣義加性模型41
3.1.4 決策樹(shù)48
3.2 EBM模型52
3.2.1 模型定義52
3.2.2 識(shí)別二階交互項(xiàng)53
3.2.3 實(shí)現(xiàn)算法56
3.2.4 模型解釋性59
3.2.5 模型的優(yōu)勢(shì)與不足62
3.3 GAMINet模型63
3.3.1 模型定義64
3.3.2 GAMINet的3個(gè)重要準(zhǔn)則66
3.3.3 實(shí)現(xiàn)算法70
3.3.4 模型解釋性72
3.3.5 模型的優(yōu)勢(shì)與不足77
3.4 RuleFit模型77
3.4.1 模型定義78
3.4.2 規(guī)則提取79
3.4.3 實(shí)現(xiàn)算法81
3.4.4 模型解釋性81
3.4.5 模型的優(yōu)勢(shì)與不足84
3.5 Falling Rule Lists模型85
3.5.1 模型定義85
3.5.2 模型參數(shù)估計(jì)87
3.5.3 實(shí)現(xiàn)算法88
3.5.4 模型解釋性89
3.5.5 模型的優(yōu)勢(shì)與不足90
3.6 GAMMLI模型91
3.6.1 傳統(tǒng)推薦算法的不足92
3.6.2 交互項(xiàng)效應(yīng)擬合方法94
3.6.3 自適應(yīng)軟填充95
3.6.4 模型解釋性97
3.6.5 模型的優(yōu)勢(shì)與不足99
3.7 本章小結(jié)99
第4章 復(fù)雜模型事后解析方法101
4.1 部分依賴圖102
4.1.1 部分依賴函數(shù)102
4.1.2 估計(jì)方法103
4.1.3 部分依賴圖的局限105
4.1.4 個(gè)體條件期望圖106
4.1.5 實(shí)例演示107
4.2 累積局部效應(yīng)圖111
4.2.1 從部分依賴圖到累積局部效應(yīng)圖112
4.2.2 累積局部效應(yīng)方程114
4.2.3 實(shí)例演示116
4.2.4 ALE方法的優(yōu)劣118
4.3 LIME事后解析方法118
4.3.1 局部代理模型119
4.3.2 LIME方法的基本流程120
4.3.3 LIME方法的解釋121
4.3.4 LIME方法的優(yōu)劣123
4.4 SHAP事后解析方法124
4.4.1 SHAP的基本思想125
4.4.2 Shapley Value126
4.4.3 SHAP的實(shí)現(xiàn)算法128
4.4.4 SHAP方法的解釋137
4.4.5 SHAP方法的優(yōu)劣140
4.4.6 擴(kuò)展閱讀141
4.5 本章小結(jié)143
第三部分 實(shí)例
第5章 銀行VIP客戶流失預(yù)警及歸因分析146
5.1 案例背景146
5.2 數(shù)據(jù)介紹147
5.3 建模分析148
5.3.1 目標(biāo)定義148
5.3.2 數(shù)據(jù)處理149
5.3.3 模型構(gòu)建150
5.3.4 流失歸因151
5.4 營(yíng)銷建議157
5.5 代碼展示159
5.6 本章小結(jié)162
第6章 銀行個(gè)人客戶信用評(píng)分模型研究163
6.1 案例背景163
6.2 數(shù)據(jù)介紹164
6.3 建模分析165
6.3.1 目標(biāo)定義165
6.3.2 數(shù)據(jù)處理166
6.3.3 模型構(gòu)建167
6.4 三種方法對(duì)比180
6.5 代碼展示182
6.6 擴(kuò)展思考:基于規(guī)則的特征衍生186
6.7 本章小結(jié)188
第7章 銀行理財(cái)產(chǎn)品推薦建模分析189
7.1 場(chǎng)景介紹189
7.1.1 推薦系統(tǒng)190
7.1.2 銀行中的推薦系統(tǒng)193
7.2 數(shù)據(jù)介紹196
7.2.1 推薦場(chǎng)景數(shù)據(jù)特點(diǎn)196
7.2.2 Santander數(shù)據(jù)集197
7.3 建模分析199
7.3.1 數(shù)據(jù)處理199
7.3.2 模型構(gòu)建200
7.3.3 模型結(jié)果評(píng)估204
7.4 案例分析208
7.5 本章小結(jié)211