寫(xiě)作背景
聯(lián)邦學(xué)習(xí)迅速成了產(chǎn)業(yè)界的寵兒,很多互聯(lián)網(wǎng)企業(yè)紛紛投入研發(fā)資源,并進(jìn)行市場(chǎng)布局。這項(xiàng)技術(shù)于2016年被谷歌提出,在2019年年初被引入國(guó)內(nèi),在2020年即已出現(xiàn)數(shù)十家企業(yè)提供的產(chǎn)品,并出現(xiàn)了大規(guī)模的商業(yè)應(yīng)用,這種速度在新技術(shù)應(yīng)用中實(shí)屬罕見(jiàn)。
究其原因,是因?yàn)槁?lián)邦學(xué)習(xí)可以解決企業(yè)之間的“數(shù)據(jù)孤島”問(wèn)題,讓企業(yè)可以通過(guò)使用更多的數(shù)據(jù)提高AI模型的效果,為用戶提供更便捷的個(gè)性化服務(wù)。同時(shí),在這個(gè)過(guò)程中數(shù)據(jù)是安全的,用戶的隱私信息不會(huì)被輸出和泄露,因此這項(xiàng)技術(shù)不但不會(huì)損害合作企業(yè)的利益,而且可以為其帶來(lái)額外的收益。對(duì)于用戶而言,他們既可以享受個(gè)性化服務(wù)質(zhì)量的提升,又不用擔(dān)心具體隱私信息的傳播,有利而無(wú)害,因此愿意授權(quán)互聯(lián)網(wǎng)服務(wù)商通過(guò)這種安全的方式使用外部數(shù)據(jù)。對(duì)于市場(chǎng)監(jiān)管而言,這種方式的跨企業(yè)數(shù)據(jù)服務(wù)不是直接復(fù)制數(shù)據(jù),而是需要通過(guò)聯(lián)邦網(wǎng)絡(luò),由聯(lián)邦參與方共同確認(rèn)才能產(chǎn)生結(jié)果,這解決了使用傳統(tǒng)方式造成的數(shù)據(jù)被任意復(fù)制、難以監(jiān)管的難題。
從技術(shù)層面來(lái)看,聯(lián)邦學(xué)習(xí)是密碼學(xué)、分布式計(jì)算、機(jī)器學(xué)習(xí)三個(gè)學(xué)科交叉的技術(shù),涉及面較廣,部署實(shí)施難度大,很多具體問(wèn)題需要跨領(lǐng)域的綜合知識(shí)才能解決。一方面,在人才市場(chǎng)中擁有這種綜合知識(shí)的人才十分稀缺,很多項(xiàng)目都面臨無(wú)人可用的困境。另一方面,越來(lái)越多的人關(guān)注到聯(lián)邦學(xué)習(xí)這個(gè)新興技術(shù),希望系統(tǒng)地掌握聯(lián)邦學(xué)習(xí)的原理,并在產(chǎn)業(yè)應(yīng)用中解決具體問(wèn)題。不幸的是,市面上相關(guān)的書(shū)籍還很少,網(wǎng)絡(luò)博文往往不夠系統(tǒng)和深入。我們?cè)诼?lián)邦學(xué)習(xí)產(chǎn)品化、產(chǎn)業(yè)實(shí)戰(zhàn)過(guò)程中積累了大量經(jīng)驗(yàn),撰寫(xiě)了這本關(guān)于技術(shù)與實(shí)戰(zhàn)的書(shū),希望幫助讀者更好地掌握聯(lián)邦學(xué)習(xí)。我們也希望與互聯(lián)網(wǎng)伙伴一起,組建更大的聯(lián)邦網(wǎng)絡(luò),在確保用戶隱私數(shù)據(jù)安全的前提下,為用戶提供更優(yōu)質(zhì)的服務(wù),促進(jìn)跨企業(yè)大數(shù)據(jù)行業(yè)的健康發(fā)展。
如何閱讀本書(shū)?
本書(shū)詳細(xì)地闡述了聯(lián)邦學(xué)習(xí)的相關(guān)概念,同時(shí)給出了較多案例,適合對(duì)聯(lián)邦學(xué)習(xí)感興趣的讀者閱讀。本書(shū)在必要之處給出數(shù)學(xué)公式,讀者在閱讀這些小節(jié)時(shí)需要具備統(tǒng)計(jì)學(xué)的基礎(chǔ)知識(shí)。
我們對(duì)本書(shū)進(jìn)行了系統(tǒng)性的編排和統(tǒng)籌。本書(shū)共12章,包括聯(lián)邦學(xué)習(xí)基礎(chǔ)、具體的聯(lián)邦學(xué)習(xí)算法、聯(lián)邦學(xué)習(xí)的產(chǎn)業(yè)應(yīng)用和展望三大部分。各個(gè)部分相對(duì)獨(dú)立,讀者可依據(jù)目標(biāo)和興趣進(jìn)行有選擇性地重點(diǎn)閱讀。
第1章~第3章為聯(lián)邦學(xué)習(xí)基礎(chǔ),旨在幫助讀者了解聯(lián)邦學(xué)習(xí)的市場(chǎng)背景、技術(shù)現(xiàn)狀,以及基礎(chǔ)的隱私保護(hù)技術(shù)、機(jī)器學(xué)習(xí)技術(shù)和分布式計(jì)算技術(shù)。建議聯(lián)邦學(xué)習(xí)的初學(xué)者和求職者重點(diǎn)閱讀這個(gè)部分,借以梳理清楚聯(lián)邦學(xué)習(xí)的基本問(wèn)題和基本技術(shù)。第1章從全局的角度概述了聯(lián)邦學(xué)習(xí)的基本問(wèn)題,用于建立對(duì)聯(lián)邦學(xué)習(xí)的總體認(rèn)識(shí),主要由陳玉林和范昊撰寫(xiě)。第2章介紹多方計(jì)算和隱私保護(hù),是聯(lián)邦學(xué)習(xí)成功地解決數(shù)據(jù)孤島問(wèn)題,實(shí)現(xiàn)跨企業(yè)大數(shù)據(jù)融合的關(guān)鍵,主要由周帥撰寫(xiě)。第3章介紹傳統(tǒng)機(jī)器學(xué)習(xí),包括基本概念、方法和效果評(píng)價(jià),是聯(lián)邦學(xué)習(xí)建立聯(lián)合模型、有效地利用多方數(shù)據(jù)解決業(yè)務(wù)問(wèn)題的基礎(chǔ),主要由王帝撰寫(xiě)。
第4章~第8章為具體的聯(lián)邦學(xué)習(xí)算法,旨在幫助讀者了解具體算法的應(yīng)用背景、特點(diǎn)和擴(kuò)展方法,進(jìn)而幫助讀者根據(jù)需求選擇合適的算法,適合聯(lián)邦學(xué)習(xí)從業(yè)者進(jìn)行重點(diǎn)閱讀。第4章介紹聯(lián)邦交集計(jì)算的相關(guān)理論和具體方法,用于提供聯(lián)邦數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系,主要由王森和何天琪撰寫(xiě)。第5章介紹聯(lián)邦特征工程的相關(guān)理論和具體方法,用于為聯(lián)邦學(xué)習(xí)提供符合業(yè)務(wù)需求的輸入數(shù)據(jù),同時(shí)還可以減少噪聲、提高效率等,主要由張一凡撰寫(xiě)。第6章~第8章分別介紹縱向聯(lián)邦學(xué)習(xí)、橫向聯(lián)邦學(xué)習(xí)和聯(lián)邦遷移學(xué)習(xí)這三種方案的架構(gòu)、方法和案例?v向聯(lián)邦學(xué)習(xí)用于解決相同用戶在不同企業(yè)場(chǎng)景中產(chǎn)生的數(shù)據(jù)的聯(lián)合建模問(wèn)題,主要由陳忠和李怡欣撰寫(xiě)。橫向聯(lián)邦學(xué)習(xí)用于解決不同用戶在相同場(chǎng)景中產(chǎn)生的數(shù)據(jù)的聯(lián)合建模問(wèn)題,主要由敖濱和張潤(rùn)澤撰寫(xiě)。聯(lián)邦遷移學(xué)習(xí)用于解決不同用戶在不同場(chǎng)景中產(chǎn)生的數(shù)據(jù)的聯(lián)合建模問(wèn)題,主要由王森撰寫(xiě)。
第9章~第12章為聯(lián)邦學(xué)習(xí)的產(chǎn)業(yè)應(yīng)用和展望,旨在幫助讀者了解聯(lián)邦學(xué)習(xí)技術(shù)的商業(yè)應(yīng)用現(xiàn)狀、挑戰(zhàn)、趨勢(shì),以及與數(shù)據(jù)資產(chǎn)和要素市場(chǎng)的關(guān)聯(lián),據(jù)此引發(fā)讀者進(jìn)一步思考。該部分較為宏觀,涉及面廣,適合聯(lián)邦學(xué)習(xí)相關(guān)的項(xiàng)目管理者重點(diǎn)閱讀。第9章介紹了常見(jiàn)的開(kāi)源架構(gòu)、訓(xùn)練服務(wù)和推理架構(gòu),并對(duì)具體部署過(guò)程中遇到的通信、資源不足等問(wèn)題給出了優(yōu)化方案,主要由張德、陳行、閆玉成、孫浩博、黃樂(lè)樂(lè)、肖祥文撰寫(xiě)。第10章介紹產(chǎn)業(yè)案例,包括聯(lián)邦學(xué)習(xí)在醫(yī)療健康、金融產(chǎn)品廣告投放、風(fēng)控金融等場(chǎng)景中的應(yīng)用,主要由王博、季澈和石薇撰寫(xiě)。第11章從數(shù)據(jù)自身價(jià)值出發(fā)闡述數(shù)據(jù)資產(chǎn)的相關(guān)概念和特征,據(jù)此引出聯(lián)邦學(xué)習(xí)應(yīng)用中的激勵(lì)機(jī)制和定價(jià)模型,主要由吳極、孫果和周帥撰寫(xiě)。第12章介紹聯(lián)邦學(xué)習(xí)的挑戰(zhàn)和可擴(kuò)展性,由陳玉林和陳曉霖撰寫(xiě)。
致謝
本書(shū)是很多人共同努力的結(jié)果,在此感謝各位作者的辛勤付出。同時(shí),在本書(shū)后期的整理和內(nèi)容統(tǒng)籌過(guò)程中,何彥婷、劉云、孟璐、張竹清等同事做出了貢獻(xiàn),在此表示衷心的感謝。
我們要感謝劉威老師,經(jīng)過(guò)劉威老師的介紹,我們和電子工業(yè)出版社的石悅編輯相識(shí),最終達(dá)成了合作。在審稿過(guò)程中,石悅編輯多次邀請(qǐng)專家給出寶貴意見(jiàn),對(duì)書(shū)稿的修改完善起到了重要作用。在此感謝石悅編輯對(duì)本書(shū)的重視,以及為本書(shū)出版所做的一切。
由于作者水平有限,書(shū)中不足之處在所難免。此外,由于聯(lián)邦學(xué)習(xí)方興未艾,技術(shù)不斷完善,新算法層出不窮,本書(shū)難免有所遺漏,敬請(qǐng)專家和讀者批評(píng)指正。
彭南博 王虎
2020年12月
第1章 / 聯(lián)邦學(xué)習(xí)的研究與發(fā)展現(xiàn)狀
1.1 聯(lián)邦學(xué)習(xí)的背景
1.2 大數(shù)據(jù)時(shí)代的挑戰(zhàn):數(shù)據(jù)孤島
1.2.1 “數(shù)據(jù)孤島”的成因
1.2.2 具體實(shí)例
1.2.3 數(shù)據(jù)互聯(lián)的發(fā)展與困境
1.2.4 解決“數(shù)據(jù)孤島”問(wèn)題的難點(diǎn)與聯(lián)邦學(xué)習(xí)的優(yōu)勢(shì)
1.3 聯(lián)邦學(xué)習(xí)的定義和基本術(shù)語(yǔ)
1.3.1 聯(lián)邦學(xué)習(xí)的定義
1.3.2 聯(lián)邦學(xué)習(xí)的基本術(shù)語(yǔ)
1.4 聯(lián)邦學(xué)習(xí)的分類及適用范圍
1.4.1 縱向聯(lián)邦學(xué)習(xí)
1.4.2 橫向聯(lián)邦學(xué)習(xí)
1.4.3 聯(lián)邦遷移學(xué)習(xí)
1.5 典型的聯(lián)邦學(xué)習(xí)生命周期
1.5.1 模型訓(xùn)練
1.5.2 在線推理
1.6 聯(lián)邦學(xué)習(xí)的安全性與可靠性
1.6.1 安全多方計(jì)算
1.6.2 差分隱私
1.6.3 同態(tài)加密
1.6.4 應(yīng)對(duì)攻擊的健壯性
第2章 / 多方計(jì)算與隱私保護(hù)
2.1 多方計(jì)算
2.2 基本假設(shè)與隱私保護(hù)技術(shù)
2.2.1 安全模型
2.2.2 隱私保護(hù)的目標(biāo)
2.2.3 三種隱私保護(hù)技術(shù)及其關(guān)系
2.3 差分隱私
2.3.1 差分隱私的基本概念
2.3.2 差分隱私的性質(zhì)
2.3.3 差分隱私在聯(lián)邦學(xué)習(xí)中的應(yīng)用
2.4 同態(tài)加密
2.4.1 密碼學(xué)簡(jiǎn)介
2.4.2 同態(tài)加密算法的優(yōu)勢(shì)
2.4.3 半同態(tài)加密算法
2.4.4 全同態(tài)加密算法
2.4.5 半同態(tài)加密算法在聯(lián)邦學(xué)習(xí)中的應(yīng)用
2.5 安全多方計(jì)算
2.5.1 百萬(wàn)富翁問(wèn)題
2.5.2 安全多方計(jì)算中的密碼協(xié)議
2.5.3 安全多方計(jì)算在聯(lián)邦學(xué)習(xí)中的應(yīng)用
第3章 / 傳統(tǒng)機(jī)器學(xué)習(xí)
3.1 統(tǒng)計(jì)機(jī)器學(xué)習(xí)的簡(jiǎn)介
3.1.1 統(tǒng)計(jì)機(jī)器學(xué)習(xí)的概念
3.1.2 數(shù)據(jù)結(jié)構(gòu)與術(shù)語(yǔ)
3.1.3 機(jī)器學(xué)習(xí)算法示例
3.2 分布式機(jī)器學(xué)習(xí)的簡(jiǎn)介
3.2.1 分布式機(jī)器學(xué)習(xí)的背景
3.2.2 分布式機(jī)器學(xué)習(xí)的并行模式
3.2.3 分布式機(jī)器學(xué)習(xí)對(duì)比聯(lián)邦學(xué)習(xí)
3.3 特征工程
3.3.1 錯(cuò)誤及缺失處理
3.3.2 數(shù)據(jù)類型
3.3.3 特征工程方法
3.4 最優(yōu)化算法
3.4.1 最優(yōu)化問(wèn)題
3.4.2 解析方法
3.4.3 一階優(yōu)化算法
3.4.4 二階優(yōu)化算法
3.5 模型效果評(píng)估
3.5.1 效果評(píng)估方法
3.5.2 效果評(píng)估指標(biāo)
第4章 / 聯(lián)邦交集計(jì)算
4.1 聯(lián)邦交集計(jì)算介紹
4.1.1 基于公鑰加密體制的方法
4.1.2 基于混亂電路的方法
4.1.3 基于不經(jīng)意傳輸協(xié)議的方法
4.1.4 其他方法
4.2 聯(lián)邦交集計(jì)算在聯(lián)邦學(xué)習(xí)中的應(yīng)用
4.2.1 實(shí)體解析與縱向聯(lián)邦學(xué)習(xí)
4.2.2 非對(duì)稱縱向聯(lián)邦學(xué)習(xí)
4.2.3 聯(lián)邦特征匹配
第5章 / 聯(lián)邦特征工程
5.1 聯(lián)邦特征工程概述
5.1.1 聯(lián)邦特征工程的特點(diǎn)
5.1.2 傳統(tǒng)特征工程和聯(lián)邦特征工程的對(duì)比
5.2 聯(lián)邦特征優(yōu)化
5.2.1 聯(lián)邦特征評(píng)估
5.2.2 聯(lián)邦特征處理
5.2.3 聯(lián)邦特征降維
5.2.4 聯(lián)邦特征組合
5.2.5 聯(lián)邦特征嵌入
5.3 聯(lián)邦單變量分析
5.3.1 聯(lián)邦單變量基礎(chǔ)分析
5.3.2 聯(lián)邦WOE和IV計(jì)算
5.3.3 聯(lián)邦PSI和CSI計(jì)算
5.3.4 聯(lián)邦KS和LIFT計(jì)算
5.4 聯(lián)邦自動(dòng)特征工程
5.4.1 聯(lián)邦超參數(shù)優(yōu)化
5.4.2 聯(lián)邦超頻優(yōu)化
5.4.3 聯(lián)邦神經(jīng)結(jié)構(gòu)搜索
第6章 / 縱向聯(lián)邦學(xué)習(xí)
6.1 基本假設(shè)及定義
6.2 縱向聯(lián)邦學(xué)習(xí)的架構(gòu)
6.3 聯(lián)邦邏輯回歸
6.4 聯(lián)邦隨機(jī)森林
6.5 聯(lián)邦梯度提升樹(shù)
6.5.1 XGBoost簡(jiǎn)介
6.5.2 SecureBoost簡(jiǎn)介
6.5.3 SecureBoost訓(xùn)練
6.5.4 SecureBoost推理
6.6 聯(lián)邦學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)
6.7 縱向聯(lián)邦學(xué)習(xí)案例
第7章 / 橫向聯(lián)邦學(xué)習(xí)
7.1 基本假設(shè)與定義
7.2 橫向聯(lián)邦網(wǎng)絡(luò)架構(gòu)
7.2.1 中心化架構(gòu)
7.2.2 去中心化架構(gòu)
7.3 聯(lián)邦平均算法概述
7.3.1 在橫向聯(lián)邦學(xué)習(xí)中優(yōu)化問(wèn)題的一些特點(diǎn)
7.3.2 聯(lián)邦平均算法
7.3.3 安全的聯(lián)邦平均算法
7.4 橫向聯(lián)邦學(xué)習(xí)應(yīng)用于輸入法
第8章 / 聯(lián)邦遷移學(xué)習(xí)
8.1 基本假設(shè)與定義
8.1.1 遷移學(xué)習(xí)的現(xiàn)狀
8.1.2 圖像中級(jí)特征的遷移
8.1.3 從文本分類到圖像分類的遷移
8.1.4 聯(lián)邦遷移學(xué)習(xí)的提出
8.2 聯(lián)邦遷移學(xué)習(xí)架構(gòu)
8.3 聯(lián)邦遷移學(xué)習(xí)方法
8.3.1 多項(xiàng)式近似
8.3.2 加法同態(tài)加密
8.3.3 ABY
8.3.4 SPDZ
8.3.5 基于加法同態(tài)加密進(jìn)行安全訓(xùn)練和預(yù)測(cè)
8.3.6 基于ABY和SPDZ進(jìn)行安全訓(xùn)練
8.3.7 性能分析
8.4 聯(lián)邦遷移學(xué)習(xí)案例
8.4.1 應(yīng)用場(chǎng)景
8.4.2 聯(lián)邦遷移強(qiáng)化學(xué)習(xí)
8.4.3 遷移學(xué)習(xí)的補(bǔ)充閱讀材料
第9章 / 聯(lián)邦學(xué)習(xí)架構(gòu)揭秘與優(yōu)化實(shí)戰(zhàn)
9.1 常見(jiàn)的分布式機(jī)器學(xué)習(xí)架構(gòu)介紹
9.2 聯(lián)邦學(xué)習(xí)開(kāi)源框架介紹
9.2.1 TensorFlow Federated
9.2.2 FATE框架
9.2.3 其他開(kāi)源框架
9.3 訓(xùn)練服務(wù)架構(gòu)揭秘
9.4 推理架構(gòu)揭秘
9.5 調(diào)優(yōu)案例分析
9.5.1 特征工程調(diào)優(yōu)
9.5.2 訓(xùn)練過(guò)程的通信過(guò)程調(diào)優(yōu)
9.5.3 加密的密鑰長(zhǎng)度
9.5.4 隱私數(shù)據(jù)集求交集過(guò)程優(yōu)化
9.5.5 服務(wù)器資源優(yōu)化
9.5.6 推理服務(wù)優(yōu)化
第10章 / 聯(lián)邦學(xué)習(xí)的產(chǎn)業(yè)案例
10.1 醫(yī)療健康
10.1.1 患者死亡可能性預(yù)測(cè)
10.1.2 醫(yī)療保健
10.1.3 聯(lián)邦學(xué)習(xí)在醫(yī)療領(lǐng)域中的其他應(yīng)用
10.2 金融產(chǎn)品的廣告投放
10.3 金融風(fēng)控
10.3.1 數(shù)據(jù)方之間的聯(lián)邦學(xué)習(xí)
10.3.2 數(shù)據(jù)方與金融機(jī)構(gòu)之間的聯(lián)邦學(xué)習(xí)
10.4 其他應(yīng)用
10.4.1 聯(lián)邦學(xué)習(xí)應(yīng)用于推薦領(lǐng)域
10.4.2 聯(lián)邦學(xué)習(xí)與無(wú)人機(jī)
10.4.3 聯(lián)邦學(xué)習(xí)與新型冠狀病毒肺炎監(jiān)測(cè)
第11章 / 數(shù)據(jù)資產(chǎn)定價(jià)與激勵(lì)機(jī)制
11.1 數(shù)據(jù)資產(chǎn)的相關(guān)概念及特點(diǎn)
11.1.1 大數(shù)據(jù)時(shí)代背景
11.1.2 數(shù)據(jù)資產(chǎn)的定義
11.1.3 數(shù)據(jù)資產(chǎn)的特點(diǎn)
11.1.4 數(shù)據(jù)市場(chǎng)
11.2 數(shù)據(jù)資產(chǎn)價(jià)值的評(píng)估與定價(jià)
11.2.1 數(shù)據(jù)資產(chǎn)價(jià)值的主要影響因素
11.2.2 數(shù)據(jù)資產(chǎn)價(jià)值的評(píng)估方案
11.2.3 數(shù)據(jù)資產(chǎn)的定價(jià)方案
11.3 激勵(lì)機(jī)制
11.3.1 貢獻(xiàn)度量化方案
11.3.2 收益分配方案
11.3.3 數(shù)據(jù)資產(chǎn)定價(jià)與激勵(lì)機(jī)制的關(guān)系
第12章 / 聯(lián)邦學(xué)習(xí)面臨的挑戰(zhàn)和可擴(kuò)展性
12.1 聯(lián)邦學(xué)習(xí)面臨的挑戰(zhàn)
12.1.1 通信與數(shù)據(jù)壓縮
12.1.2 保護(hù)用戶隱私數(shù)據(jù)
12.1.3 聯(lián)邦學(xué)習(xí)優(yōu)化
12.1.4 模型的魯棒性
12.1.5 聯(lián)邦學(xué)習(xí)的公平性
12.2 聯(lián)邦學(xué)習(xí)與區(qū)塊鏈結(jié)合
12.2.1 王牌技術(shù)
12.2.2 可信媒介
12.2.3 對(duì)比異同
12.2.4 強(qiáng)強(qiáng)聯(lián)合
12.3 聯(lián)邦學(xué)習(xí)與其他技術(shù)結(jié)合