第1章概述
1.1算與計算工具
1.2處理器
1.2.1微處理器
1.2.2 協(xié)處理器
1.3異構計算簡介
1.3.1 GPGPU 計算
1.3.2異構計算應用
本章小結
第2章異構計算系統(tǒng)結構
2.1 GPU體系結構
2.2CPU-GPU異構計算系統(tǒng)
2.2.1體系結構視角的CPU-GPU異構計算系統(tǒng)
2.2.2單結點單GPU異構計算系統(tǒng)
2.2.3單結點多GPU異構計算系統(tǒng)
2.3 GPU與AI計算
本章小結
第3章異構計算編程模型
3.1CUDA程序設計模型
3.1.1 CUDA線程模型
3.1.2 CUDA存儲模型
3.1.3 CUDA編譯流程
3.2 CUDA 相關軟件庫
3.3CUDA性能分析工具
本章小結
第4章線程池計算模型
4.1 模型設計
4.1.1 線程池模型
4.1.2 基本設計原理和優(yōu)點
4.1.3模型結構設計·..
4.1.4支持單結點多GPU 的 CAGTP 模型
4.2模型運行機制
4.2.1 CAGTP模型構造
4.2.2 分配任務槽
4.2.3計算線程塊級任務調度
4.2.4 啟動任務復用 Kernel 函數
4.3 程序設計接口
4.4模型擴展變體
4.4.1無任務隊列的CAGTP 模型
4.4.2 帶有輪轉雙任務槽的 CAGTP 模型.
4.4.3支持流多處理器劃分的CAGTP模型·
4.5模型性能測試與分析
4.5.1 模型討論
4.5.2 性能分析
4.5.3微基準測試
本章小結
第5章線性代數算法實現(xiàn)
5.1 通用稠密矩陣乘
5.1.1 概述
5.1.2 GEMM 的 CAGTP 實現(xiàn)
5.1.3 GEMM在CAGTP 上的性能分析
5.2批量細度GEMM的CAGTP實現(xiàn)與性能分析
5.3 Cholesky分解
5.3.1 Cholesky 分解介紹
5.3.2 Cholesky分解的CAGTP 實現(xiàn)
5.3.3 Cholesky分解在CAGTP 上的性能分析
5.4混合任務計算
5.4.1 SPMV與Black Scholes 算法介紹
5.4.2混合任務計算的CAGTP 實現(xiàn)
5.4.3混合任務計算在CAGTP 上的性能分析
……
第6章機器學習算法實現(xiàn)
第7章高光譜圖像分類算法實現(xiàn)
第8章FPGA異構計算
參考文獻