精品国产高清自在自线,久久ER99热精品一区二区,欧美黄色网站在线看

我經(jīng)歷過在IBM大型機(jī)上編寫匯編語言來開發(fā)高性能程序的日子。用穿孔卡片編寫程序，編譯需要一天時間；你要留下在穿孔卡片上編寫的程序，第二天再來拿結(jié)果。如果出現(xiàn)錯誤，你需要重復(fù)這些操作。在那些日子里，一位優(yōu)秀的程序員必須理解底層的機(jī)器硬件才能編寫出好的代碼。當(dāng)我看到現(xiàn)在的計算機(jī)科學(xué)專業(yè)的學(xué)生只學(xué)習(xí)抽象層次較高的內(nèi)容以及像Ruby這樣的語言時，我總會感到有些焦慮。盡管抽象是一件好事，因為它可以避免由于不必要的細(xì)節(jié)而使程序開發(fā)陷入困境，但當(dāng)你嘗試開發(fā)高性能代碼時，抽象就變成了一件壞事。
自第一個CPU出現(xiàn)以來，計算機(jī)架構(gòu)師在CPU硬件中添加了令人難以置信的功能來“容忍”糟糕的編程技巧。20年前，你必須手動設(shè)置機(jī)器指令的執(zhí)行順序，而如今在硬件中CPU會為你做這些（例如，亂序執(zhí)行）。在GPU世界中也能清晰地看到類似的趨勢。由于GPU架構(gòu)師正在改進(jìn)硬件功能，5年前我們在GPU編程中學(xué)習(xí)的大多數(shù)性能提升技術(shù)（例如，線程發(fā)散、共享存儲體沖突以及減少原子操作的使用）正變得與改進(jìn)的GPU架構(gòu)越來越不相關(guān)，甚至5～10年后，即使是一名非常馬虎的程序員，這些因素也會變得無關(guān)緊要。當(dāng)然，這只是一個猜測。GPU架構(gòu)師可以做的事取決于晶體管總數(shù)及客戶需求。當(dāng)說晶體管總數(shù)時，是指GPU制造商可以將多少個晶體管封裝到集成電路（IC）即“芯片”中。當(dāng)說客戶需求時，是指即使GPU架構(gòu)師能夠?qū)崿F(xiàn)某個功能，但如果客戶使用的應(yīng)用程序不能從中受益，就意味著浪費了部分的晶體管數(shù)量。
從編寫教科書的角度出發(fā)，我考慮了所有的因素，逐漸明確講授GPU編程的最佳方式是說明不同系列GPU（如Fermi、Kepler、Maxwell和Pascal）之間的不同并指明發(fā)展趨勢，這可以讓讀者準(zhǔn)備好迎接即將到來的下一代GPU，再下一代，……我會重點強(qiáng)調(diào)那些相對來說會長期存在的概念，同時也關(guān)注那些與平臺相關(guān)的概念。也就是說，GPU編程完全關(guān)乎性能，如果你了解程序運行的平臺架構(gòu)，編寫出了與平臺相關(guān)的代碼，就可以獲得更高的性能。所以，提供平臺相關(guān)的解釋與通用的GPU概念一樣有價值。本書內(nèi)容的設(shè)計方式是，越靠后的章節(jié)，內(nèi)容越具有平臺特定性。
我認(rèn)為本書最獨特的地方就是通過第一部分中的CPU多線程來解釋并行。第二部分介紹了GPU的大規(guī)模并行（與CPU的并行不同）。由于第一部分解釋了CPU并行的方式，因此讀者在第二部分中可以較為容易地理解GPU的并行。在過去的6年中，我設(shè)計了這種方法來講授GPU編程，認(rèn)識到從未學(xué)過并行編程課程的學(xué)生并不是很清楚大規(guī)模并行的概念。與GPU相比，“并行化任務(wù)”的概念在CPU架構(gòu)中更容易理解。
本書的組織如下。第一部分（第1章至第5章）使用一些簡單的程序來演示如何將大任務(wù)分成多個并行的子任務(wù)并將它們映射到CPU線程，分析了同一任務(wù)的多種并行實現(xiàn)方式，并根據(jù)計算核心和存儲單元操作來研究這些方法的優(yōu)缺點。本書的第二部分（第6章至第11章）將同一個程序在多個Nvidia GPU平臺（Fermi、Kepler、Maxwell和Pascal）上并行化，并進(jìn)行性能分析。由于CPU和GPU的核心和內(nèi)存結(jié)構(gòu)不同，分析結(jié)果的差異有時很有趣，有時與直覺相反。本書指出了這些結(jié)果的不同之處，并討論了如何讓GPU代碼運行得更快。本書的最終目標(biāo)是讓程序員了解所有的做法，這樣他們就可以應(yīng)用好的做法，并避免將不好的做法應(yīng)用到項目中。
盡管第一部分和第二部分已經(jīng)完全涵蓋了編寫一個好的CUDA程序需要的所有內(nèi)容，但總會有更多需要了解的東西。本書的第三部分為希望拓寬視野的讀者指明了方向。第三部分并不是相關(guān)主題的詳細(xì)參考文檔，只是給出了一些入門介紹，讀者可以從中獲得學(xué)習(xí)這些內(nèi)容的動力。這部分主要介紹了一些流行的CUDA庫，比如cuBLAS、cuFFT、Nvidia Performance Primitives和Thrust（第12章）；OpenCL編程語言（第13章）；使用其他編程語言和API庫進(jìn)行GPU編程，包括Python、Metal、Swift、OpenGL、OpenGL ES、OpenCV和微軟HLSL（第14章）；深度學(xué)習(xí)庫cuDNN（第15章）。
書中代碼的下載地址為：https://www.crcpress.com/GPU-Parallel-ProgramDevelopment-Using- CUDA /Soyata/p/book/9781498750752。

Tolga Soyata

Tolga Soyata于1988年在伊斯坦布爾技術(shù)大學(xué)電子與通信工程系獲得學(xué)士學(xué)位，1992年在美國馬里蘭州巴爾的摩的約翰·霍普金斯大學(xué)電氣與計算機(jī)工程系（ECE）獲得碩士學(xué)位，2000年在羅切斯特大學(xué)電氣與計算機(jī)工程系獲得博士學(xué)位。2000年至2015年間，他成立了一家IT外包和復(fù)印機(jī)銷售/服務(wù)公司。在運營公司的同時，他重返學(xué)術(shù)界，在羅切斯特大學(xué)電氣與計算機(jī)工程系擔(dān)任研究員。之后，他成為助理教授，并一直擔(dān)任電氣與計算機(jī)工程系教職研究人員至2016年。在羅切斯特大學(xué)電氣與計算機(jī)工程系任職期間，他指導(dǎo)了三名博士研究生。其中兩人在他的指導(dǎo)下獲得博士學(xué)位，另一位在他2016年加入紐約州立大學(xué)奧爾巴尼分校擔(dān)任電氣與計算機(jī)工程系副教授時留在了羅切斯特大學(xué)。Soyata的教學(xué)課程包括大規(guī)模集成電路、模擬電路以及使用FPGA和GPU進(jìn)行并行編程。他的研究興趣包括信息物理系統(tǒng)、數(shù)字健康和高性能醫(yī)療移動云計算系統(tǒng)等。
Tolga Soyata從2009年開始從事GPU編程的教學(xué)，當(dāng)時他聯(lián)系Nvidia將羅切斯特大學(xué)認(rèn)證為CUDA教學(xué)中心（CTC）。在Nvidia將羅切斯特大學(xué)認(rèn)證為教學(xué)中心后，他成為主要負(fù)責(zé)人。之后，Nvidia還將羅切斯特大學(xué)認(rèn)證為CUDA研究中心（CRC），他也成為項目負(fù)責(zé)人。Tolga Soyata在羅切斯特大學(xué)擔(dān)任這些計劃的負(fù)責(zé)人直到他于2016年加入紐約州立大學(xué)奧爾巴尼分校。這些計劃后來被Nvidia命名為GPU教育中心和GPU研究中心。在羅切斯特大學(xué)期間，他講授了5年GPU編程和高級GPU項目開發(fā)課程，這些課程同時被列入電氣與計算機(jī)工程系以及計算機(jī)科學(xué)與技術(shù)系的課程體系。自2016年加入紐約州立大學(xué)奧爾巴尼分校以來，他一直在講授類似的課程。本書是他在兩所大學(xué)講授GPU課程的經(jīng)驗結(jié)晶。

你還可能感興趣

我要評論