前言
我們站在一個美麗新世界的入口。這是一個令人興奮的,同時充滿了不確定性的世界,而你們是先行者。
—霍金
每一次技術革新帶來的沖擊都是令人震撼的。還記得上一次人工智能讓人們驚嘆的時刻,是AlphaGo(谷歌的人工智能程序)出現的時候。之后,人們堅信人工智能一定會爆發(fā)。但究竟會在哪一天爆發(fā),以怎樣的形式爆發(fā),人們無法預測。隨著時間的流逝,人們對人工智能爆發(fā)的預期已經逐漸淡漠了。時光荏苒,轉機出現在2022年。Stable Diffusion 模型與ChatGPT的橫空出世,猶如驚雷炸響在人工智能領域。
2022年8月,英國開源人工智能公司(Stability AI)發(fā)布了 Stable Diffusion 模型。該模型可以根據用戶輸入的文字描述自動生成圖像,生成的效果可達到專業(yè)畫師水平。AI 繪畫領域的“戰(zhàn)爭”一觸即發(fā)。
2022年11月, 美國人工智能研究實驗室(OpenAI)推出了其最新作品—ChatGPT。它是一款AI驅動的自然語言處理工具,能夠通過學習和理解人類的語言與人進行對話,還能根據聊天的上下文與人進行互動,像人類一樣聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、代碼等任務。ChatGPT的出現為AIGC這股熱潮又添了一把新柴。
AI繪畫與自然語言處理都屬于人工智能領域的AIGC范疇。AIGC是Artificial Intelligence Generated Content 的縮寫,即人工智能生成內容。它包含了利用人工智能生成內容的所有技術。AIGC被認為是繼PGC (Professionally Generated Content,專業(yè)生成內容)和UGC (User Generated Content,用戶生成內容)之后的新型內容生產方式。AIGC在2022年取得了驚人的進步,其迭代速度大大加快。特別是由ChatGPT掀起的蝴蝶效應,正在AIGC領域引發(fā)顛覆性變革。我們認為這是以下多種因素綜合導致的:
第一,互聯(lián)網的不斷發(fā)展使信息量呈現爆炸式增長,社交媒體的崛起劇烈地挑戰(zhàn)著傳統(tǒng)的內容創(chuàng)作方式。越來越多的內容創(chuàng)作者意識到,通過AIGC的方式來提高工作效率已經成為大勢所趨。
第二,在短視頻行業(yè)中,內容創(chuàng)作者因效率、成本等問題,無法一直滿足用戶娛樂及消費的需求。他們渴望生產出大量優(yōu)質的視頻,以便在碎片化時間中為用戶帶來更多的樂趣或者知識。
第三,在現代商業(yè)模式中,驅動力是產品本身及流量。以短視頻為例,優(yōu)秀的內容創(chuàng)作者可以吸引更多的流量,為用戶提供更好的互動體驗,從而實現盈利。
第四,AI技術一直致力于解放人的生產力,因此,人們呼吁將AI技術與內容創(chuàng)作相結合。盡管AI技術在生成內容上有所進步,但無法完全解決內容創(chuàng)作者創(chuàng)作效率低等問題。為了突破技術瓶頸,滿足各行各業(yè)大量生成內容的需求,大量資本涌入內容生成行業(yè)。隨著算力的提高和人力資源的增加,AI技術在生成內容方面取得了革命性的進步,為內容創(chuàng)作者提高效率和進行商業(yè)化落地提供了巨大機遇。
AIGC展現了兩方面的優(yōu)勢:一方面,它可以快速生成大量高質量的內容,有效地解決內容創(chuàng)作的效率問題;另一方面,它可以生成富有創(chuàng)造性的內容,為藝術家們提供靈感。在這一背景下,眾多從業(yè)者紛紛表示:AIGC將是AI的下一波浪潮。第一代AI更多應用在分析、識別領域,而AIGC實現了重大突破,它讓AI有創(chuàng)造內容的能力,是對AI進行的一次全新的革命,將創(chuàng)造巨大的經濟效益。通俗地說,AI開始具備聯(lián)想及創(chuàng)作等能力,進一步擬人化。2023 年,AI從學術研究逐漸走向產業(yè)化,其與商業(yè)的融合形成互為支點的發(fā)展格局,進入產業(yè)規(guī)模商用期。AI技術將不斷地對 AI 數字商業(yè)的各個領域進行滲透。量子位預測,AIGC將在 2~5 年內實現規(guī);瘧,2030 年 AIGC 市場規(guī)模有望超過萬億元。 AIGC 將促進資產服務快速跟進,通過對生成內容合規(guī)評估、資產管理、產權保護、交易服務等,構成 AIGC 完整生態(tài)鏈,并進行價值重塑,充分釋放其商業(yè)潛力。根據《中國AI數字商業(yè)產業(yè)展望2021—2025》中的數據可知,到 2025 年,中國生成式 AI 商業(yè)應用規(guī)?蛇_2070 億元。
在AI發(fā)展的歷程中,讓機器學會創(chuàng)作一直難以被攻克!皠(chuàng)造力”也因此被視為人類與機器最本質的區(qū)別之一。然而,隨著深度學習模型的不斷完善、開源模式的廣泛應用以及大模型商業(yè)化的可能性加大,AIGC會把人類的創(chuàng)造力賦予機器,從而將世界帶入智能創(chuàng)作的新時代。
在這個時代高速發(fā)展的當口,及時準確地給科技工作者及社會大眾介紹和普及AIGC技術,就顯得非常重要。本書結合有趣的案例與深入淺出的技術講解,向關注未來科技的從業(yè)者、創(chuàng)業(yè)者、投資人以及其他從事與AIGC相關的工作者介紹AIGC的底層技術、行業(yè)應用案例及商業(yè)落地場景,讓大家都能夠享受技術進步帶來的紅利,并在各自崗位上取得更多、更好的成績。
第1章 AIGC的由來及發(fā)展歷程
1.1 人工智能發(fā)展的歷程 // 003
1.2 什么是AIGC // 009
1.3 AIGC的發(fā)展歷程 // 011
1.4 AIGC涉及的技術 // 012
1.5 AIGC技術的優(yōu)點 // 013
1.6 AIGC技術的應用 // 014
第2章 硅之手——圖像視頻生成
2.1 圖像生成方向 // 020
2.1.1 發(fā)揮創(chuàng)造力 // 021
2.1.2 激發(fā)靈感 // 026
2.1.3 可控創(chuàng)作 // 032
2.1.4 編輯圖像 // 040
2.1.5 微調模型 // 046
2.2 視頻生成方向 // 049
2.2.1 AI換臉 // 049
2.2.2 構建數字人 // 052
2.2.3 用文本生成視頻 // 053
2.2.4 可控編輯現有視頻 // 054
2.2.5 視頻超分 // 056
2.3 3D模型方向 // 058
2.3.1 文本生成人體模型 // 058
2.3.2 文本生成3D模型 // 060
2.3.3 圖像生成3D模型 // 061
2.3.4 草圖生成3D模型 // 062
2.3.5 文本生成人體動作 // 063
第3章 硅之身——短視頻、數字人時代
3.1 揭示短視頻走紅的原因 // 068
3.2 探究短視頻的商業(yè)價值 // 070
3.2.1 沉浸式的廣告呈現 // 071
3.2.2 靈活隱式的內容植入 // 072
3.2.3 爆發(fā)增長的內容帶貨 // 072
3.2.4 異軍突起的網紅 // 073
3.2.5 繁榮發(fā)展的短視頻生態(tài) // 074
3.3 內容生產者的困境 // 075
3.3.1 需求與供給的矛盾 // 075
3.3.2 門檻阻礙了內容生產與創(chuàng)新 // 077
3.4 數字人產業(yè) // 078
3.4.1 通過數字人實現AIGC // 079
3.4.2 數字人助力AIGC,將開拓更大的商業(yè)空間 // 081
3.4.3 AI互動,數字人24小時直播 // 082
3.4.4 為創(chuàng)作者定制的基于數字人的AI短視頻生成
平臺 // 082
第4章 硅之腦——大語言模型時代
4.1 自然語言處理技術的歷史沿革 // 088
4.1.1 詞袋模型 // 088
4.1.2 詞嵌入 // 090
4.2 生成式預訓練模型 // 095
4.2.1 什么是生成模型 // 095
4.2.2 什么是預訓練模型 // 096
4.2.3 從ELMo模型到Transformer模型 // 098
4.2.4 后Transformer模型時代 // 105
4.2.5 基于 Transformer 的預訓練語言模型 // 107
4.3 GPT系列比較 // 122
4.3.1 三代GPT對比 // 124
4.3.2 提示詞學習 // 131
4.4 ChatGPT的由來 // 139
4.4.1 從GPT-3到ChatGPT的發(fā)展歷程 // 139
4.4.2 思維鏈提示—引出復雜推理能力 // 141
4.4.3 InstructGPT—與人類對齊,引出ChatGPT // 142
4.4.4 ChatGPT的出現 // 147
4.5 注釋 // 147
第5章 硅之聲——語音合成、克隆與變換
5.1 語音合成系統(tǒng)與模型 // 153
5.1.1 聲學模型 // 155
5.1.2 聲碼器 // 158
5.2 語音合成相關技術 // 159
5.2.1 聲音克隆 // 160
5.2.2 聲音變換 // 166
5.3 注釋 // 168
第6章 底層核心技術
6.1 擴散模型 // 173
6.1.1 去噪擴散概率模型 // 175
6.1.2 擴散模型改進 // 184
6.1.3 擴散模型應用 // 200
6.2 生成對抗網絡 // 214
6.2.1 什么是GAN // 215
6.2.2 GAN的發(fā)展及應用 // 217
6.2.3 GAN訓練 // 226
6.3 注釋 // 231
第7章 經典商業(yè)案例
7.1 AIGC+影視傳媒:拓展空間,提升質量 // 237
7.1.1 新聞采集 // 238
7.1.2 新聞生成 // 238
7.1.3 視頻編輯 // 238
7.1.4 劇本生成 // 239
7.1.5 擴展影視角色和場景的創(chuàng)作空間 // 240
7.1.6 賦能影視剪輯 // 241
7.2 AIGC+電商:智能化電商,改變購物模式 // 242
7.2.1 商品3D建模 // 243
7.2.2 天貓家裝城3D版 // 244
7.2.3 鹿班 // 245
7.2.4 虛擬主播 // 245
7.3 AIGC+教育:賦能教育,引領教育變革 // 246
7.3.1 個性化學習 // 246
7.3.2 智能化評估 // 247
7.3.3 教學輔助工具 // 247
7.4 AIGC+醫(yī)療:智能醫(yī)療,診療新勢 // 248
7.4.1 疾病診斷和治療 // 249
7.4.2 藥物研發(fā) // 249
7.4.3 精準醫(yī)療 // 250
7.5 AIGC+金融:大數據與人工智能革新 // 251
7.5.1 風險評估 // 252
7.5.2 投資組合管理 // 253
7.5.3 反欺詐 // 253
7.5.4 市場預測 // 254
7.6 AIGC+農業(yè):革新農業(yè),未來可期 // 255
7.6.1 農作物種植和管理 // 255
7.6.2 農業(yè)物流和供應鏈管理 // 256
7.6.3 農業(yè)機器人和自動化 // 256
7.7 OpenAI // 257
7.7.1 概述 // 257
7.7.2 技術與研究 // 258
7.7.3 商業(yè)應用 // 262
7.7.4 OpenAI的影響 // 263
7.8 注釋 // 264
第8章 AIGC的風險與展望
8.1 AIGC的風險與不足 // 268
8.1.1 關鍵技術仍然不夠成熟 // 268
8.1.2 監(jiān)管難度加大 // 269
8.1.3 AIGC的其他負面影響 // 270
8.2 對AIGC的展望 // 271
8.2.1 AI技術的持續(xù)發(fā)展 // 271
8.2.2 AIGC產品的不斷豐富 // 272
8.2.3 AIGC生態(tài)的逐步完善 // 273