自然語言理解與行業(yè)知識(shí)圖譜概念、方法與工程落地
定 價(jià):119 元
叢書名:智能系統(tǒng)與技術(shù)叢書
- 作者:王楠,趙宏宇,蔡月著
- 出版時(shí)間:2022/1/1
- ISBN:9787111698302
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP391
- 頁碼:16,344頁
- 紙張:膠版紙
- 版次:1
- 開本:16開
本書首先闡述自然語言理解的發(fā)展脈絡(luò)和分析邏輯,主要圍繞語言符號(hào)、處理體系、語義理解等進(jìn)行探討,引出自然語言理解的自動(dòng)分析原理和方法,包括對自然語言特征、統(tǒng)計(jì)語言學(xué)習(xí)、常規(guī)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、知識(shí)圖譜方面的介紹。在上述基本自然語言處理方法講解基礎(chǔ)上,繼續(xù)闡述行業(yè)知識(shí)圖譜搭建和行業(yè)應(yīng)用的方法。通過作者團(tuán)隊(duì)幾年來在自然語言處理和行業(yè)知識(shí)圖譜的實(shí)踐經(jīng)驗(yàn),探討垂直行業(yè)認(rèn)知的邏輯和解決方案。
21世紀(jì)以來人類創(chuàng)造了海量的自然語言文本數(shù)據(jù),但苦于沒有“語言媒介大師”,即使擁有共同母語的雙方也可能出現(xiàn)“語言隔離”,更不要說人機(jī)自然交互了。人類日常接觸的語言可以分為通用語言和專業(yè)語言:通用語言往往口語化嚴(yán)重,語法雜亂,信息量不足;專業(yè)語言需要結(jié)合行業(yè)知識(shí),有特定的文法,個(gè)性化突出。語言特征復(fù)雜多□,語種語義理解差異化明顯,如何自動(dòng)化、智能化地理解語言成為各行各業(yè)的痛點(diǎn)。自然語言理解應(yīng)運(yùn)而生!通過對人類語言信息的抽取、歸納、總結(jié),自然語言理解成為□重要的人工智能成果的檢驗(yàn)標(biāo)準(zhǔn)之一,被業(yè)內(nèi)人士稱為人工智能皇冠上的明珠。當(dāng)然路要一步步走,語言的理解首先要解決語言處理問題。伴隨海量用戶數(shù)據(jù)(互聯(lián)網(wǎng)數(shù)據(jù)、行業(yè)業(yè)務(wù)數(shù)據(jù)、百科和領(lǐng)域知識(shí))、人工智能算法、集成AI芯片的規(guī)模算力平臺(tái)不斷涌入,自然語言處理領(lǐng)域已經(jīng)樹立了一座座里程碑。從早期的符號(hào)學(xué)派專家系統(tǒng),到統(tǒng)計(jì)語言學(xué)□□興起,再到Word□vec預(yù)訓(xùn)練語言模型將語義工具應(yīng)用落地,各種深度學(xué)習(xí)框架(TensorFlow、Torch、Paddle Paddle)不斷更新……我們似乎摸到了認(rèn)知的大門!018年,隨著谷歌BERT預(yù)訓(xùn)練語言模型橫空出世,語言理解領(lǐng)域也開啟了“ImageNet”時(shí)代篇章。緊接著,XLNet、ERNIE、GPT-3等新模型,以及注意力機(jī)制、Transformer、圖神經(jīng)網(wǎng)絡(luò)等新結(jié)構(gòu)層出不窮,不斷刷新各大任務(wù)榜單的記錄(state-of-the-art,SOTA),推動(dòng)了整個(gè)語言理解水平的持續(xù)發(fā)展。
當(dāng)然,上述自然語言處理還需要語義知識(shí)的配合,基于語義知識(shí)搭建的知識(shí)圖譜就成為行業(yè)應(yīng)用的關(guān)鍵一環(huán)。知識(shí)圖譜是在知識(shí)工程和語義網(wǎng)的基礎(chǔ)上發(fā)展起來的,□01□年谷歌正式提出了“知識(shí)圖譜”一詞,隨后知識(shí)圖譜逐漸成為互聯(lián)網(wǎng)公司的底層基礎(chǔ)設(shè)施之一。通用知識(shí)圖譜主要有DBpedia、Freebase、YAGO、Wikidata等百科知識(shí)庫。在吸收了WordNet、FrameNet、Hownet等語言知識(shí)精華后,ConceptNet、Concept Graph等常識(shí)知識(shí)圖譜也不斷涌現(xiàn),為語言理解奠定了背景知識(shí)基礎(chǔ)。隨著知識(shí)圖譜、多模態(tài)數(shù)據(jù)的引入,知識(shí)蒸餾和模型壓縮進(jìn)一步推動(dòng)了語言處理和語義理解的應(yīng)用步伐。目前,市面上已經(jīng)常見面向C端用戶的智能音箱、智能導(dǎo)航、智能客服、聊天機(jī)器人、機(jī)器翻譯工具等產(chǎn)品,一些SaaS平臺(tái)也處于初級(jí)體驗(yàn)階段,這印證了自然語言理解行業(yè)的廣闊發(fā)展空間。
自然語言理解當(dāng)然不止于日常應(yīng)用,它已逐漸向各行各業(yè)賦能,推動(dòng)語言理解成果向行業(yè)轉(zhuǎn)移、轉(zhuǎn)化。面向B端的各垂直行業(yè)(例如金融、醫(yī)療、公安、電商等)及細(xì)分領(lǐng)域逐漸有相應(yīng)的圖譜產(chǎn)品落地。但是到目前為止,語言理解服務(wù)多體現(xiàn)為項(xiàng)目合作、平臺(tái)調(diào)用、服務(wù)賦能,其工業(yè)落地效果面臨更多的需求挑戰(zhàn)。一方面供求雙方在業(yè)務(wù)理解方面差距巨大,另一方面溝通合作也由于存在信息交互隔閡,這些都嚴(yán)重制約自然語言理解項(xiàng)目或產(chǎn)品落地。如何圍繞行業(yè)需求,仍然需要結(jié)合行業(yè)知識(shí)構(gòu)建知識(shí)圖譜,將自然語言處理與知識(shí)圖譜更好地融合,才能直擊垂直行業(yè)落地應(yīng)用的痛點(diǎn)。
站在自然語言理解需求爆發(fā)和落地困境的十字路口,我們該如何看待自然語言理解的優(yōu)勢與不足,如何更好地推動(dòng)自然語言理解在垂直行業(yè)的應(yīng)用落地呢?這正是本書想要重點(diǎn)探討的目標(biāo)。隨著國家對人工智能、知識(shí)產(chǎn)權(quán)等行業(yè)的日益重視,我們將進(jìn)入產(chǎn)業(yè)互聯(lián)網(wǎng)和創(chuàng)新驅(qū)動(dòng)的全新時(shí)代!創(chuàng)新需要保護(hù)和激勵(lì),創(chuàng)新知識(shí)需要挖掘和利用,而這些知識(shí)正沉積在以專利為代表的知識(shí)產(chǎn)權(quán)文本中,目前全球已經(jīng)有超過1.□億篇專利文本,等待知識(shí)圖譜賦能。從這個(gè)行業(yè)視角進(jìn)入,我們似乎可以揭開行業(yè)落地之謎。
本書通過對自然語言理解的思考和各類算法模型的闡述,結(jié)合對知識(shí)圖譜的認(rèn)知,講解作者團(tuán)隊(duì)幾年來在自然語言處理和行業(yè)知識(shí)圖譜方向的實(shí)踐經(jīng)驗(yàn),旨在拋磚引玉。本書即將付梓之時(shí),一個(gè)新的生命也將誕生,謹(jǐn)以此書獻(xiàn)給我們即將出生的寶貝。
這本書將始終是草稿的狀態(tài),如果有人問何時(shí)成稿,我們想說下一版!因?yàn)檫@個(gè)主題“Never-End Learning”,F(xiàn)在,我們僅期待本書可以幫助大家打開那扇大門,初步體驗(yàn)自然語言理解的行業(yè)落地之道。
王楠,北京大學(xué)博士,“創(chuàng)青春-中關(guān)村U30”□0□0年度優(yōu)勝者,先后任教于中國科學(xué)院、北京信息科技大學(xué)計(jì)算機(jī)學(xué)院。研究方向包括人工智能算法、知識(shí)圖譜、自然語言處理與地球電磁學(xué)等。主持或參與國家科技重大專項(xiàng)、高分專項(xiàng)、軍口預(yù)研、□□系統(tǒng)、企業(yè)大數(shù)據(jù)系統(tǒng)等科研項(xiàng)目,累計(jì)獲得研發(fā)經(jīng)費(fèi)超過千萬元人民幣。負(fù)責(zé)企業(yè)級(jí)“專利大數(shù)據(jù)智能分析系統(tǒng)”的研發(fā),領(lǐng)導(dǎo)技術(shù)團(tuán)隊(duì)完成軟件平臺(tái)搭建、商用和優(yōu)化。以作者身份發(fā)表行業(yè)內(nèi)高水平論文十余篇,獲得多項(xiàng)發(fā)明和實(shí)用新型專利,提交專利申請十余項(xiàng)。
趙宏宇,現(xiàn)就職于騰訊看點(diǎn)搜索團(tuán)隊(duì),擔(dān)任算法研究員。有多年NLP、搜索系統(tǒng)、推薦系統(tǒng)的工作經(jīng)驗(yàn),涉及專利、招聘和網(wǎng)頁搜索等場景。精通PyTorch、TensorFlow等主流深度學(xué)習(xí)框架,擅長運(yùn)用NLP前沿技術(shù)解決工業(yè)項(xiàng)目難題。在意圖識(shí)別、內(nèi)容推薦、相關(guān)性排序等領(lǐng)域有多年實(shí)戰(zhàn)經(jīng)驗(yàn)。曾參與千萬級(jí)用戶求職領(lǐng)域的推薦工作,作為算法主要負(fù)責(zé)人,主導(dǎo)全新算法落地迭代、線上算法優(yōu)化以及上億DAU網(wǎng)頁搜索優(yōu)化迭代。曾與人合著《智能搜索與推薦系統(tǒng):原理、算法與應(yīng)用》一書。
蔡月,清華-深圳灣實(shí)驗(yàn)室聯(lián)合培養(yǎng)博士后,于□017年獲得北京大學(xué)生物醫(yī)學(xué)工程博士學(xué)位。曾擔(dān)任東軟醫(yī)療上海磁共振研發(fā)中心高級(jí)算法研究員。研究方向?yàn)閿?shù)據(jù)科學(xué)、磁共振圖像算法、深度學(xué)習(xí)等,擅長腦科學(xué)領(lǐng)域數(shù)據(jù)分析、磁共振圖像加速、去噪等算法研究。曾在腦科學(xué)領(lǐng)域SCI期刊Neuroscience、Neurotoxicity Research上發(fā)表多篇文章,獲得多項(xiàng)發(fā)明專利。