中文字幕人妻互换AV久久,91抖音成人IOS,欧美日韩人妻精品系列一区二区三区

使用Python編寫網(wǎng)絡(luò)爬蟲程序獲取互聯(lián)網(wǎng)上的大數(shù)據(jù)是當(dāng)前的熱門專題。本書內(nèi)容包括三部分：基礎(chǔ)部分、進(jìn)階部分和項目實踐�；A(chǔ)部分（第1~7章）主要介紹爬蟲的三個步驟——獲取網(wǎng)頁、解析網(wǎng)頁和存儲數(shù)據(jù)，并通過諸多示例的講解，讓讀者能夠從基礎(chǔ)內(nèi)容開始系統(tǒng)性地學(xué)習(xí)爬蟲技術(shù)，并在實踐中提升Python爬蟲水平。進(jìn)階部分（第8~13章）包括多線程的并發(fā)和并行爬蟲、分布式爬蟲、更換IP等，幫助讀者進(jìn)一步提升爬蟲水平。項目實踐部分（第14~17章）使用本書介紹的爬蟲技術(shù)對幾個真實的網(wǎng)站進(jìn)行抓取，讓讀者能在讀完本書后根據(jù)自己的需求寫出爬蟲程序。

近年來，大數(shù)據(jù)成為業(yè)界與學(xué)術(shù)界的熱門話題之一，數(shù)據(jù)已經(jīng)成為每個公司極為重要的資產(chǎn)�；ヂ�(lián)網(wǎng)上大量的公開數(shù)據(jù)為個人和公司提供了以往想象不到的可以獲取的數(shù)據(jù)量，而掌握網(wǎng)絡(luò)爬蟲技術(shù)可以幫助你獲取這些有用的公開數(shù)據(jù)集。
執(zhí)筆本書的起因是我打算在知乎上寫博客向香港中文大學(xué)市場營銷學(xué)的研究生講解Python 網(wǎng)絡(luò)爬蟲技術(shù)，讓這些商科學(xué)生掌握一些大數(shù)據(jù)時代重要的技術(shù)。因此，本書除了面向技術(shù)人員外，還面向不懂編程的“小白”，希望能夠?qū)⒕W(wǎng)絡(luò)爬蟲學(xué)習(xí)的門檻降低，讓大家都能享受到使用網(wǎng)絡(luò)爬蟲編程的樂趣。過去的一年中，本書第1版幫助很多讀者開啟了Python和網(wǎng)絡(luò)爬蟲的世界，因此有幸獲得出版社的邀請，在之前版本的基礎(chǔ)上進(jìn)行修改，更新書中的案例以及添加新的內(nèi)容，形成第2版。
本書所有代碼均在 Python 3.6 中測試通過，并存放在 Github 和百度網(wǎng)盤上：Github鏈接為 https://github.com/Santostang/PythonScraping；百度網(wǎng)盤鏈接為https://pan.baidu.com/s/14RA8Srew8tbqVT977JDvNw，提取碼為h2kf。為了方便大家練習(xí)Python網(wǎng)絡(luò)爬蟲，我專門搭建了一個博客網(wǎng)站用于Python網(wǎng)絡(luò)爬蟲的教學(xué)，本書的教學(xué)部分全部基于爬取我的個人博客網(wǎng)（www.santostang.com）。一方面，由于這個網(wǎng)站不會更改設(shè)計和框架，因此本書的網(wǎng)絡(luò)爬蟲代碼可以一直使用；另一方面，由于這是我自己的博客網(wǎng)站，因此可以避免一些法律上的風(fēng)險。
讀者對象
（1）對Python編程和網(wǎng)絡(luò)爬蟲感興趣的大專院校師生，需要獲取數(shù)據(jù)進(jìn)行分析；
（2）打算轉(zhuǎn)行或入行爬蟲工程師、數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家的人士；
（3）需要使用網(wǎng)絡(luò)爬蟲技術(shù)自動獲取數(shù)據(jù)分析的各行業(yè)人士。
勘誤和支持
由于作者水平和能力有限，編寫時間倉促，不妥之處在所難免，希望讀者批評指正。本書的讀者QQ群為798652826，歡迎讀者加群交流。另外，也可以到我的博客www.santostang.com反饋意見，歡迎讀者和網(wǎng)絡(luò)爬蟲愛好者不吝賜教。
如何閱讀本書
本書分為17章。
第 1~7 章為基礎(chǔ)部分，主要介紹Python入門，Python網(wǎng)絡(luò)爬蟲的獲取網(wǎng)頁、解析網(wǎng)頁和存儲數(shù)據(jù)三個流程，以及Scrapy爬蟲框架。這部分每一章的最后都有自我實踐題，讀者可以通過實踐題熟悉Python 爬蟲代碼的編寫。
第 8~13 章為進(jìn)階部分，主要介紹多線程和多進(jìn)程爬蟲、反爬蟲、服務(wù)器爬蟲和分布式爬蟲等進(jìn)階爬蟲技術(shù)，這部分為你在爬蟲實踐中遇到的問題提供了解決方案。
第 14~17章為項目實踐部分，每一章包含一個詳細(xì)的爬蟲案例，每個案例都覆蓋之前章節(jié)的知識，讓你在學(xué)習(xí) Python 爬蟲后，可以通過在真實網(wǎng)站中練習(xí)來消化和吸收 Python爬蟲的知識。
本書幾乎每章都使用案例來學(xué)習(xí)Python網(wǎng)絡(luò)爬蟲，希望告訴讀者“通過實戰(zhàn)解決實際問題，才能高效地學(xué)習(xí)新知識”。手輸代碼，練習(xí)案例，才是學(xué)習(xí)Python和網(wǎng)絡(luò)爬蟲的有效方法。
致謝
首先感謝卞誠君老師在我寫書過程中給予的指導(dǎo)和幫助。沒有他的提議，我不會想到將自己的網(wǎng)絡(luò)爬蟲博客整理成一本書出版，更不會有本書的第2版。
從轉(zhuǎn)行數(shù)據(jù)分析，到申請去康奈爾大學(xué)讀書，再到回國做數(shù)據(jù)分析師，我在計算機(jī)技術(shù)和數(shù)據(jù)科學(xué)的道路上，得到了無數(shù)貴人的幫助和提攜。首先感謝劉建南教授帶我進(jìn)入了數(shù)據(jù)挖掘的大門，無私地將數(shù)據(jù)挖掘、營銷知識和經(jīng)驗傾囊相授，您是我的啟蒙老師，也是我一生的恩師。
感謝騰訊公司商業(yè)分析組和數(shù)據(jù)服務(wù)中心的各位同事，特別感謝我的組長張殿鵬和導(dǎo)師王歡，他們耐心地培養(yǎng)和教導(dǎo)我如何成為一名優(yōu)秀的數(shù)據(jù)分析師，讓我放手去挑戰(zhàn)和嘗試不同項目，堅持將數(shù)據(jù)分析的成果落地。
感謝一路走來，支持我、幫助我的前輩和朋友，包括香港中文大學(xué)的教授和朋友——馬旭飛教授、李宜威博士、數(shù)據(jù)科學(xué)家周啟航、數(shù)據(jù)分析師趙作棟、數(shù)據(jù)分析師王禮斌以及好友孫成帥、張蓓等，康奈爾大學(xué)的同學(xué)——數(shù)據(jù)科學(xué)家湯心韻等、思路富邦有限公司總裁陳智銓、數(shù)據(jù)科學(xué)家吳嘉杰。尤其感謝IBM香港CTO戴劍寒博士、香港中文大學(xué)（深圳）校長講席教授賈建民博士、TalkingData騰云大學(xué)執(zhí)行校長楊慧博士和DaoCloud首席架構(gòu)師王天青在百忙中熱情地為本書寫推薦語。
感謝我的父母、妹妹和女朋友給我一貫的支持和幫助！

唐松
中國深圳

你還可能感興趣

我要評論