网络爬虫抓取网站数据

首先要自己会写代码。学习爬虫可以从下面一些知识点入手学习。1、http相关知识。2、浏览器拦截、抓包。3、python2 中编码知识,python3 中bytes 和str类型转换。4、抓取javascript 动态生成的内容。4、模拟post、get,header等5、cookie处理,登录。6、代理访问。7、多线程访问、python 3 asyncio 异步。8、正则表达式、xpath等等等。。。。还有scrapy requests等第三方库的使用。请看看Python爬虫联想词视频和代码专栏跟黄哥学Python爬虫抓取代理IP和验证。专栏跟黄哥学Python爬虫抓取代理IP专栏
■网友
这个用来做毕业论文,我怕你毕不了业
■网友
这个问题大致要分为三个问题:如何用X语言发送HTTP请求?如何用X语言解析HTML?如何用X语言保存数据?
■网友
最主要的是要对http协议有一定的了解,语言使用自己熟悉的语言即可。总结过两篇node爬虫的文章,你可以参考下,希望对你有所帮助http://www.jianshu.com/p/e05436dd8bdchttp://www.jianshu.com/p/87867f325184


    推荐阅读