看完这28个python爬虫项目，你离爬虫高手就不远了，不够来找我( 三 ) _python爬虫

在解析document文档的时候，遇到链接，则针对超链接发起下载图片的请求
3、请求头
User-agent：请求头中如果没有user-agent客户端配置，服务端可能将你当做一个非法用户host；
cookies：cookie用来保存登录信息
注意：一般做爬虫都会加上请求头

文章插图

文章插图
请求头需要注意的参数：
（1）Referrer：访问源至哪里来（一些大型网站，会通过Referrer 做防盗链策略；所有爬虫也要注意模拟）
（2）User-Agent:访问的浏览器（要加上否则会被当成爬虫程序）
（3）cookie：请求头注意携带
4、请求体
请求体如果是get方式，请求体没有内容（get请求的请求体放在 url后面参数中，直接能看到）如果是post方式，请求体是format dataps：1、登录窗口，文件上传等，信息都会被附加到请求体内2、登录，输入错误的用户名密码，然后提交，就可以看到post，正确登录后页面通常会跳转，无法捕捉到post
五、响应Response
【看完这28个python爬虫项目，你离爬虫高手就不远了，不够来找我】1、响应状态码
200：代表成功
301：代表跳转
404：文件不存在
403：无权限访问
502：服务器错误
2、respone header
响应头需要注意的参数：
（1）Set-Cookie:BDSVRTM=0; path=/：可能有多个，是来告诉浏览器，把cookie保存下来
（2）Content-Location：服务端响应头中包含Location返回浏览器之后，浏览器就会重新访问另一个页面
3、preview就是网页源代码
JSON数据
如网页html，图片
二进制数据等
六、总结
1、总结爬虫流程：
爬取--->解析--->存储
2、爬虫所需工具：
请求库：requests,selenium（可以驱动浏览器解析渲染CSS和JS，但有性能劣势（有用没用的网页都会加载）；）解析库：正则，beautifulsoup，pyquery 存储库：文件，MySQL，Mongodb，Redis
看完的点个赞关注一下呗，谢谢大家了，以下是我的文章总的目录纲领，里面收录了许多关于python学习方面的文章，包括但不限于：python的学习方法、零基础入门、爬虫、开源框架、数据库、开发工具、一些实用技巧还有面试题等等，总会有你感兴趣的，嘿嘿**

看完这28个python爬虫项目，你离爬虫高手就不远了，不够来找我( 三 )

推荐阅读

宝宝@宝宝眼珠不对称

淘宝怎么提高排名 2020年淘宝搜索排名变了

垣坤萌主因多支球员外援未归！，CBA资讯：全华班重启将不可逆转

颠覆感知,万象新生!顾家布艺新型面料发布会成功举行

**中国|深交所向*ST围海发监管函**

赵丽颖人民大会堂参会照流出，穿正装不仅不老气，反而时髦又高级

机器学习算法的终极对决

电视剧|因为收视率太低，没播完就被下架的电视剧，你看过几部？

华为手机越来越卡怎么办，华为手机老是卡上不了网怎么回事

平台|蓝城兄弟上市首日大涨46%

新华网|从“80后”变“90后”的袁隆平许下生日愿望

几品飞车华为将再次“血洗”全球？数亿的花粉炸锅：幸福来得太突然

『电子商务』在高密，一场直播吸引100多个生产厂家和电商企业参与

全球体育|6大国脚级新援压阵，中超未来要变天！争冠集团最大黑马浮出水面

姚火狐说体育|争四有望？利物浦名宿：穆里尼奥肯定能带领热刺杀进前四

科技小数据|京东快手结盟：战役开始了，今天

中国青年网|四川这个县房管局两名副局长同天被“双开”，详情通报

「糖果儿说」家长应该如何应对？真正有效的答案来了，孩子说“我想看电视”

安卓|3200元刚上市的网红手机Nothing Phone 1要出Lite版？官方否认

戈迪斯就是上帝——戈迪斯是不是与雷迦同意识化？