在解析document文档的时候,遇到链接,则针对超链接发起下载图片的请求
3、请求头
User-agent:请求头中如果没有user-agent客户端配置,服务端可能将你当做一个非法用户host;
cookies:cookie用来保存登录信息
注意:一般做爬虫都会加上请求头

文章插图

文章插图

文章插图
请求头需要注意的参数:
(1)Referrer:访问源至哪里来(一些大型网站,会通过Referrer 做防盗链策略;所有爬虫也要注意模拟)
(2)User-Agent:访问的浏览器(要加上否则会被当成爬虫程序)
(3)cookie:请求头注意携带
4、请求体
请求体如果是get方式,请求体没有内容 (get请求的请求体放在 url后面参数中,直接能看到)如果是post方式,请求体是format dataps:1、登录窗口,文件上传等,信息都会被附加到请求体内2、登录,输入错误的用户名密码,然后提交,就可以看到post,正确登录后页面通常会跳转,无法捕捉到post
五、 响应Response
【看完这28个python爬虫项目,你离爬虫高手就不远了,不够来找我】1、响应状态码
200:代表成功
301:代表跳转
404:文件不存在
403:无权限访问
502:服务器错误
2、respone header
响应头需要注意的参数:
(1)Set-Cookie:BDSVRTM=0; path=/:可能有多个,是来告诉浏览器,把cookie保存下来
(2)Content-Location:服务端响应头中包含Location返回浏览器之后,浏览器就会重新访问另一个页面
3、preview就是网页源代码
JSON数据
如网页html,图片
二进制数据等
六、总结
1、总结爬虫流程:
爬取--->解析--->存储
2、爬虫所需工具:
请求库:requests,selenium(可以驱动浏览器解析渲染CSS和JS,但有性能劣势(有用没用的网页都会加载);) 解析库:正则,beautifulsoup,pyquery 存储库:文件,MySQL,Mongodb,Redis
看完的点个赞关注一下呗,谢谢大家了,以下是我的文章总的目录纲领,里面收录了许多关于python学习方面的文章,包括但不限于:python的学习方法、零基础入门、爬虫、开源框架、数据库、开发工具、一些实用技巧还有面试题等等,总会有你感兴趣的,嘿嘿**
推荐阅读
- 对付勒索病毒有奇效!Win10这秘密武器你用过没
- 惊蛰至 这份健康宝典请您收好
- 不可思议的神秘文化
- 脸部按摩去斑,要掌握这几个穴位
- 脸部暗沉怎么办?这些都是救命道具!
- 化淡妆基本步骤 学会这个轻松化淡妆
- 脸部吸脂居然是通过这几个方面完成的
- 眼袋用这个方法消除很有效
- 祛眼袋,试试这个神奇的小方法
- 长期喝茶有什么危害,这样喝茶让你短命[养生茶]
