看完这28个python爬虫项目,你离爬虫高手就不远了,不够来找我( 三 )


在解析document文档的时候,遇到链接,则针对超链接发起下载图片的请求
3、请求头
User-agent:请求头中如果没有user-agent客户端配置,服务端可能将你当做一个非法用户host;
cookies:cookie用来保存登录信息
注意:一般做爬虫都会加上请求头

看完这28个python爬虫项目,你离爬虫高手就不远了,不够来找我

文章插图

看完这28个python爬虫项目,你离爬虫高手就不远了,不够来找我

文章插图

看完这28个python爬虫项目,你离爬虫高手就不远了,不够来找我

文章插图
请求头需要注意的参数:
(1)Referrer:访问源至哪里来(一些大型网站,会通过Referrer 做防盗链策略;所有爬虫也要注意模拟)
(2)User-Agent:访问的浏览器(要加上否则会被当成爬虫程序)
(3)cookie:请求头注意携带
4、请求体
请求体如果是get方式,请求体没有内容 (get请求的请求体放在 url后面参数中,直接能看到)如果是post方式,请求体是format dataps:1、登录窗口,文件上传等,信息都会被附加到请求体内2、登录,输入错误的用户名密码,然后提交,就可以看到post,正确登录后页面通常会跳转,无法捕捉到post
五、 响应Response
【看完这28个python爬虫项目,你离爬虫高手就不远了,不够来找我】1、响应状态码
200:代表成功
301:代表跳转
404:文件不存在
403:无权限访问
502:服务器错误
2、respone header
响应头需要注意的参数:
(1)Set-Cookie:BDSVRTM=0; path=/:可能有多个,是来告诉浏览器,把cookie保存下来
(2)Content-Location:服务端响应头中包含Location返回浏览器之后,浏览器就会重新访问另一个页面
3、preview就是网页源代码
JSON数据
如网页html,图片
二进制数据等
六、总结
1、总结爬虫流程:
爬取--->解析--->存储
2、爬虫所需工具:
请求库:requests,selenium(可以驱动浏览器解析渲染CSS和JS,但有性能劣势(有用没用的网页都会加载);) 解析库:正则,beautifulsoup,pyquery 存储库:文件,MySQL,Mongodb,Redis
看完的点个赞关注一下呗,谢谢大家了,以下是我的文章总的目录纲领,里面收录了许多关于python学习方面的文章,包括但不限于:python的学习方法、零基础入门、爬虫、开源框架、数据库、开发工具、一些实用技巧还有面试题等等,总会有你感兴趣的,嘿嘿**




推荐阅读