写高级一点的爬虫要具备哪些基础素养
建议具体问题具体分析 你写通用爬虫的话 现在的页面呼啦一下子ajax 等你用phantomjs什么渲染完之后粥都凉了 还浪费服务器宝贵流量 也浪费别人带宽 实际上你只要针对一个网站 抓他那些json接口 然后变这样的上代理了 过验证码就可以了 比通用爬虫你肯定比不过那些大站 但是微博这种只要搞定一个就有用不完的数据够你分析而且个人建议 研究爬虫的同时 最好想想用你的数据能干什么 这比爬虫本身好玩多了比如我们知道营销号有抱团转发的习惯 那么给你一堆热点微博和转发数据 能推测哪些营销号是一个公司的么或者说 给你一个热点的事件 能找出最早这个是谁发出来的么?
■网友
自己刚刚运行爬虫后也想到这个问题那就来强答一发吧素养 主要是素养1 先想清楚自己要这些数据做什么2 想清楚自己要的合适3最好抓取对方 api 接口这类 4如果真的找不到 对方网站恰好带 cookie 并且没什么验证 自己得爬虫还是把 cookie 带上为好5 先抓一小部分数据进行测试6 最后 进程不要开太多 不要开太多 太多
推荐阅读
- 营养土还在花钱买?几种东西“掺一点”,土壤“肥得流油”!
- 车站■盐通高铁的这些新车站,好看不止“一点点”
- 环球车讯网|全新大众途观,外观的设计更加时尚,更加大气,“满满”的高级感
- 中东问题|
- 宝宝|长大大多是“有福之人”,占一点也很好宝宝身上这三个部位越大
- |龙城高级中学建校地址确定 总用地面积8.24万平
- python 爬虫,咋获得输入验证码之后的搜索结果
- 真是醉了!驾车在高速公路上左右摇晃,司机红着脸:“我喝了一点酒,听我说……”
- 想寒假的时候一个月在家准备计算机二级的office高级应用,但是不知道买啥书比较好~~~?
- 高级职位面试时怎样和面试官谈期权、股权数量
