写高级一点的爬虫要具备哪些基础素养

建议具体问题具体分析 你写通用爬虫的话 现在的页面呼啦一下子ajax 等你用phantomjs什么渲染完之后粥都凉了 还浪费服务器宝贵流量 也浪费别人带宽 实际上你只要针对一个网站 抓他那些json接口 然后变这样的上代理了 过验证码就可以了 比通用爬虫你肯定比不过那些大站 但是微博这种只要搞定一个就有用不完的数据够你分析而且个人建议 研究爬虫的同时 最好想想用你的数据能干什么 这比爬虫本身好玩多了比如我们知道营销号有抱团转发的习惯 那么给你一堆热点微博和转发数据 能推测哪些营销号是一个公司的么或者说 给你一个热点的事件 能找出最早这个是谁发出来的么?
■网友
自己刚刚运行爬虫后也想到这个问题那就来强答一发吧素养 主要是素养1 先想清楚自己要这些数据做什么2 想清楚自己要的合适3最好抓取对方 api 接口这类 4如果真的找不到 对方网站恰好带 cookie 并且没什么验证 自己得爬虫还是把 cookie 带上为好5 先抓一小部分数据进行测试6 最后 进程不要开太多 不要开太多 太多


    推荐阅读