知乎需要加载的网页怎样用爬虫爬取

额,谢邀。今天好像挺晚了我简单说下…一般这种动态往下滚自己刷新的都是有js脚本来获取并且加载的…你开个firebug,观察下在加载新的信息的时候浏览器发送了什么得到了什么…一般都是json数据。其实在一个问题下回答数超过50的情况下好像也会只加载前面一部分~剩下的等你滚到底部之后才会动态加载…这一部分的处理应该在zhihu.py的Question类的answers属性方法里有体现~可以参考一下…现在是手机没法贴链接明天补…但是题主应该知道链接啦就这样…明天再详细写…睡了。
■网友
没有人邀请,
不过这个问题应该不是什么问题,
可以给出源码,
bufubaoni/SimpleSpider
给出了为数不多的借口文件
其中有一个为 question.py 的类
里边有一点测试的代码
知乎需要加载的网页怎样用爬虫爬取

这样你就可以得到整个问题的答案了,其中内容包括
这样你就可以得到整个问题的答案了,其中内容包括
答案的id点赞数答案的内容用户信息
答案的id 又可以传给
知乎需要加载的网页怎样用爬虫爬取

VotersProfile 这个类
VotersProfile 这个类
你同时又可以获得这个答案的点赞名单,点赞人的url_token
将这个url_token 传入另外的
answer.py followers.py following.py 几个类中,有能得到这个人回答的问题,关注者,和关注的人。
同样方法如下
知乎需要加载的网页怎样用爬虫爬取

用法是一样的,
用法是一样的,
当然你不用担心翻页的问题,因为已经做好了,只要调用就可以了。
当然我没有使用模拟登录的方法,
主逻辑很简单。
=====================================================
现在稍微复杂一点,不过调用了questions的api变得抓取问题更简单了。
现在使用gevent来发送余下部分的请求,效率会更高了。
剩下的都写到github里边了。

■网友
【需要加载的网页怎样用爬虫爬取】 github


    推荐阅读