高校BBS的帖子可以通过爬虫抓取到吗

可以啊 一般比较规范的论坛页面都是釆用模板来提取內容,有需要登陆的论坛稍麻烦些 得用代码模拟浏览器登陆过程
■网友
要看是否需要登陆如果不需要登陆就可以
■网友
Scrapy爬虫轻松抓取网站数据,以交大饮水思源bbs为例详细介绍了抓取过程。
■网友
最简单的办法是用selenium+phantom.论坛的内容都是动态生成的,你若用urllib2去获取源码,那就什么也拿不到,除了一个空空的框架。所以呢,最简单的办法就是直接上模拟浏览器selenium,它提供简洁而全面的接口,随便举几个:driver.get("url") # 访问urldriver.find_element_by_xpath(\u0026#39;//input\u0026#39;).send_keys(\u0026#39;chenqingyang\u0026#39;) # 找到登录的那个按钮,模拟填表单driver.find_element_by_xpath(\u0026#39;//form\u0026#39;).submit() # 提交表单,登录!driver.get_screenshot_as_file(\u0026#39;show.png\u0026#39;) # 页面截图,用来debug不能更方便还有string()之类的函数可以直接取出标签的内容,妈妈再也不用担心我的爬虫抓不到动态页面啦。
■网友
可以做的,很简单,只要你能看到的数据,都可以采集下载的
■网友
能抓到,不过论坛的内容一般排名相对靠后


    推荐阅读