半导体|不用编程，如何5分钟爬取一个知乎账号所有回答？芯片|it芯片|重器

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

Hello ，大家好，我是醉莞香。
最近在玩知乎平台，为了寻找答题规律，于是我就去看看大V们是如何回答问题的，想去学习一些规律，跟着大V们的思路玩。
可是大V的回答和文章那么多，一个个去点击记录又太麻烦，于是我想到用web scraper的方法，结果快速解决了问题。
这里就分享给大家……
【半导体|不用编程，如何5分钟爬取一个知乎账号所有回答？】下面是我的成果图：

第一步：下载安装

我们需要安装两个软件：

Chrome浏览器
webscraper插件

谷歌浏览器，大家根据自己的操作系统， windows或者mac ，百度搜索，下载安装即可。
webscraper插件安装方法：
下载一个webscraper的爬虫插件，并把它安装到你的谷歌浏览器（其实360IE ， QQ、搜狗浏览器都可以，这次就不介绍）。
下载好以后
（1）Chrome 浏览器中输入：chrome://extensions/
（2）将下载好的文件拖动到此此页面
（3）根据提示点击：Add extensions；即完成安装。
以上，所需软件就已安装完毕。
第二步：打开软件
webscraper打开的入口有三种方法：
（1）系统是windows ，linux：Ctrl+Shift+I 或者 f12 或者 Tools / Developer tools
（2）系统是mac： Cmd+Opt+I 或者 Tools / Developer tools
（3）或者：右键——> 审查元素（适用于各个系统）
如下图，大家可以看到，红框标注的地方，出现了一个web scraper ，没有安装之前是看不到的。

第三步：创建sitemap

如上图，我们点击“create sitemap” ，进入下面下一步

这个步骤需要输入 2 个信息：

Sitemap name：自定义名字，什么都可以，比如抓的是张佳玮的文章，就取名 zhangjiawei 。
Start URL：当前网址 (直接从浏览器复制）。比如这里抓的一个知乎号，就直接复制网址：XXXXX.com

设置完成后点击Create Sitemap按钮即可。
第四步：设置selector

点击“Add new selector” ，进入下图

如上图，我们按照标号来挨个看。

输入 “Id” 。（自定义，不能为空，至少三个字符（数字，字母均可））
选择 “Type” ，此处选择Element
点击 “Select” 进行元素抓取

4.上一步，点击“Select”后，会出现标号4出悬浮的工具框
5.点击第一个帖子
6.点击第二个帖子，完成后，点击悬浮工具框蓝色的“Done slecting!\"
7.勾选 “Multiple”
8.输入Delay（延迟抓取时间，建议填 600-2000）
9.点击”Save Selector“保存

这步完成后，你会发现， sitemap下出现了一个叫content的选择器，如下图：

点击上图的“content” ，进入下图：

你会发现，这里多了一个content 。

我们点击这里， “Add new selector\" ，进入下图：

如上图：我们按照标号依次看：
（1）输入 “Id” 。（自定义，不能为空，至少三个字符（数字，字母均可））
（2）选择 “Type” ，此处选择Text（文本）
（3）点击 “Select” 进行元素抓取
（4）上一步，点击“Select”后，会出现标号4出悬浮的工具框（注意，当我们点击上一步4的select后，第一个帖子会变黄，我们点击这个黄色区域，它会变为红色。）
（5）点击”Save Selector“ ，其他的都不用设置。
重复操作抓取网址和点赞数

抓取网址的时候，选择“Type” ，此处选择link（文本）

以上，我们抓取一个知乎号的所有设置都已完成。

第五步：开始抓取
这步，我们开始正式抓取：

如上图，点击中间这列，点击下拉框中出现的“Scrape” ，进入下图：

这几个都默认就行，直接点击“Start scraping” 。

点击后，浏览器会弹出一个新窗口，进行抓取工作，不要关闭，等待他抓取完毕。
你会发现，弹出的窗口，会自动下拉鼠标，模拟人的手，自动化的将这页全部的帖子全部抓取下来。
完毕后，会出现抓取的数据，如下图：

第六步：文件导出

如上图，点击中间这列，点击下拉框中的“Export data as CSV” ，
再点击“Download now” ，即可将数据下载到本地，会以表格的形式存储。
文件可以用excel打开， mac下用numbers打开。

至此，知乎号我们已经全部抓取完毕了。
怎么样，是不是很厉害。
其实这个软件的功能远不止此，后面会继续推出其他功能的爬取教程，记得关注哦，有问题可以在后台留言。