文章插图
PySpider 是一个非常方便并且功能强大的爬虫框架,支持多线程爬取、JS动态解析,提供了可操作界面、出错重试、定时爬取等等的功能,使用非常人性化 。
能够在需要编写大量爬虫的情况下,帮助开发者快速编写爬虫 。赞赞赞
安装操作1.搭建环境:
Python版本:2.7
系统环境:centos7.3
1.1.搭建python3环境:
下载依赖
yum install -y ncurses-devel openssl openssl-devel zlib-devel gcc make glibc-devel libffi-devel glibc-static glibc-utils sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel libcurl-devel安装pyspider
pip install pyspider
文章插图
如果启动python中的pycurl模块出现如下问题:
ImportError: pycurl: libcurl link-time ssl backend (nss) is different from compile-time ssl backend (none/other)解决方法:
pip uninstall pycurlexport PYCURL_SSL_LIBRARY=nsspip install pycurl安装phantomjs
官网下载:http://phantomjs.org/download.html
wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2解压:
yum -y install bzip2.x86_64 bzip2 -d phantomjs-2.1.1-linux-x86_64.tar.bz2 tar -xf phantomjs-2.1.1-linux-x86_64.tarmv phantomjs-2.1.1-linux-x86_64 phantomjsln -sv /usr/local/phantomjs/bin/phantomjs /usr/bin/phantomjs启动pyspider
再次启动就不会提示没安装phantomjs
文章插图
由于放在公网,编辑了一个配置文件config.json,用于登录认证[root@ceph-host-01 local]# vim config.json { "webui": { "port": "5000", "username": "abc", "password": "123456", "need-auth": true }}开启进程(后台运行)
nohup pyspider --config config.json &
进入web界面:
文章插图
关注{程序员新视界},获取有趣、有料的流行前沿技术信息,每天进步一点点
【Centos7环境下快速安装Pyspider WEB爬虫框架和phantomjs浏览器】
推荐阅读
- MySQL 5.5升级5.7
- 韩信为什么不自立为王?为什么要拉上刘邦 韩信当时反叛刘邦可以得天下吗
- 图文详解HDFS工作机制
- 进程/线程上下文切换会用掉你多少CPU?
- 以下几种商品哪个不是淘宝网的禁售商品 淘宝禁止销售的商品有哪些
- 暖宝宝可以直接扔掉吗 暖宝宝取下来扔哪里
- 下雪天雨刮器为什么要竖起来 下雪天需要把雨刮器竖起来吗
- 狗舔了蟑螂药 蟑螂胶饵狗舔了一下有问题吗
- 梦见坐滑梯往下滑 梦见坐滑梯 女人梦见从高处滑下来
- 交警查车时,为何先摸一下汽车后备箱?主要是因为这三点