Centos7环境下快速安装Pyspider WEB爬虫框架和phantomjs浏览器


Centos7环境下快速安装Pyspider WEB爬虫框架和phantomjs浏览器

文章插图
 
PySpider 是一个非常方便并且功能强大的爬虫框架,支持多线程爬取、JS动态解析,提供了可操作界面、出错重试、定时爬取等等的功能,使用非常人性化 。
能够在需要编写大量爬虫的情况下,帮助开发者快速编写爬虫 。赞赞赞
安装操作1.搭建环境:
Python版本:2.7
系统环境:centos7.3
1.1.搭建python3环境:
下载依赖
yum install -y ncurses-devel openssl openssl-devel zlib-devel gcc make glibc-devel libffi-devel glibc-static glibc-utils sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel libcurl-devel安装pyspider
pip install pyspider
Centos7环境下快速安装Pyspider WEB爬虫框架和phantomjs浏览器

文章插图
 
如果启动python中的pycurl模块出现如下问题:
ImportError: pycurl: libcurl link-time ssl backend (nss) is different from compile-time ssl backend (none/other)解决方法:
pip uninstall pycurlexport PYCURL_SSL_LIBRARY=nsspip install pycurl安装phantomjs
官网下载:http://phantomjs.org/download.html
wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2解压:
yum -y install bzip2.x86_64 bzip2 -d phantomjs-2.1.1-linux-x86_64.tar.bz2 tar -xf phantomjs-2.1.1-linux-x86_64.tarmv phantomjs-2.1.1-linux-x86_64 phantomjsln -sv /usr/local/phantomjs/bin/phantomjs /usr/bin/phantomjs启动pyspider
再次启动就不会提示没安装phantomjs
Centos7环境下快速安装Pyspider WEB爬虫框架和phantomjs浏览器

文章插图
 
由于放在公网,编辑了一个配置文件config.json,用于登录认证[root@ceph-host-01 local]# vim config.json { "webui": { "port": "5000", "username": "abc", "password": "123456", "need-auth": true }}开启进程(后台运行)
nohup pyspider --config config.json &
进入web界面:
Centos7环境下快速安装Pyspider WEB爬虫框架和phantomjs浏览器

文章插图
 
关注{程序员新视界},获取有趣、有料的流行前沿技术信息,每天进步一点点
【Centos7环境下快速安装Pyspider WEB爬虫框架和phantomjs浏览器】


    推荐阅读