一个爬联系方式的爬虫该怎样选择数据库

因为要存储联系方式,可能过段时间会有新的联系方式出现,比如现在的微信号码等,且每个人的都不一样。这时候最好是使用schema free的系统。如果自己搭建系统的话,可以用ElasticSearch或者hbase。如果用云产品,直接用这个开放结构化数据服务OTS_海量数据存储
■网友
请教一下,联系方式如何防止被爬虫?
■网友
mysql
■网友
如JingSQ所说,这个场景用schema free的数据库比较好。20万条数据,mongodb单机就搞定了。如果数据规模大到几十亿条甚至更多的时候,用开放结构化数据服务OTS_海量数据存储。在这个规模上,你不会想自己运维hbase/cassandra等系统的。


    推荐阅读