Java 网络爬虫怎样实现

Gecco是一款用java语言开发的轻量化的易用的网络爬虫。Gecco整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架,让您只需要配置一些jquery风格的选择器就能很快的写出一个爬虫。你可以试试看
■网友
最近我也在研究爬虫,给你提供下基本思路:首先,需要模拟浏览器获取返回网页的源代码,然后通过字符串处理或正则表达式匹配你要获取的数据。你需要学习的知识点有:Java的HttpClient组件(Apache下的开源项目),还有正则表达式的运用。这种方式适合数据量较小的情况。
■网友
用jsoup解析html或者htmlparse不过比较难用,jsoup是jquery语法比较方便。
【Java 网络爬虫怎样实现】 网页小强http://www.wangye.io。我做的,有时间一起交流!

■网友
额。 用 htmlunit吧。 假如只爬一两个页面的话。


    推荐阅读