网络爬虫基本思路
基本思路:由关键字指定的url把所有相关的html页面全抓下来(html即为字符串),然后解析html文本(通常是正则表达式或者现成工具包如jsoup),提取文本信息,然后把文本信息存储起来 。
网络爬虫操作步骤
URL(统一资源定位符)
下载资源
分析下载资源(正则表达式)
抽取、清洗、储存
该文章只会操作两步步骤URL和下载html资源 。
网络编程小知识
文章插图
URI:(Universal Resource Identifier)统一资源标记符,用来标记抽象或物理资源的一个紧凑字符串 。
URL:(Universal Resource Locator)统一资源定位符,一种定位资源的主要访问机制的字符串,一个标准的URL必须包括:protocal(协议)、host(主机)、port(端口号)、path(路径)、parameter(参数)、anchor(锚) 。
URN:(Universal Resource Name)统一资源名称,通过特定命名空间中的唯一名称或ID来标识资源 。
URL和URN都是URI,但是URI不一定是URL或者URN 。
seo搜索引擎优化
SEO是搜索引擎优化(Search Engine Optimization)的英文缩写,中文译为“搜索引擎优化” 。在了解搜索引擎自然排名机制的基础上,对网站进行内部及外部的调整优化,改进网站在搜索引擎中的关键词自然排名,获得更多流量,从而达成网站销售及品牌建设的预期目标 。
网络爬虫技术是SEO搜索引擎优化的基础(对网络爬虫感兴趣的同学可以深入研究)
JAVA中的JDK已经对URL(资源定位符)封装完毕,使用者只要会用即可 。
使用JAVA代码下载网站资源有如下两种情况:
文章插图
该代码主要是通过URL类的openStream方法来获取网络资源,如果还想了解URL类的信息的同学可以去看看JDK中URL类的源代码 。
二、网站不允许外来访问(模仿浏览器使用HTTP协议交流)代码如下
文章插图
注意事项
JAVA中的控制台储存空间有限,所以有时候HTML源代码会显示不全,但你可以通过IO操作来拷贝到文件中去 。
HttpURLConnection类的setRequestProperty方法中的(String key,String value)参数需要到浏览器相应网页中去拷贝 。
拷贝如下:
1、进入浏览器相关网页 。
2、按住F12进入devtools 。
3、拷贝Request包中最后一行数据 。
4、冒号前的对应key参数,冒号后的对应value参数 。
文章插图
【网络爬虫 JAVA网络编程模拟浏览器获取html源代码】
推荐阅读
- Java实现基于token认证
- 什么是真正的架构设计?十年Java经验让我总结出了这些
- 手机用户WiFi上网和用4G网络上网哪个网速快?
- 不重启Java服务,如何对线上代码快速热更新?
- 我从来不理解JavaScript闭包,直到有人这样向我解释它
- 服务器网络不通的简单排查流程
- 什么是 COM 接口?
- 搜索引擎爬虫的三大更新策略是什么?
- 语言之间的哲学C#和Java之间主要区别
- Java程序员最常犯的错TOP10,你还在犯么?