web实战开发-巧用Jsoup提取网页的有效信息

言:

关于Jsoup的使用, 使用的时间也算蛮长了, 真心觉得这东西很牛掰. 对于从页面中提取信息的应用需求, Java版XPath的解决方案, 让人非常的失望, 本质原因是XPath需要严格的XML规范的文本内容, 而网页内容本身, 千变万化, 其标签体系并不严格, 比如标签没完全配对, 缺少闭合标签等等. 没有一定的容错性, 导致XPath在页面处理的方案竞争中, 无情地被pass掉了, T_T.

Jsoup采用css selector机制去定位/操作DOM树的元素, 快速而语法简洁, 对网页内容的有效信息提取, 去噪音, 简直就是大利器. 文章将讲述下jsoup的常见应用场景, 并简单介绍下如何使用?

DOM树和CSS选择器:

网页本质是一棵DOM树(文档对象模型), 可以基于此, 对该DOM树进行操作, 增删节点, 修改节点属性, 从而到达改变网页的内容的效果.

CSS选择器(css selector), 用于快速查询相应的节点. 和XPath解决方案的不同在于, 其谈化了路径概念, 而且语法更加简洁. 对于熟悉jquery的用户而言, 基于上是零成本技能迁移.

CSS选择器, 包含元素选择器, 类选择器, id选择器, 伪类选择器等, 可以组合使用.

举个例子:

<html>
<body>
<div class="container">
<img id="img_id_0" src="" alt="图片A"/>
<img id="img_id_1" src="" alt="图片B"/>
</div>
</body>
</html>

想要获取图片B的元素, 则使用表达式: img#img_id_1 即可.

想要获取div的整个内容, 则使用表示是: div.container 即可.

网页信息的提取策略:

以新浪新闻稿页面为例, 标题为: 女人一生最怕什么?

其正文内容, 可以通过Google Chrome的控制台去快速定位.

其通过chrome的控制台, 测试css选择器:section.j_article_main, 是唯一的, 而且覆盖了文章正文内容.

因此简单的通过, 下载该网页内容, 然后使用jsoup处理一下, 即可达到目标.

String url=".....";
String html=".....";
Document doc=Jsoup.parse(html, url);
Element articleEle=doc.select("section.j_article_main").first();
String text=articleEle.text();

就这样简单的, 把正文的文本内容给提取出来了, 如果你收集新闻网页用于搜索引擎, 那这种处理方式是最好的, 既获取到有效信息, 又排除了各类噪音信息(广告, 相关文章推荐, 评论, 公共导航链接).

链接提取:

网页里面的链接元素, 可能是绝对路径的链接, 也可能是相对路径的链接.

相对路径的链接, 是需要转化为绝对路径, 才有它的意义存在, jsoup可以快速帮助我们事先这个目标, 而免去了我们的自己拼装过程.

String url=".....";
String html=".....";
Document doc=Jsoup.parse(html, url);
Elements as=doc.select("a[href]");
for ( Element a : as ) {
a.attr("href", a.attr("abs:href"));
}

注: 函数attr("abs:href")用于获取绝对url路径, 这几行代码, 把相对路径, 全都转换为绝对路径的链接了.

后记:

其实jsoup非常的强大, 一方面在于它的简洁性, 另一方面还是它强大的容错能力, 对于互联网而言, 不健全的网页是在太多了, 因此能够兼容各种网页格式, 并从中获取到有效的信息, 实在是难能可贵, 就凭这一点, 真心给jsoup点个赞, 哈哈.

ndroid高阶开发专栏

Java高级开发进阶专栏

TCP连接的三次握手和四次挥手

一文搞懂DNS域名解析的详细流程

高并发与负载均衡：Nginx的反向代理和负载均衡

一文搞懂TCP/IP协议及Web基础知识

一文搞懂HTTP协议的核心知识点

一文掌握 HTTP协议报文包含的信息类型

一文搞懂HTTP协议返回结果的HTTP状态码

一文搞懂 HTTP协议的报文首部

作为网络专栏的开篇导文，本文概况介绍下经典案例：从输入一个网址到浏览器显示页面的全过程。

步骤概要介绍如下：

1、输入网址
2、DNS解析获取域名对应的IP地址
3、建立TCP连接
4、web浏览器向web服务器发送HTTP请求
5、服务器的永久重定向响应
6、浏览器跟踪重定向地址
7、web服务器做出应答
8、浏览器显示 HTML
9、浏览器发送请求获取其他嵌入在 HTML 中的资源
10、web服务器关闭TCP连接

1、输入网址

当在浏览器中输入网址时，浏览器其实就已在智能匹配 url 了，他会从历史记录，书签等地方，找到已经输入的字符串可能对应的 url，然后给出智能提示，让你可以补全url地址。

对于 google的chrome 的浏览器，他甚至会直接从缓存中把网页展示出来，就是说，你还没有按下 enter，页面就出来了。

2、DNS解析获取域名对应的IP地址

请求一旦发起，浏览器首先要做的事情就是解析这个域名。

1、一般来说，浏览器会首先查看本地硬盘的 hosts 文件，看看其中有没有和这个域名对应的规则，如果有的话就直接使用 hosts 文件里面的 ip 地址。
2、如果在本地的 hosts 文件没有能够找到对应的 ip 地址，浏览器会发出一个 DNS请求到本地DNS服务器。本地DNS服务器一般都是你的网络接入服务器商提供，比如中国电信，中国移动。
3、查询你输入的网址的DNS请求到达本地DNS服务器之后，本地DNS服务器会首先查询它的缓存记录，如果缓存中有此条记录，就可以直接返回结果，此过程是递归的方式进行查询。如果没有，本地DNS服务器还要向DNS根服务器进行查询。
4、根DNS服务器没有记录具体的域名和IP地址的对应关系，而是告诉本地DNS服务器，你可以到域服务器上去继续查询，并给出域服务器的地址。这种过程是迭代的过程。
5、本地DNS服务器继续向域服务器发出请求，在这个例子中，请求的对象是.com域服务器。.com域服务器收到请求之后，也不会直接返回域名和IP地址的对应关系，而是告诉本地DNS服务器，你的域名的解析服务器的地址。
6、最后，本地DNS服务器向域名的解析服务器发出请求，这时就能收到一个域名和IP地址对应关系，本地DNS服务器不仅要把IP地址返回给用户电脑，还要把这个对应关系保存在缓存中，以备下次别的用户查询时，可以直接返回结果，加快网络访问。

3、建立TCP连接

在HTTP工作开始之前，web浏览器首先要通过网络与web服务器建立连接，该连接是通过TCP来完成的。

PS1：为什么要先建立TCP呢？

因为HTTP是比TCP更高层次的应用层协议，根据规则，只有低层协议建立之后才能进行更高层次协议的连接，因此要先建立TCP连接，一般TCP连接的端口号是80

PS2：扩展知识点：

TCP连接的三次握手和断开的四次挥手参照站内文章：TCP 三次握手和四次挥手

4、web浏览器向web服务器发送HTTP请求

建立了TCP连接之后，web浏览器就会向web服务器发起一个http请求。

一个典型的 http request header 一般需要包括请求的方法，例如 GET 或者 POST 等，不常用的还有 PUT 和 DELETE 、HEAD、OPTION以及 TRACE 方法，一般的浏览器只能发起 GET 或者 POST 请求。

客户端向服务器发起http请求的时候，会有一些请求信息，请求信息包含三个部分：

请求方法URI协议/版本
请求头(Request Header)
请求正文：

下面是一个完整的HTTP请求例子：

GET/sample.jspHTTP/1.1
Accept:image/gif.image/jpeg,*/*
Accept-Language:zh-cn
Connection:Keep-Alive
Host:localhost
User-Agent:Mozila/4.0(compatible;MSIE5.01;Window NT5.0)
Accept-Encoding:gzip,deflate

username=jinqiao&password=1234

4.1、请求行

请求的第一行是“方法URL议/版本”：GET/sample.jsp HTTP/1.1

4.2、请求头(Request Header)

请求头包含许多有关的客户端环境和请求正文的有用信息。例如，请求头可以声明浏览器所用的语言，请求正文的长度等。

Accept:image/gif.image/jpeg.*/*
Accept-Language:zh-cn
Connection:Keep-Alive
Host:localhost
User-Agent:Mozila/4.0(compatible:MSIE5.01:Windows NT5.0)
Accept-Encoding:gzip,deflate.

4.3、请求正文

请求头和请求正文之间是一个空行，这个行非常重要，它表示请求头已经结束，接下来的是请求正文。请求正文中可以包含客户提交的查询字符串信息：

username=jinqiao&password=1234

5、服务器的永久重定向响应

服务器给浏览器响应一个301永久重定向响应，这样浏览器就会访问“http://www.google.com/” 而非“http://google.com/”。

为什么服务器一定要重定向而不是直接发送用户想看的网页内容呢？其中一个原因跟搜索引擎排名有关。如果一个页面有两个地址，就像http://www.yy.com/和http://yy.com/，搜索引擎会认为它们是两个网站，结果造成每个搜索链接都减少从而降低排名。而搜索引擎知道301永久重定向是什么意思，这样就会把访问带www的和不带www的地址归到同一个网站排名下。还有就是用不同的地址会造成缓存友好性变差，当一个页面有好几个名字时，它可能会在缓存里出现好几次。

重定向原因：

1、网站调整（如改变网页目录结构）；
2、网页被移到一个新地址；
3、网页扩展名改变(如应用需要把.php改成.Html或.shtml)。

这种情况下，如果不做重定向，则用户收藏夹或搜索引擎数据库中旧地址只能让访问客户得到一个404页面错误信息，访问流量白白丧失；再者某些注册了多个域名的网站，也需要通过重定向让访问这些域名的用户自动跳转到主站点等。

6、浏览器跟踪重定向地址

现在浏览器知道了 "http://www.google.com/"才是要访问的正确地址，所以它会发送另一个http请求。这里没有啥好说的

7、web服务器做出应答

经过前面的步骤，服务器收到了我们的请求，也处理我们的请求，到这一步，它会把它的处理结果返回，也就是返回一个HTPP响应。

HTTP响应与HTTP请求相似，HTTP响应也由3个部分构成，分别是：

状态行
响应头(Response Header)
响应正文

HTTP/1.1 200 OK
Date: Sat, 31 Dec 2005 23:59:59 GMT
Content-Type: text/html;charset=ISO-8859-1
Content-Length: 122

＜html＞
＜head＞
＜title＞http＜/title＞
＜/head＞
＜body＞
＜!-- body goes here --＞
＜/body＞
＜/html＞

7.1、状态行：

状态行由协议版本、数字形式的状态代码、及相应的状态描述，各元素之间以空格分隔。

格式: HTTP-Version Status-Code Reason-Phrase CRLF

例如: HTTP/1.1 200 OK \r\n

-- 协议版本：是用http1.0还是其他版本

-- 状态描述：状态描述给出了关于状态代码的简短的文字描述。比如状态代码为200时的描述为 ok

-- 状态代码：状态代码由三位数字组成，第一个数字定义了响应的类别，且有五种可能取值。

状态代码具体协议定义如下：

1xx：信息性状态码，表示服务器已接收了客户端请求，客户端可继续发送请求。
100 Continue
101 Switching Protocols

2xx：成功状态码，表示服务器已成功接收到请求并进行处理。
200 OK 表示客户端请求成功
204 No Content 成功，但不返回任何实体的主体部分
206 Partial Content 成功执行了一个范围（Range）请求

3xx：重定向状态码，表示服务器要求客户端重定向。
301 Moved Permanently 永久性重定向，响应报文的Location首部应该有该资源的新URL
302 Found 临时性重定向，响应报文的Location首部给出的URL用来临时定位资源
303 See Other 请求的资源存在着另一个URI，客户端应使用GET方法定向获取请求的资源
304 Not Modified 服务器内容没有更新，可以直接读取浏览器缓存
307 Temporary Redirect 临时重定向。与302 Found含义一样。302禁止POST变换为GET，但实际使用时并不一定，307则更多浏览器可能会遵循这一标准，但也依赖于浏览器具体实现

4xx：客户端错误状态码，表示客户端的请求有非法内容。
400 Bad Request 表示客户端请求有语法错误，不能被服务器所理解
401 Unauthonzed 表示请求未经授权，该状态代码必须与 WWW-Authenticate 报头域一起使用
403 Forbidden 表示服务器收到请求，但是拒绝提供服务，通常会在响应正文中给出不提供服务的原因
404 Not Found 请求的资源不存在，例如，输入了错误的URL

5xx：服务器错误状态码，表示服务器未能正常处理客户端的请求而出现意外错误。
500 Internel Server Error 表示服务器发生不可预期的错误，导致无法完成客户端的请求
503 Service Unavailable 表示服务器当前不能够处理客户端的请求，在一段时间之后，服务器可能会恢复正常

7.2、响应头：

响应头部：由关键字/值对组成，每行一对，关键字和值用英文冒号":"分隔。

Date: Sat, 31 Dec 2005 23:59:59 GMT
Content-Type: text/html;charset=ISO-8859-1
Content-Length: 122

典型的响应头字段：

7.3、响应正文

包含着我们需要的一些具体信息，比如cookie，html,image，后端返回的请求数据等等。这里需要注意，响应正文和响应头之间有一行空格，表示响应头的信息到空格为止。

8、浏览器显示 HTML

在浏览器没有完整接受全部HTML文档时，它就已经开始显示这个页面了，浏览器是如何把页面呈现在屏幕上的呢？

不同浏览器可能解析的过程不太一样，这里我们只介绍webkit的渲染过程。下图对应的就是WebKit渲染的过程，这个过程包括：

解析html以构建dom树 -> 构建render树 -> 布局render树 -> 绘制render树：

9、浏览器发送请求获取嵌入在 HTML 中的资源（如图片、音频、视频、CSS、JS等等）

其实这个步骤可以并列在步骤8中，在浏览器显示HTML时，它会注意到需要获取其他地址内容的标签。这时，浏览器会发送一个获取请求来重新获得这些文件。比如我要获取外图片，CSS，JS文件等，类似于下面的链接：

图片：http://static.ak.fbcdn.net/rsrc.php/z12E0/hash/8q2anwu7.gif

CSS式样表：http://static.ak.fbcdn.net/rsrc.php/z448Z/hash/2plh8s4n.css

JavaScript 文件：http://static.ak.fbcdn.net/rsrc.php/zEMOA/hash/c8yzb6ub.js

这些地址都要经历一个和HTML读取类似的过程。所以浏览器会在DNS中查找这些域名，发送请求，重定向等等...

不像动态页面，静态文件会允许浏览器对其进行缓存。有的文件可能会不需要与服务器通讯，而从缓存中直接读取，或者可以放到CDN中

10、web服务器关闭TCP连接

一般情况下，一旦web服务器向浏览器发送了请求数据后，它就要关闭TCP连接，然后如果浏览器或者服务器在其头信息加入这行代码：

connection:keep-alive

这样TCP连接将依然保持打开状态，浏览器可以继续通过相同的连接发送请求，保持连接，节省了为每个请求建立新连接所需要的的事件，同时节省了宽带

实际上，在HTTP 1.1 版本的新特性中有一点是：默认持久连接节省通信量，只要客户端、服务端任意一端没有明确断开TCP连接，可以发送多次HTTP请求。

版权说明：摘录到部分网络资源，如存在版权问题，请私信联系处理，谢谢！

关注头条号“编程家园”，后续陆续会有更多技术领域（包括并不限于Android进阶、Java进阶、Kotlin、网络、Flutter、Python等），以及架构、职业规划、职业思考等方面资料的免费分享，期待您的关注！

天办公用户都会通过网页获取不少信息，但是长时间面对电脑屏幕也会造成视觉上的疲劳感。因此不少用户改用收听的方式来获取信息，但并不是所有的信息都可以通过这种方式进行获取，比如网页中的内容就是如此。其实我们可以想方法将网页中的内容阅读出来，这样用户通过耳朵就可以获取需要的信息内容。

在阅读模式中聆听内容

当然通过网页浏览器自身的功能是无法完成这样的操作的，不过通过安装一个网页浏览器的功能扩展插件就可以很方便地解决了。如果用户使用的是谷歌浏览器，或者是在其基础上开发的360极速浏览器、百度浏览器、QQ浏览器等，可以分别通过它们的应用商店安装一款名为 Clearly的功能扩展插件。安装完成以后就可以在工具栏中看到该扩展插件的图标。

以后用户要想对网页中的内容进行阅读操作时，首先点击工具栏中的扩展图标“Active Clearly”，或者在网页正文上点击鼠标右键，选择菜单中的“Toggle Clearly”命令，这样就会将当前的页面切换到阅读模式的状态。这时在网页的右侧可以看到一排工具栏，点击工具栏中的小喇叭按钮，就可以对当前页面的整个内容进行阅读操作，这样用户就能快速有效地获取网页中的信息内容。如果用户想让功能扩展插件停止阅读网页内容，只需要点击工具栏中的关闭按钮退出阅读模式即可。

小提示：该功能扩展插件会将网页在阅读模式下分为三个部分，通过网页左侧的导航栏可以快速跳转到网页的某一个部分。而通过右侧的工具栏可以对网页中的文字大小、颜色、字体、背景等信息进行设置。

根据需要调整参数信息

虽然 Clearly这一功能扩展插件使用起来非常简单，但是它也有不足之处。首先它不支持火狐浏览器，另外使用它只能对整个页面的内容进行阅读，而不能对用户选取的部分内容进行阅读。如果用户的要求比较高的话，那么还可以考虑安装另外一款名为Read Aloud的功能扩展插件。

以后当用户想要对网页中的内容进行阅读时，直接点击工具栏中的扩展图标。这时会弹出一个对话框窗口，在其中会看到提取出的网页文字信息。点击对话框窗口中的播放按钮，就能对其中的文字信息进行阅读（图1）。用户也可以通过鼠标选中要进行阅读的部分文字，然后再点击该功能扩展图标进行操作即可。此外，在对话框窗口中用户还可以对字体的大小进行调整，以及对窗口的大小进行调整等操作。

如果用户对Read Aloud的朗读速度等参数不满意的话，还可以在扩展图标上点击鼠标右键，选择“选项”命令后，在弹出的对话框中就可以进行相关的设置。比如用户在“朗读语音”列表中可以选择不同的朗读任务，从而更好地满足不同用户的聆听要求。但是需要提醒大家的是，在这个列表中包括了多种不同语言的朗读设置，用户一定要选择带有“Chinese”信息的才能朗读中文（图2）。设置完成以后可以点击“去测试”按钮，这样就可以对刚才的设置进行感受，查看是否能满足自己最终的需要。

（CP）

在线咨询

上一篇：云南省纪委监委网站改版上线
下一篇：C# 中的 get 和 set 访问器：深入解析属性

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商