终于搞懂如何用Java去除HTML标签了

我平时的工作中，偶尔会用 Java 做一些解析HTML的工作。有的时候我需要删除所有的HTML标签，只保留纯文字内容。这个问题在做过一些爬虫工作的朋友来说很简单。下面来说说，我们平时使用到的集中解析的方法。

使用正则表达式

通过爬虫爬到的HTML内容，从程序角度来讲，就是一个字符串。我们可以对其按照纯文本处理的方式来处理。

我们在做文本处理的时候，第一个想到的就是正则表达式。从一个字符串中删除HTML，对于正则来说，还是比较简单的。毕竟还是有固定的格式，比如“<...>”。

我们常用的的正则就是 <[^>]> 或者 <.*?> 。

我们在使用正则的时候，需要注意的是正则默认是贪婪匹配。也就是说，正则表达式<.*> 能够匹配到更多的HTML内容，而不是单个标签。

现在，让我们测试一下它是否能从HTML源中删除标签。

正则测试删除标签1

在我们测试删除HTML标签之前，首先让我们创建一个HTML例子，例如example1.html。

<!DOCTYPE html>
<html>
<head>
    <title>这是标题</title>
</head>
<body>
    <p>
        如果应用程序X没有启动，可能的原因是<br/>
        1. <a href="https://maven.apache.org">Maven</a>没有安装<br/>
        2. 磁盘空间不足<br/>
        3. 内存不足
    </p>
</body>
</html>

现在，让我们写一个测试，用String.replaceAll()来删除HTML标签。

String html = ... // load example1.html
String result = html.replaceAll("<[^>]`>", "");
System.out.println(result);

如果我们运行这个测试方法，我们会看到结果。

    这是标题



        如果应用程序X没有启动，可能的原因是
        1.Maven没有安装
        2.磁盘空间不足
        3.没有足够的内存

输出结果保留了剥离后的HTML的空白处。我们在处理提取的文本时，可以很容易地删除或跳过这些空行或空白处。

正则测试删除标签2

我们刚才已经看到了，通过使用Regex来删除HTML标签是非常简单。但是粗暴的使用这种方法会有很多问题，我们不能预测最终的结果会是怎么样的。

例如，一个HTML文档可能有<script>或<style>标签，而我们可能不希望在结果中出现它们的内容。

此外，<script>、<style>、甚至是<body>标签中的文本可能包含 <或 >字符。如果是这种情况，我们的正则方法可能会出错。

现在，让我们看看另一个例子，比如example2.html。

<!DOCTYPE HTML>
<html>
<head>
    <title>这是标题</title>
</head>
<script>
    // some js function
</script>
<body>
    <p>
        如果应用程序X没有启动，可能的原因是<br/>
        1. <a
            id="link"
            href="http://maven.apache.org/">
            Maven
            </a> 没有安装<br/>
        2. 磁盘空间不足 (<1G) <br/>
        3. 内存不足(<64MB)<br/>
    </p>
</body>
</html>

现在我们有一个<script>标签和 <字符在<body>标签内。

如果我们对example2.html使用同样的方法，我们会得到如下内容。

   这是标题
    // some js function
        如果应用程序X没有启动，可能的原因是
        1. 
            Maven
             没有安装
        2. 磁盘空间不足 (
        3. 内存不足(

显然，由于"<"字符的存在，我们丢失了一些文本。所以正则在处理文本的时候并不是万能的。我们可以使用一些 HTML 解析器来做这些比较复杂的场景。

使用Jsoup

Jsoup 是一个流行的HTML解析库，如果想要从一个HTML文档中提取文本，我们可以简单地调用Jsoup.parse(htmlString).text()。

在项目中使用的时候，我们首先需要添加 jsoup 的依赖库，我们这里就通过maven的方式引入。

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.3</version>
</dependency>

我们用 example2.html来测试一下。

String html = ... // load example2.html
System.out.println(Jsoup.parse(html).text());

如果我们让这个方法运行，它就会打印出来。

这是标题 如果应用程序X没有启动，可能的原因是 1.Maven没有安装 2.没有足够的（<1G）磁盘空间 3.没有足够的（<64MB）内存

从输出结果可知，Jsoup已经成功地从HTML文档中提取了文本。另外，<script>元素中的文本已经被忽略了。

此外，默认情况下，Jsoup会删除所有的文本格式和空白处，比如换行符。

使用HTMLCleaner

HTMLCleaner 也是一个HTML解析库。

首先，我们需要在pom.xml中添加HTMLCleaner 依赖。

<dependency>
    <groupId>net.sourceforge.htmlcleaner</groupId>
    <artifactId>htmlcleaner</artifactId>
    <version>2.25</version>
</dependency>

我们可以设置[各种参数]（http://htmlcleaner.sourceforge.net/parameters.php）来控制HTMLCleaner的解析行为。我们在这里使用HTMLCleaner在解析example2.html时跳过<script>元素。

String html = ... // load example2.html
CleanerProperties props = new CleanerProperties();
props.setPruneTags("script");
String result = new HtmlCleaner(props).clean(html).getText().toString();
System.out.println(result);

运行一下，HTMLCleaner将产生这样的输出。

这是标题



        如果应用程序X没有启动，可能的原因是：
        1.Maven没有安装
        2.没有足够的（<1G）磁盘空间
        3.内存不足（<64MB）

我们可以看到，<script>元素中的内容被忽略了， <br/>标签转换为提取的文本中的换行符。另外， HTMLCleaner 保留了HTML的空白内容。

总结

在这篇文章中，我们学习了几种去除HTML的方法，我们需要注意的是，正则在文本处理的过程中并不是万能的。

过上一章的内容，现在网页文件中，我们还须要去除的就是html代码了。

下面我们要研究一下html代码的主要特点，不管什么样的HTML代码，他们均被左右尖括号所包围，就像这个样子<代码>，因此，我们就有了去除的方法，把括号中的内容和联通括号一起去除掉，就可以了。

下面开始，根据我们的想法，可以写出，下面这样的主程序

看上图，再上一张定义的函数，我们把它移动到了通用函数库中

第21行，这是我们新增的代码，执行完这个代码，就去除掉了HTML标记，剩下的就应该是纯文字内容了。在这里，我们定义了一个函数，名字叫做去除html代码。

下面我们研究一下，这个函数的内容，如下图

因为使用了正则表达式，因此，在程序运行前，必须导入模块re

第3行，导入我们所需要的re模块，我们想用到正则表达式

第5行，定义函数

第6行，用右尖括号分格隔成列表

第8行，对列表元素进行遍历

第9行，使用正则挑出有效的内容，其实就是去除以前孤立的右尖括号的内容。

第10行，对有效的内容进行左尖括号分隔

第11行，左尖括号前面的内容就是有效的文字内容

完整的程序如下

下面我们对程序进行下测试，在上一章中，程序运行后得到如下的内容（内容太长，只截取一小部分）

本次程序改造后，运行得到下面的内容

从上面两个图片可以看出，我们确实把文字内容提取出来了。

端网页的开发中总是不可避免会使用到超链接，但是使用超链接时下面都会有一条下划线，这在网页中有时会显得很突兀，不合适也不美观，所以我们就需要将超链接下的这条下划线给去掉.接下来给大家介绍Html下超链接去掉下划线的方法

您可以使用CSS的text-decoration属性来去掉超链接下划线。只需将其设置为none即可，示例代码如下:

text-decoration: none;

}

这会将页面中所有超锥接下划线都去，如果您只想去掉某些超链接的下划线，可以为这些链接添加一个特定的class，并针对该CIass设置上述CSS属性。

例子：

<!DOCTYPE html>

<html>

<head>

<title>css超链接去掉下划线示例</title>

<style>

text-decoration: none;

}

</style>

</head>

<body>

<a href="">大家再看我还有没有下划线了！</a>

</body>

</html>

可以发现，此时文本超链接下划线是不是已经去掉了？这个效果实现是不是非常简单呢？大家主要掌握一个样式属性就是text-decoration: none;这个属性。给对应的a标签文本添加这个属性就可以去除文本超链接下划线了。

扩展资料：

HTML 超链接(链接)的属性：

超链接可以是一个字，一个词，或者一组词，也可以是一幅图像，您可以点击这些内容来跳转到新的文档或者当前文档中的某个部分。

当您把鼠标指针移动到网页中的某个链接上时，箭头会变为一只小手。

我们通过使用标签在 HTML 中创建链接。

有两种使用标签的方式：

1、通过使用 href 属性 - 创建指向另一个文档的链接；

2、通过使用 name 属性 - 创建文档内的书签。

在线咨询

上一篇：50+款手机端H5框架炸裂推荐（上）
下一篇：使用低代码工具配置生成一个应用

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商