「C#实战」一行代码搞定！高效移除HTML标签还原纯净文本

HTML文本中移除所有HTML标记并提取纯文本是我们经常需要使用的文本内容处理方式，比如搜索引擎、网站爬虫或者本地文档检索系统需要提取网页或HTML文档的实际内容进行索引。通过去除HTML标签，可以专注于实际的文字信息，提高搜索结果的相关性和准确性。在新闻聚合应用或社交媒体平台上展示网页链接的摘要时，通常会提取并显示纯文本内容以提供简洁的预览。对于视觉障碍人士使用的辅助技术如屏幕阅读器，它们无法解析复杂的HTML结构，因此需要提取纯文本以便朗读给用户。所以今天给大家分享一个使用正则表达式移除所有的Html标记的方法，供有需要的朋友们参考：

第一个核心代码是：正则表达式"<.*?>"

// 示例用法：

string inputHtml = "<html><body><h1>Hello, World!</h1>This is a <b>test</b>.</body></html>";

string plainText = RemoveHtmlTags(inputHtml);

Console.WriteLine(plainText); // 输出: "Hello, World!This is a test."

public static string RemoveHtmlTags(string html)

{

// 正则表达式用于匹配HTML标签

Regex regex = new Regex("<.*?>", RegexOptions.Singleline | RegexOptions.Compiled);

// 使用正则表达式的Replace方法移除所有匹配的HTML标签

string result = regex.Replace(html, String.Empty);

return result;

}

这个正则表达式<.*?>是非贪婪匹配任何以 < 开始、以 > 结束的字符串，它会尽可能少地匹配字符以找到每个HTML标签。

请注意，虽然此方法对于简单场景可能有效，但对复杂的HTML文档（特别是含有嵌套标签、注释、CDATA等内容）可能不够健壮，因为它无法处理所有可能的HTML结构。

第二个核心代码是：正则表达式"<[^>]*>"

public static string ExtractPlainTextFromHtml(string html)

{

// 使用正则表达式匹配所有的HTML标签

// 注意：这个简单的正则表达式适用于大多数基础HTML结构，但可能无法处理复杂嵌套或特殊格式的HTML

Regex regex = new Regex("<[^>]*>", RegexOptions.Singleline | RegexOptions.Compiled);

// 使用Replace方法去除所有匹配到的HTML标签，并返回纯文本内容

string plainText = regex.Replace(html, String.Empty);

return plainText.Trim(); // 为了得到更整洁的结果，可以对结果进行trim操作以去除多余的空白字符

}

在这段代码中，我们定义了一个名为ExtractPlainTextFromHtml的方法，该方法利用正则表达式 <[^>]*> 来查找并替换所有HTML标签。这里的正则表达式表示任何以 < 开始、以 > 结束的非空字符串（即HTML标签），Singleline 选项使.能匹配换行符，以便跨多行搜索标签，而 Compiled 选项则是为了优化正则表达式的性能。

第二个核心代码是：正则表达式"<[^>]*>"

public static string RemoveHtmlTags(string html)

{

// 正则表达式，匹配所有HTML标签

string pattern = "<[^>]+>";

// 使用Regex.Replace方法移除所有匹配的HTML标签

return Regex.Replace(html, pattern, String.Empty);

}

请注意，此方法仅移除HTML标记，不会解析或处理嵌入在HTML中的JavaScript代码或其他非标记内容。此外，此方法也无法处理不规范或不符合预期格式的HTML标记。如果需要更复杂的HTML解析或清理，您可能需要使用专门的HTML解析库，如AngleSharp或HtmlAgilityPack等。

尽管上述方法对于许多简单场景已经足够有效，但在面对复杂的HTML文档时，由于HTML本身的嵌套和特殊结构，简单的正则表达式可能无法完美地解析并移除所有标签。在这种情况下，推荐使用专门为处理HTML设计的库，如HtmlAgilityPack，它可以准确地解析HTML并提供丰富的API用于提取纯文本内容。

例

HTML 注释：

<p>这是一个段落</p>

浏览器支持

所有主流浏览器都支持  注释标签。

标签定义及使用说明

注释标签用来在源文档中插入注释。注释不会在浏览器中显示。

您可使用注释对您的代码进行解释，这样做有助于您在以后的时间对代码的编辑。特别是代码量很大的情况下很有用。

您也可以在注释内容存储针对程序所定制的信息。在这种情况下，这些信息对用户是不可见的，但是对程序来说是可用的。一个好的习惯是把注释或样式元素放入注释文本中，这样就可避免不支持脚本或样式的老浏览器把它们显示为纯文本。

<scripttype="text/javascript"></script>

注释：命令行最后的两个正斜杠（//）是 JavaScript 注释符号。这确保了 JavaScript 不会执行 --> 标签。

除了在源文档中有非常明显的作用外，许多 Web 服务器也利用注释来实现文档服务端软件特有的特性。这些服务器可以扫描文档，从传统的 HTML/XHTML 注释中找到特定的字符序列，然后再根据嵌在注释中的命令采取相应的动作。这些动作可能是简单的包括其他文件中的文本（即所谓的服务器端包含，server-inside include），也可能是复杂地执行其他命令去动态生成文档的内容。

HTML 4.01 与 HTML5之间的差异

无。

标准属性

注释标签不支持任何标准属性。

如需更多有关 HTML 标准属性的信息，请访问标准属性。

事件属性

注释标签不支持任何事件属性。

如需更多有关 HTML 事件属性的信息，请访问事件属性。

如您还有不明白的可以在下面与我留言或是与我探讨QQ群308855039，我们一起飞！

我们从网页上抓取数据时，有时候会遇到数据被嵌套在HTML标签里的情况，特别是当这些数据是以JSON格式呈现的时候。这些JSON字符串中可能含有许多不必要的空格，使得数据看起来很乱，不易于阅读。

在C#编程语言中，我们可以使用正则表达式来轻松地解决这个问题。通过匹配和替换HTML标签以及连续的空格，我们可以使数据更加整洁，更易于处理。

下面我们用一个具体的例子，说明如何使用C#和正则表达式来清理和处理这些嵌套在HTML中的JSON数据。

假设我们有如下的HTML字符串，其中包含一个JSON数据段：

优化JSON数据格式：使用C#正则表达式去除HTML标签并替换多余空格

我们的目标是提取出这个JSON数据段，去除其中的HTML标签，并将多余的空格替换为单个空格，以便于阅读和解析。

首先，我们需要使用C#的正则表达式来提取出JSON数据段。正则表达式 @"<textarea[^>]*>((.|\n)*?)<\/textarea>"将匹配并提取出位于 <textarea> 和 </textarea> 标签之间的所有内容。

接下来，我们将使用另一个正则表达式 @"\s+" 来匹配一个或多个连续的空格，并将其替换为一个空格。

下面是完成这些步骤的C#代码示例：

// 代码注释：

// 此处运用正则表达式的强大功能，首先定位并剥离HTML标签以提取纯JSON文本；

// 然后，针对JSON文本中的连续空白字符（包括空格、制表符等），使用另一个正则表达式进行查找和替换；

// 最终输出的formattedJsonString是经过整理、仅保留单个空格的格式化JSON字符串。

现在，JSON字符串已经没有多余的空格，格式整洁，易于阅读。这样的数据更便于后续的处理和解析。

在线咨询

上一篇：html5小游戏源代码程序设计html源码网页电子版资料素材
下一篇：手把手教你编写Python抢购脚本

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商

「C#实战」一行代码搞定！高效移除HTML标签还原纯净文本

您的项目需求