TML格式化标签
HTML 使用标签 <b>("bold") 与 <i>("italic") 对输出的文本进行格式, 如:粗体 or 斜体
通常标签 <strong> 替换加粗标签 <b> 来使用, <em> 替换 <i>标签使用。
然而,这些标签的含义是不同的:
<b> 与<i> 定义粗体或斜体文本。
<strong> 或者 <em>意味着你要呈现的文本是重要的,所以要突出显示。现今所有主要浏览器都能渲染各种效果的字体。不过,未来浏览器可能会支持更好的渲染效果。
文本格式化
<b>加粗</b>
<strong>加粗</strong>
<big>字体放大</big>
<em>斜体</em>
<i>斜体</i>
<small>缩小</small>
<sub>下标</sub>
<sup>上标</sup>
预格式文本
计算机输出标签
地址
缩写和首字母缩写
文字方向
块引用
删除字与插入字效果
总结
html 段落
通过<p>标签来创建段落(paragraph)
<p>这是一个段落</p>
浏览器会自动在段落的前后添加空格
●如果你希望在不产生一个新段落的情况下进行换行(新行),请使用<br>标签
<p>这是一个段落</p>
<p>这是另一个段落</p>
<p>这个段落<br>演示了换行的效果</p>
●<br>元素是一个空的html元素,它没有结束标签.效果如下:
二 html文本格式化
html使用标签<b>与<i>对输出的文本进行格式化,如:粗体(bold)和斜体(italic).这些html标签被称为格式化标签
<!doctype html>
<html>
<head>
<meta charset="utf-8">
<title>爱你的阿平</title>
</head>
<body>
<p><b>定义粗体文本</b></p>
<p><em>定义着重文字</em></p>
<p><i>定义斜体字</i></p>
<p><small>定义小号字<small></p>
<p><strong>定义重要的文本<strong></p>
<p><sub>下标字</sub></p>
<p><sup>上标字</sup></p>
<p><ins>定义插入字</ins></p>
<p><del>定义删除字</del></p>
</body>
</html>
结果如下:
信息爆炸的互联网时代,网络爬虫如同一把神奇的钥匙,帮助我们打开海量网页内容的大门。然而,在实际操作过程中,不规范的网页格式、纷繁复杂的干扰元素,特别是那些占据屏幕空间、影响阅读体验的广告,往往成为获取高质量数据的一大阻碍。因此,一款专为网络爬虫设计的HTML广告移除神器显得尤为重要。这款工具利用强大的HtmlAgilityPack库,能够迅速而精准地识别并剔除带有class='ad'属性的广告标签,让抓取到的页面内容回归其最纯粹的本质。
代码执行效果如图:
调用代码:
// 假设这是从某个网页上抓取的包含广告的“混乱”HTML文本
string clutteredHtml = @"<html><head><title>网页标题</title></head><body><div class='header'><h1>网站标题</h1></div><div class='nav'><ul><li><a href='#'>首页</a></li><li><a href='#'>关于我们</a></li><li><a href='#'>联系我们</a></li></ul></div><div class='content'><p>正文内容1...</p><p>正文内容2...</p><p>正文内容3...</p></div><div class='ad'>广告1...</div><div class='ad'>广告2...</div><div class='ad'>广告3...</div><div class='footer'><p>© 2023 版权所有</p></div></body></html>";
// 使用广告移除功能对抓取的“脏乱差”HTML进行深度清理
string polishedHtml = ScrubAndRemoveAds(clutteredHtml);
// 广告移除及HTML内容净化的具体实现方法
public static string ScrubAndRemoveAds(string messyHtmlContent)
{
// 创建一个可以解析和理解HTML结构的对象,并载入抓取的HTML文本
var htmlParser = new HtmlDocument();
htmlParser.LoadHtml(messyHtmlContent);
// 扫描整个HTML文档,找到所有标记为广告(class属性值为"ad")的部分并删除
foreach (var adElement in htmlParser.DocumentNode.SelectNodes("//div[@class='ad']"))
{
adElement.Remove(); // 删除广告区域
}
// 返回已经清除广告后的清爽HTML文本
return htmlParser.DocumentNode.OuterHtml;
}
这个代码有效地解决了网络爬虫在抓取数据时遇到的广告难题。无论对于追求极致阅读体验的个人用户,还是力求优化数据质量、节省资源成本的企业级用户,这个小工具都展现出了卓越的价值。无需繁琐的操作流程,一键即可轻松摆脱广告干扰,让你获得高质量、纯净的网页内容。无论是单独处理单个网页,还是批量清洗大量的抓取数据,此工具都能得心应手,为您提供高效便捷的网络数据整理解决方案。朋友们,喜欢就拿去吧,别忘记关注我:代码领域的诗人XY,我是一个乐于分享的人。乐于将自己的知识和经验分享给朋友们,帮助你们解决问题,启发你们的思考。我相信,只有通过分享和交流,我们才能不断进步,才能不断创新。
*请认真填写需求信息,我们会在24小时内与您取得联系。