技术分享 - web前端的HTML浅析

文节选自霍格沃兹测试开发学社内部教材

WEB 就是 World Wide Web 的缩写，称之为全球广域网，俗称 WWW。对于用户来说其实就是由多个网页组合在一起而形成一种服务。

WEB 前端负责展示一个网站当中前台网页里的内容。而网页是由前端工程师使用 HTML 语言编写而成的一种文件，它里面会包含文字、图片、超链接、音频、视频等等这些内容。

HTML 超文本标记语言（Hyper Text Markup Language）就是用来描述网页的一种计算机语言。

HTML发展

在互联网最初的时候是没有 HTML 的，只能通过网络传输最简单的文字内容。随着用户的要求越来越多，同时也随着技术的不断发展，就出现了一种可以表达文字内容之外的语言 HTML1.0。后来又慢慢发展到了现在的 HTML5，也就是现在常说的 H5。

HTML查看工具

在测试过程中，有时候需要通过工具去查看对应的 HTML 代码。在这里可以用浏览器自带的开发者工具，打开这个工具的快捷键是 F12。

开发者工具是一个相当强大的工具。可以查看修改 HTML，还可以调试 JS，可以修改 CSS，还可以查看网络数据，并且还能进行性能测试，非常的全能。对于 WEB 测试来说，是一个必须要掌握的工具。

要查看 HTML 源码，只需要进入开发者工具的 Elements 界面。在这里可以对 WEB 页面上的元素进行定位，并且查看整个 WEB 页面的 HTML 源码。

HTML基本结构

基本结构

网页是通过 HTML 语言来书写。用 HTML 语言去书写网页有一些结构是默认必须存在的，这个结构就叫做网页（HTML）骨架。

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Title</title>
</head>
<body>

</body>
</html>

HTML 基本标签

常见标签

<!DOCTYPE html>：向浏览器声明当前的文档是 HTML 类型。
<html> 与 </html> 之间的文本描述网页，<html>是网页当中最大的一个标签，称之为根标签。
<head> 与 </head> 描述网页头部，里面的内容是写给浏览器看的。
<meta charset="UTF-8"> 表示在设置当前网页的显示编码。
<title> 与 </title> 之间文本为网页的标题，里面的内容会在浏览器的标签页上显示。
<body> 与 </body> 之间的文本是网页主体，里面的内容会显示在浏览器的空白区域内。
<div> 与 </div> 之间定义网页中的一个分隔区块或者一个区域部分。
<h1> 与 </h1> 之间的文本被显示为标题。
<p> 与 </p> 之间的文本被显示为段落。

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>网页标题</title>
</head>
<body>
    <div>
        <h1>我的第一个网页</h1>
        <p>网页中的内容</p>
    </div>
</body>
</html>

标签的属性

HTML 标签可以拥有属性。属性提供了有关 HTML 元素的更多的信息。属性总是以名称/值对的形式出现，比如：name="value"。

属性的基本格式为：<标签名属性1="属性值1" 属性2="属性值2">

每个标签都可以拥有多个属性。属性必须写在开始标签中，位于标签名的后面。属性之间不区分顺序。标签名与属性、属性与属性之间使用空格隔开。任何属性都有默认值，省略该属性表示使用默认值。

在 HTML 里，属性也有很多种，比如首先有全局属性，全局属性是所有的标签都可以使用的。然后还有事件属性，事件大家可以理解为不同的操作。在不同的操作中，也有特殊的属性可以定义。最后还有各个标签的一些独有的属性。

比如常见的全局属性有:

class：规定元素的类名
id：规定元素的唯一 id

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>网页标题</title>
</head>
<body>
    <div id="first" class="content">网页中的内容</div>
</body>
</html>

来霍格沃兹测试开发学社，学习更多软件测试与测试开发的进阶技术，知识点涵盖web自动化测试 app自动化测试、接口自动化测试、测试框架、性能测试、安全测试、持续集成/持续交付/DevOps，测试左移、测试右移、精准测试、测试平台开发、测试管理等内容，课程技术涵盖bash、pytest、junit、selenium、appium、postman、requests、httprunner、jmeter、jenkins、docker、k8s、elk、sonarqube、jacoco、jvm-sandbox等相关技术，全面提升测试开发工程师的技术实力。

获取更多内容：https://qrcode.testing-studio.com/f?from=toutiao&url=https://ceshiren.com/t/topic/16586

互联网时代，获取和整理大量的文章内容是非常必要的。而PHP作为一种强大的编程语言，可以帮助我们高效地采集文章。本文将分享我在使用PHP进行文章采集过程中的经验和技巧。

1.确定采集目标：

在开始采集之前，我们首先需要明确我们想要采集的文章来源和具体内容。可以选择一些优质的网站或博客作为目标，提前了解其页面结构和数据格式。

2.使用HTTP请求库：

在PHP中，我们可以使用curl或者Guzzle等HTTP请求库来发送请求并获取网页内容。这些库可以帮助我们模拟浏览器行为，获取到完整的页面源码。

3.解析HTML：

获取到页面源码后，我们需要使用HTML解析库（如Simple HTML DOM）来解析HTML结构，提取出我们所需的文章标题、正文、作者等信息。

4.处理编码问题：

在进行HTML解析时，经常会遇到编码问题。我们需要注意判断网页的字符编码，并进行相应的处理，以保证获取到正确的文本内容。

5.过滤无用信息：

有些网页中可能包含一些广告、导航栏等无用信息。我们可以使用正则表达式或者CSS选择器来过滤掉这些干扰项，只保留我们所需的文章内容。

6.处理分页：

如果目标网站的文章分页展示，我们需要处理分页问题。可以通过分析URL规律或者使用分页参数来获取多页的文章内容。

7.存储数据：

获取到文章内容后，我们可以选择将其存储到数据库中，或者生成JSON、XML等格式的文件进行保存。这样方便后续的数据处理和展示。

8.定时任务：

如果我们需要定期采集文章，可以使用PHP的定时任务工具（如cron）来自动执行采集程序，保证数据的及时更新。

9.异常处理：

在采集过程中，可能会遇到网络异常、页面结构变化等问题。我们需要编写健壮的代码，并进行适当的异常处理，以确保程序的稳定性和可靠性。

10.合法合规：

在进行文章采集时，要遵守相关法律法规和网站的规定。尊重原创作者的权益，不侵犯他人的合法权益。

以上是我在使用PHP进行文章采集过程中总结出的经验和技巧。希望对大家在实际应用中有所帮助。通过合理利用PHP的强大功能，我们可以高效地获取和整理大量的文章内容，为自己的工作和学习提供有力支持。

tml网页源码加密

html网页源码能加密吗？能加密到何种程度？

某些时候，我们可能需要对html网页源码加密，使网页源码不那么容易被他人获得。出于这个目标，本文测试一种html加密方式。

提前透露：结论超出预期，似乎还实现了反爬虫。

首先来到网址：http://fairysoftware.com/html_jia_mi.html

由页面介绍可知，这是一种使用js和escape结合实现的html加密。

直接使用页面提供的例程，加密这一段html代码：

得到加密的html代码，如下图：

然后将加密代码粘贴到一个html文件中测试，如下图：

页面可以正常打开。查看网页源码，果然源码是加密的，如下图：

特别的惊喜之处是：

如上图所示，链接果然消失了。

即使用开发者工具查看，也无法得到链接地址，而原始未加密前的html代码中是有链接的，如下图：

那么消失了的链接，还能正常点击吗？

点击，链接可以正常打开：

虽然href链接隐藏了，但还能正常打开页面，功能完全正常。

测试结果既惊喜又意外，这样的html网页加密，效果还真是不错，值得一用。

在线咨询

上一篇：IIS服务器的搭建wind10版
下一篇：公务员报名序号是什么意思？忘记报名序号该怎么办？

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商