TML是超文本标记语言(英语:HyperText Markup Language,简称:HTML)是一种用于创建网页的标准标记语言。
您可以使用 HTML 来建立自己的 WEB 站点,HTML 运行在浏览器上,由浏览器来解析。
.HTML指的是超文本标记语言
.HTML不是编程语言,而是一种标记语言
.标记语言是一套标记标签
.HTML使用标记标签来描述网页
.HTML文档包含了HTML标签和文本内容
.HTML文档也叫做web页面
HTML实例:
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title> HTML教程实例</title>
</head>
<body>
<h1>我的第一个标题</h1>
<p>我的第一个段落</p>
</body>
</html>
注意:对于中文网页需要使用<meta charset="udf-8">声明编码,否则出现乱码。有些浏览器(如 360 浏览器)会设置 GBK 为默认编码,则你需要设置为 <meta charset="gbk">。
实例解析:
<!DOCTYPE html>声明为HTML5文档
<html>元素是HTML页面的根元素
<head>元素包含了文档的元数据
<title>元素描述了文档的标题
<body>元素包含了可见的页面内容
<h1>元素定义一个大标题
<p>元素定义一个段落
TML 实例
<!DOCTYPEhtml><html><head><metacharset="utf-8"><title>菜鸟教程(runoob.com)</title></head><body><h1>我的第一个标题</h1><p>我的第一个段落。</p></body></html>
实例解析
DOCTYPE 声明了文档类型
位于标签 <html> 与 </html> 描述了文档类型
位于标签 <body> 与 </body> 为可视化网页内容
位于标签 <h1> 与 </h1> 作为一个标题使用
位于标签 <p> 与 </p> 作为一个段落显示
<!DOCTYPE html> 在HTML5中也是描述了文档类型。 |
什么是HTML?
HTML 是用来描述网页的一种语言。
HTML 指的是超文本标记语言: HyperText Markup Language
HTML 不是一种编程语言,而是一种标记语言
标记语言是一套标记标签 (markup tag)
HTML 使用标记标签来描述网页
HTML 文档包含了HTML 标签及文本内容
HTML文档也叫做 web 页面
HTML 标签
HTML 标记标签通常被称为 HTML 标签 (HTML tag)。
HTML 标签是由尖括号包围的关键词,比如 <html>
HTML 标签通常是成对出现的,比如 <b> 和 </b>
标签对中的第一个标签是开始标签,第二个标签是结束标签
开始和结束标签也被称为开放标签和闭合标签
<标签>内容</标签>
HTML 元素
"HTML 标签" 和 "HTML 元素" 通常都是描述同样的意思.
但是严格来讲, 一个 HTML 元素包含了开始标签与结束标签,如下实例:
HTML 元素:
<p>这是一个段落。</p>
Web 浏览器
Web浏览器(如谷歌浏览器,Internet Explorer,Firefox,Safari)是用于读取HTML文件,并将其作为网页显示。
浏览器并不是直接显示的HTML标签,但可以使用标签来决定如何展现HTML页面的内容给用户:
HTML 网页结构
下面是一个可视化的HTML页面结构:
<html>
<head>
<title>页面标题</title>
</head>
<body>
<h1>这是一个标题</h1>
<p>这是一个段落。</p>
<p>这是另外一个段落。</p>
</body>
</html>
只有 <body> 区域 (白色部分) 才会在浏览器中显示。 |
HTML版本
从初期的网络诞生后,已经出现了许多HTML版本:
版本 | 发布时间 |
---|---|
HTML | 1991 |
HTML+ | 1993 |
HTML 2.0 | 1995 |
HTML 3.2 | 1997 |
HTML 4.01 | 1999 |
XHTML 1.0 | 2000 |
HTML5 | 2012 |
XHTML5 | 2013 |
<!DOCTYPE> 声明
<!DOCTYPE>声明有助于浏览器中正确显示网页。
网络上有很多不同的文件,如果能够正确声明HTML的版本,浏览器就能正确显示网页内容。
doctype 声明是不区分大小写的,以下方式均可:
<!DOCTYPE html>
<!DOCTYPE HTML>
<!doctype html>
<!Doctype Html>
通用声明
HTML5
<!DOCTYPE html>
HTML 4.01
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
"http://www.w3.org/TR/html4/loose.dtd">
XHTML 1.0
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
查看完整网页声明类型 DOCTYPE 参考手册。
中文编码
目前在大部分浏览器中,直接输出中文会出现中文乱码的情况,这时候我们就需要在头部将字符声明为 UTF-8。
HTML 实例
<!DOCTYPEhtml><html><head><metacharset="UTF-8"><title>页面标题</title></head><body><h1>我的第一个标题</h1><p>我的第一个段落。</p></body></html>
如您还有不明白的可以在下面与我留言或是与我探讨QQ群308855039,我们一起飞!
eautifulSoup简称BS4(其中4表示版本号)是一个Python第三方库,它可以从HTML或XML文档中快速地提取指定的数据。BeautifulSoup语法简单,使用方便,并且容易理解,因此您可以快速地学习并掌握它。本节我们讲解BS4的基本语法。
由于BautifulSoup是第三方库,因此需要单独下载,下载方式非常简单,执行以下命令即可安装:
pip install bs41复制代码类型:[python]
由于BS4解析页面时需要依赖文档解析器,所以还需要安装lxml作为解析库:
pip install lxml1复制代码类型:[python]
Python也自带了一个文档解析库html.parser,但是其解析速度要稍慢于lxml。除了上述解析器外,还可以使用html5lib解析器,安装方式如下:
pip install html5lib1复制代码类型:[python]
该解析器生成HTML格式的文档,但速度较慢。
“解析器容错”指的是被解析的文档发生错误或不符合格式时,通过解析器的容错性仍然可以按照既定的正确格式实现解析。
创建BS4解析对象是万事开头的第一步,这非常地简单,语法格式如下所示:
#导入解析包
from bs4 import BeautifulSoup
#创建beautifulsoup解析对象
soup = BeautifulSoup(html_doc, 'html.parser')1234复制代码类型:[python]
下面对爬虫中经常用到的BS4解析方法做详细介绍。
BeautifulSoup将HTML文档转换成一个树形结构,该结构有利于快速地遍历和搜索HTML文档。下面使用树状结构来描述一段HTML文档:
<html><head><title>开课吧广场</title></head><h1>topic.kaikeba.com</h1><p><b>一个学习编程的网站</b></p></body></html>1复制代码类型:[python]
树状图如下所示:
文档树中的每个节点都是Python对象,这些对象大致分为四类:Tag,NavigableString,BeautifulSoup,Comment。其中使用最多的是Tag和NavigableString。
Tag:标签类,HTML文档中所有的标签都可以看做Tag对象。
NavigableString:字符串类,指的是标签中的文本内容,使用text、string、strings来获取文本内容。
BeautifulSoup:表示一个HTML文档的全部内容,您可以把它当作一个人特殊的Tag对象。
Comment:表示HTML文档中的注释内容以及特殊字符串,它是一个特殊的NavigableString。
1)Tag节点
标签(Tag)是组成HTML文档的基本元素。在BS4中,通过标签名和标签属性可以提取出想要的内容。
Tag对象提供了许多遍历tag节点的属性,比如contents、children用来遍历子节点;parent与parents用来遍历父节点;而next_sibling与previous_sibling则用来遍历兄弟节点。
find_all()与find()是解析HTML文档的常用方法,它们可以在HTML文档中按照一定的条件(相当于过滤器)查找所需内容。find()与find_all()的语法格式相似,希望大家在学习的时候,可以举一反三。
BS4库中定义了许多用于搜索的方法,find()与find_all()是最为关键的两个方法,其余方法的参数和使用与其类似。
1)find_all()
find_all()方法用来搜索当前tag的所有子节点,并判断这些节点是否符合过滤条件,最后以列表形式将符合条件的内容返回,语法格式如下:
find_all(name,attrs,recursive,text,limit)
参数说明:
name:查找所有名字为name的tag标签,字符串对象会被自动忽略。
attrs:按照属性名和属性值搜索tag标签,注意由于class是Python的关键字吗,所以要使用"class_"。
recursive:find_all()会搜索tag的所有子孙节点,设置recursive=False可以只搜索tag的直接子节点。
text:用来搜文档中的字符串内容,该参数可以接受字符串、正则表达式、列表、True。
limit:由于find_all()会返回所有的搜索结果,这样会影响执行效率,通过limit参数可以限制返回结果的数量。
2)find()
find()方法与find_all()类似,不同之处在于find_all()会将文档中所有符合条件的结果返回,而find()仅返回一个符合条件的结果,所以find()方法没有limit参数。
BS4支持大部分的CSS选择器,比如常见的标签选择器、类选择器、id选择器,以及层级选择器。BeautifulSoup提供了一个select()方法,通过向该方法中添加选择器,就可以在HTML文档中搜索到与之对应的内容。
开课吧广场-人才学习交流平台
*请认真填写需求信息,我们会在24小时内与您取得联系。