Python网页爬虫爬取豆瓣Top250电影数据(附带完整代码)？

个写博客的朋友想让我帮忙获取一下豆瓣上的Top250的电影数据，说是做个什么电影推荐榜，没办法之后硬着头皮拿出我那一小点点的Python爬虫技术来完成人家的需求了。当然了也是在不违法的情况下进行的。

要爬取豆瓣电影排名信息，我们可以使用Python中的Request库来发送一个请求，然后使用一些HTML解析工具例如BeautifulSoup或者是通过Lxml库来对HTML页面进行解析，然后将解析到的结果打印出来。

一个简单的实现

import requests
from bs4 import BeautifulSoup

def crawl_douban_movies(url):
    # 发送 HTTP GET 请求获取页面内容
    response = requests.get(url)
    if response.status_code == 200:
        # 使用 BeautifulSoup 解析页面内容
        soup = BeautifulSoup(response.text, 'html.parser')
        # 找到电影列表
        movie_list = soup.find_all('div', class_='item')
        for movie in movie_list:
            # 获取电影名称和评分
            title = movie.find('span', class_='title').text
            rating = movie.find('span', class_='rating_num').text
            print(f"电影：{title}，评分：{rating}")
    else:
        print("请求失败")

if __name__ == "__main__":
    # 豆瓣电影 Top 250 页面 URL
    url = "https://movie.douban.com/top250"
    crawl_douban_movies(url)

是不是有点简单了？在这个例子中我们通过requests.get()发送HTTP GET请求获取豆瓣电影Top250页面的HTML内容。然后，使用BeautifulSoup解析页面内容，提取出电影名称和评分，并打印出来。

运行程序之后，发现居然给我来了个请求失败？这是为什么呢？是网络请求不通？还是说豆瓣网站对相关的操作有所限制呢？

经过验证发现豆瓣网站可能设置了反爬虫机制，检测到了爬虫行为并阻止了请求。为了规避这种情况，我尝试设置请求头信息，来模拟正常的浏览器访问。

模拟正常浏览器的访问？

为了模拟正常浏览器的访问操作，所以添加了请求头信息，将代码升级成如下的样子。

import requests
from bs4 import BeautifulSoup

def crawl_douban_movies(url):
    # 添加 User-Agent 请求头信息
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
    }
    # 发送带有请求头信息的 HTTP GET 请求
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        # 使用 BeautifulSoup 解析页面内容
        soup = BeautifulSoup(response.text, 'html.parser')
        # 找到电影列表
        movie_list = soup.find_all('div', class_='item')
        for movie in movie_list:
            # 获取电影名称和评分
            title = movie.find('span', class_='title').text
            rating = movie.find('span', class_='rating_num').text
            print(f"电影：{title}，评分：{rating}")
    else:
        print("请求失败")

if __name__ == "__main__":
    # 豆瓣电影 Top 250 页面 URL
    url = "https://movie.douban.com/top250"
    crawl_douban_movies(url)

与之前不同的是，我们添加了User-Agent请求头信息。这样这个请求就是模拟浏览器发送的。应该算是正常请求了。果然，运行代码之后，结果如下。

正当我以为这样就可以的时候，朋友居然说为什么没有导演的信息，为什么没有那个简单的评语的信息呀？我勒个去？还要这么麻烦么？这就不得不让我去分析一下页面了

获取导演信息和评语信息？

打开网页开发这工具，简单的分析页面之后，有了这样的结果。如下所示。

导演信息，在一个div里面，并且class叫做bd，在这个div里面有个p标签，这个p标签中就是导演的信息。那么这样我们就可以通过如下的操作来获取了。

# 获取导演信息
directors = movie.find('div', class_='bd').find('p').text.split('\n')[1].strip().split('\xa0\xa0\xa0')

那么评语信息又在什么地方呢？

简单查找之后发现，评语在一个span标签中这就简单了，我们可以通过如下的方式来进行获取。

quote = movie.find('span', class_='inq').text if movie.find('span', class_='inq') else ''

整体代码修改变成了如下的样子。

import requests
from bs4 import BeautifulSoup

def crawl_douban_movies(url):
    # 添加 User-Agent 请求头信息
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
    }
    # 发送带有请求头信息的 HTTP GET 请求
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        # 使用 BeautifulSoup 解析页面内容
        soup = BeautifulSoup(response.text, 'html.parser')
        # 找到电影列表
        movie_list = soup.find_all('div', class_='item')
        for movie in movie_list:
            # 获取电影名称
            title = movie.find('span', class_='title').text
            # 获取导演信息
            directors = movie.find('div', class_='bd').find('p').text.split('\n')[1].strip().split('\xa0\xa0\xa0')
            director = directors[0].strip().split('：')[-1]
            # 获取评语
            quote = movie.find('span', class_='inq').text if movie.find('span', class_='inq') else ''
            print(f"电影：{title}，导演：{director}，评语：{quote}")
    else:
        print("请求失败")

if __name__ == "__main__":
    # 豆瓣电影 Top 250 页面 URL
    url = "https://movie.douban.com/top250"
    crawl_douban_movies(url)

运行上述代码之后，结果如下所示，我心想，这下应该就可以了吧，然后人家说评分没有了，我去，这东西还能难得我么？我就把评分的代码给复制粘贴到这段代码中。

将评分的获取代码复制粘贴完成之后，得到了如下的结果

我就说这是不是很完美了，他居然说还不行？他还要下面的时间信息、产地信息这些？我去这咋玩？

获取时间信息和产地信息？

其实获取时间信息和获取产地信息的方式跟上面的操作是一样的。只需要通过查看代码，找到对应的HTML标识就可以提取到对应的信息。

在获取电影详细信息的时候遇到了格式处理的问题，如下所示。

 # 获取电影详情信息
details = movie.find('div', class_='bd').find('p').text.split('\n')
info = [i.strip() for i in details if i.strip() != '']
#print("获取到信息",info)  # 打印详情信息列表
# 提取时间、产地和剧情信息
if len(info) >= 2:
    year_region = info[1].split('\xa0/\xa0')
    year = year_region[0].strip()
    region = year_region[1].strip()
    plot = info[1].strip()
else:
    year = "未知"
    region = "未知"
    plot = "未知"

获取到页面电影详情的URL地址？

要获取电影的详细页面 URL，需要从每个电影条目中提取链接信息。豆瓣电影条目的链接通常包含在a标签的href属性中如下图所示。

通过如下的操作来获取到对应属性中的数据

 detail_url = movie.find('a')['href']

最终获取完成的电影信息如下图所示。

到这里，人家的需求才算提完，原来现在电影博主都这么卷的了么？想要这么多信息，居然不自己整理，让我这个小喽喽来帮他实现。真实有天赋呀？

最终给出完整的代码

在满足了他所有的要求之后，最终我们给出详细的代码

import requests
from bs4 import BeautifulSoup

def crawl_douban_movies(url):
    # 添加 User-Agent 请求头信息
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
    }
    # 发送带有请求头信息的 HTTP GET 请求
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        # 使用 BeautifulSoup 解析页面内容
        soup = BeautifulSoup(response.text, 'html.parser')
        # 找到电影列表
        movie_list = soup.find_all('div', class_='item')
        for movie in movie_list:
            # 获取电影名称
            title = movie.find('span', class_='title').text
            rating = movie.find('span', class_='rating_num').text

            # 获取电影详细页面链接
            detail_url = movie.find('a')['href']

            # 获取导演信息
            directors = movie.find('div', class_='bd').find('p').text.split('\n')[1].strip().split('\xa0\xa0\xa0')
            director = directors[0].strip().split('：')[-1]
            # 获取评语
            quote = movie.find('span', class_='inq').text if movie.find('span', class_='inq') else ''
            # 获取电影详情信息
            details = movie.find('div', class_='bd').find('p').text.split('\n')
            info = [i.strip() for i in details if i.strip() != '']
            #print("获取到信息",info)  # 打印详情信息列表
            # 提取时间、产地和剧情信息
            if len(info) >= 2:
                year_region = info[1].split('\xa0/\xa0')
                year = year_region[0].strip()
                region = year_region[1].strip()
                plot = info[1].strip()
            else:
                year = "未知"
                region = "未知"
                plot = "未知"
            print(f"电影：{title}\n评分：{rating}\n导演：{director}\n评语：{quote}\n时间：{year}\n产地：{region}\n剧情：{plot}\n详细页面链接：{detail_url}\n")
    else:
        print("请求失败")

if __name__ == "__main__":
    # 豆瓣电影 Top 250 页面 URL
    url = "https://movie.douban.com/top250"
    crawl_douban_movies(url)

通过上述代码，我们就可以获取到豆瓣电影TOP250的所有电影信息，当然这里需要手动的将页码信息进行添加，例如第二页的URL就会变成https://movie.douban.com/top250?start=25&filter= 样子，在实际操作的时候我们可以自己进行调整。

取网页(https://movie.douban.com/top250)上的电影信息

网页分析https://movie.douban.com/top250,属于静态网页，我们所需的数据资源在网页源代码中呈现。因此，我们只需获得网页html代码进而解析取出其中某些结点(本次简单获取电影名称和引述)就可以获得想要的数据。

网页效果

每个li标签中有一部电影

我们获取每个li，再对其子节点进行查找可以得到想要的信息。

工作流程：获取网页 ->解析网页 ->打印或保存信息
依赖工具:requests、BeautifulSoup、time，Pycharm或者文本编辑器、浏览器
Python代码:

# -*- coding: utf-8 -*-

# @Author: 搞爬虫

# @Date:   2020-07-26 09:38:07

# @Last Modified by:   搞爬虫

# @Last Modified time: 2020-07-26 14:54:25

#库引入

import requests
from bs4 import BeautifulSoup
import time

定义获取html文档的函数

# (参数:)可以指定参数类型

def getHtml(i:int,startUrl:str,headers:dict):
      text = ''

     #每一页URL的区别在于start(如：第二页URL:)
     # https://movie.douban.com/top250?start=25&filter= ，以此类推    
     url = startUrl+'?start=' + str(i*25) 
    try:
        r = requests.get(url,headers = headers,timeout=8)
        if r.status_code == 200:
            return r.text   

    except:
            print("failed to get html")
            return ""


#定义解析网页的函数
def parseHtml(text:str,temp:dict) :
      if text != '':
          soup = bs(text,'lxml')
          info_div = soup.find_all('div',class_='info')
          for eachMovie in info_div:
          
                ls = [] #这里用名称作为字典的键，其他信息存放在列表中作为值
                info_hd = eachMovie.find('div',class_='hd')
                info_bd = eachMovie.find('div',class_='bd')
								#电影名称文本
                name = info_hd.a.span.text.strip()
								#电影简述文本
                quote = info_bd.find('p',class_='quote').span.text.strip()
                ls.append(quote)
                temp[name] = ls
        return temp

#定义控制台打印信息函数

def printContent(Info:dict):
      if Info is not None:
          count = 0
          print("{:20}\t\t{:10}\t".format("电影名称","电影引述")) #格式化打印
            #获得每一个键值对
          for key,value in Info.items():
               if count == 10:
                    print('')
                    print("============================================")
                    count = 0
               print("{:12}\t\t{:^20}".format(key,value[0]))  #字典的值是列表类型
               count += 1

    else:
        print('no data')

#主函数
def main():
      #这里可以打开开发者工具查看正常访问页面的请求头
     #网页不涉及重要信息，我们只进行少量的爬取，不进行伪装也可以
      headers = {'user-agent':'Mozilla/5.0'}
      result = {}
      startUrl = "https://movie.douban.com/top250"
      num = input('要爬取多少页(1~10)')

      for i in range(eval(num)):
      
           text = getHtml(i,startUrl,headers)
           time.sleep(2) #可以间断访问
           result = parseHtml(text,result)

      printContent(result)

if __name__ == '__main__':
     main()

运行结果

改进过后可以显示电影的具体信息。完！

介
HTML 是什么？
htyper text markup language 即超文本标记语言。
超文本: 就是指页面内可以包含图片、链接，甚至音乐、程序等非文字元素。
标记语言: 标记（标签）构成的语言。
什么是标签:
是由一对尖括号包裹的单词构成例如: <html> *所有标签中的单词不可能以数字开头.
标签不区分大小写.<html> 和 <HTML>. 推荐使用小写.
标签分为两部分: 开始标签<a> 和结束标签</a>. 两个标签之间的部分我们叫做标签体.
有些标签功能比较简单.使用一个标签即可.这种标签叫做自闭和标签.例如: <br/><hr/><input/><img/>
标签可以嵌套.但是不能交叉嵌套. <a><b></a></b>
标签的属性:
通常是以键值对形式出现的. 例如 name="nick"
属性只能出现在开始标签或自闭和标签中.
属性名字全部小写. *属性值必须使用双引号或单引号包裹例如 name="nick"
如果属性值和属性名完全一样.直接写属性名即可. 例如 readonly
HTML5基本结构:
将HTML4中的DTD定义为如下结构即可，其他不变。
<!DOCTYPE HTML>
HTML5支持的两种指定页面使用的字符集的方式:
使用Content-Type指定字符集
<meta http-equiv="Content-Type" content="text/html ;charset=UTF-8"/>
直接使用charset指定字符集
<meta charset="UTF-8">
<head> 标签
<title>
<title>Title</title>
<base/>
标签为页面上的所有链接规定默认地址或默认目标。
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Title</title>
<base href="http://p_w_picpaths.cnblogs.com/cnblogs_com/suoning/845162/"/>
<base target="_blank" />
</head>
<body>
<img src="o_s.png" alt="图片加载失败。。。"/>
<a href="http://cnblogs.com/suoning/">nick blogs</a>
</body>
</html>
# 上面这段代码中，<img>标签的src属性是一个相对路径，因为<head>中通过base标签设置了链接的默认地址，
所以img的src实际的地址是“http://p_w_picpaths.cnblogs.com/cnblogs_com/suoning/845162/o_s.png”。
同样的，<a>中只是指定了href，并未指定target属性，所以也会使用base中设置的target属性的值。
<link/>
引用外部文档，常见于引用外部样式。重要属性有三个：rel、href、type。
rel 规定文档与被链接文档之间的关系。
rel="dns-prefetch" 预先解析缓存文档中使用的域名，目的是为了提高网页访问速度。使用场景：在一个网页频繁使用其他域名资源时。
rel="shortcut icon"或rel="icon" 在收藏和标题栏上用于显示的图标。示例：<link rel="icon" href="http://p_w_picpaths.cnblogs.com/cnblogs_com/suoning/845162/o_s.png">。注意：IE浏览器只支持ico格式，为了兼容IE，图片文件采用ico格式。
rel="stylesheet" 引用外部样式表。
rel="nofollow" 用于指示搜索引擎不要追踪（爬虫抓取），减少垃圾链接。用于<a>标签，使用场景：网页不被信任或是不希望呗搜索引擎录入的网站。
href 资源的路径（相对路径/绝对路径）。
type 规定被连接文档的MIME类型，用于明确文件的打开方式。例如：.ico文件 p_w_picpath/x-icon。
<meta/>
定义关于HTML文档的元数据。重要的属性有三个：http-equiv、name、content
http-equiv 把content属性值关联到http头部。
Content-Type（浏览器接受的文档类型，一般是text/html）
refresh（网页刷新，以秒为单位）
expires（设定网页到期时间，一旦过期，必须到服务器上重传）
<meta http-equiv="Content-Type" content="text/html ;charset=UTF-8"/>
<meta http-equiv="Refresh" content="2">
<meta http-equiv="Refresh" content="2;URL=https://www.baidu.com">
<meta http-equiv="expires" content="6 Jun 2016"/>
name 把content属性关联到一个名称。
keywords（搜索关键字，用于搜索引擎抓取信息的显示）
description（搜索到网站后显示的网页内容简描述）
author（站点制作者信息）
generator（用以说明生成工具）
name也可以根据特定的功能自定义，在新浪网中有使用360认证和搜狐认证（<meta name="360-site-verification"content="63349**********"/>、<meta name="sogou_site_verification"content="BVI*******"/>）。
<meta name="keywords" content="搜索关键字">
<meta name="description" content="简要描述">
<meta name="author" content="http://cnblogs.com/suoning">
<meta name="generator" content="用以说明生成工具">
content 定义与http-equiv或name属性相关的元信息，是必要的属性。
<body> 标签
1、块级标签和内联标签
块级标签：<p><h1><table><ol><ul><form><div>
内联标签：<a><input><img><sub><sup><textarea><span>
block（块）元素的特点
① 总是在新行上开始；
② 高度，行高以及外边距和内边距都可控制；
③ 宽度缺省是它的容器的100%，除非设定一个宽度。
④ 它可以容纳内联元素和其他块元素
inline（内联）元素的特点
① 和其他元素都在一行上；
② 高，行高及外边距和内边距不可改变；
③ 宽度就是它的文字或图片的宽度，不可改变
④ 内联元素只能容纳文本或者其他内联元素
对行内元素，需要注意如下
设置宽度width 无效。
设置高度height 无效，可以通过line-height来设置。
设置margin 只有左右margin有效，上下无效。
设置padding 只有左右padding有效，上下则无效。注意元素范围是增大了，但是对元素周围的内容是没影响的。
2、基本标签
<h1>~<h6> 标题标签.
<p>: 段落标签. 包裹的内容被换行.并且也上下内容之间有一行空白.
　　　　style="text-indent: 2em"可以设置样式为首行缩进两个字符。
　　　　<blockquote></blockquote>可以用来设置整个段落的缩进。
<b> <strong>: 加粗标签.
<strike>: 为文字加上一条中线.
<u>: 文字下方加下划线.
<em> <i>: 文字变成斜体.
<sup>和<sub>: 上角标和下角标.
<br>:换行.
<hr>:水平线.
<div>
块级标签。块级标签常用于布局，行级标签常用语显示内容。
　　 div的显示通常使用id或class来标识。id为唯一的标签标识，class为标签的类标识。
　　 div的大小是由内容来决定的，默认情况下，高度由内容的高度决定，宽度适应屏幕。
　　可以容纳其他元素，是一个容器。
<span>
3、特殊符号
　　> >
　　< <
　　空格
　 " 引号
　　© 版权符号
特殊符号符号码
" " ;
& & ;
< < ;
> > ;
© ;
® ;
± ± ;
× × ;
§ § ;
¢ ;
¥ ;
· · ;
&euro ;
£ ;
&trade ;

4、<a> 超链接标签(锚标签)
重要属性有三个：href、target、name
href 超链接地址：可以是Web上任意资源，包括图片，网页，样式，脚本文件等。href="#"时，表示被链接页面就是当前页面。
target 文档打开时要显示的目标位置，属性值一般有：_blank（新窗口中打开）、_self（默认，在超链接所在的容器中打开）、_parent（在超链接的父容器中打开）、_top（整个容器中打开）、name（框架名称）。
name 锚记名称。作用：跳转到文档的某个地方。返回首页。
# 跳转网页
<a href="http://cnblogs.com/suoning" target="_blank">Nick Blogs</a>
# 跳转锚记书签名称
<a name="top"><h3>Top！</h3></a>
<div style="height: 800px"></div>
<a href="#top">top</a>
1.标签最简式
<a href="mailto:xxx@xx.com">邮件联系</a>
2.标签帮你填抄送地址
<a href="mailto:xxx@xx.com?cc=xxxx@xx.com">邮件联系</a>
3.标签帮你填暗送地址
<a href="mailto:xxx@xx.com?bcc=xxxx@xx.com">邮件联系</a>
4.暗,抄
<a href="xxxxx@xx.com">邮件联系</a>
5.标签帮你填主题
<a href="mailto:xxx@xx.com?subject=这是主题">邮件联系</a>
6.填邮件内容
<a href="mailto:xxx@xx.com?body=这是内容">邮件联系</a>
7.多址发送
<a href="mailto:xxx@xx.com,xxxx@xx.com">邮件联系</a>
# http://shang.qq.com/v3/widget.html
<a target="_blank" href="http://wpa.qq.com/msgrd?v=3&uin=630571017&site=qq&menu=yes"><img border="0" src="http://wpa.qq.com/pa?p=2:630571017:51" alt="点击这里给我发消息" title="点击这里给我发消息"/></a>
<a href="tencent://message/?uin=630571017" target="_blank"><img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:13></a>
# 更多图片地址如下：
# http://wpa.qq.com/pa?p=1:707321921:1
# http://wpa.qq.com/pa?p=1:707321921:2
# http://wpa.qq.com/pa?p=1:707321921:3
# http://wpa.qq.com/pa?p=1:707321921:4
# http://wpa.qq.com/pa?p=1:707321921:5
# http://wpa.qq.com/pa?p=1:707321921:6
# http://wpa.qq.com/pa?p=1:707321921:7
# http://wpa.qq.com/pa?p=1:707321921:8
# http://wpa.qq.com/pa?p=1:707321921:9
# http://wpa.qq.com/pa?p=1:707321921:10
# http://wpa.qq.com/pa?p=1:707321921:11
# http://wpa.qq.com/pa?p=1:707321921:12
# http://wpa.qq.com/pa?p=1:707321921:13
5、<img> 图形标签
行级标签，用来显示图片。
重要属性有：src、title、alt、width、height、align。
src 图片地址。
title 鼠标悬浮在图片上的文字。
alt 图片找不到时要替换的文字。如果图片资源使用的是外网资源，则不会显示要替换的文字。如果使用的是本网站的资源（相对路径给出），则找不到图片时会显示替换的文字，并保留图片设置的宽高结构。
align 图片周围文字的垂直对齐情况。常用的属性值有：top（与图片的顶部对齐）、middle（与图片的中部对齐）、bottom（默认，与图片的底部对齐）。
width 图片的宽
height 图片的高 (宽高两个属性只用一个会自动等比缩放.)
<img src="http://p_w_picpaths.cnblogs.com/cnblogs_com/suoning/845162/o_ns.png" alt="图片加载失败。。。" title="The knife girl, kiss"/>
6、列表标签　
<ul> :无序列表标签
<li>:列表中的每一项.
<ol> :有序列表标签
<li>:列表中的每一项.
<li>主要的属性有：type、value两个:
type指明项目的类型，属性值有：A，a，I，i，1，disc（实心圆），square（实心正方形），circle（空心圆）。
value表示序号值从几开始。
<dl> 定义列表
<dt> 列表标题
<dd> 列表项
<ur>
<li type="circle">A</li>
<li type="1">B</li>
<li type="1">C</li>
</ur>
<ol>
<li value="3">3</li>
<li>4</li>
</ol>
<dl>
<dt><i>标题</i></dt>
<dd>第一项</dd>
<dd>第二项</dd>
<dd>第三项</dd>
</dl>
　　
7、<table> 表格标签
<table border="1">
<thead>
<tr>
<th>序号</th>
<th>姓名</th>
</tr>
</thead>
<tbody>
<tr>
<th>1.</th>
<td>nick</td>
</tr>
<tr>
<th>2.</th>
<td>jenny</td>
</tr>
</tbody>
</table>
<table> 表格标签
border:（表格边框）
align（水平对齐方式）
bgcolor（背景颜色）
cellpadding（内边距，单元格与内容之间的距离）
cellspacing（外边距，单元格的间距，设置为0时，表格变为实线表格）
width（表格的宽度，可以用%或者像素，最好通过css来设置长宽）
<caption> 表格的标题
<tr> 表格的数据行，table row
<th> 表格的表头名称，与<td>不同在于文字采用加粗居中的形式显示，table head cell
<td> 单元格，用来显示表格内容，table data cell
<thead> 表格头部，使结构更加分明
<tbody> 表格主体部分，使结构更加分明
rowspan 单元格竖跨多少行，作用在th或者td上
colspan 单元格横跨多少列（即合并单元格），作用在th或者td上
<table>
<caption>xxxxxxxxxx</caption>
<thead>
<tr>
<th>序号</th>
<th>姓名</th>
<th>年龄</th>
<th>女神</th>
</tr>
</thead>
<tbody>
<tr>
<th>1.</th>
<td>nick</td>
<td>18</td>
<td>可可西</td>
</tr>
<tr>
<th>2.</th>
<td>jenny</td>
<td>21</td>
<td>nick!!!</td>
</tr>
</tbody>
</table>
8、<form>表单标签
表单属性
HTML 表单用于接收不同类型的用户输入，用户提交表单时向服务器传输数据，从而实现用户与Web服务器的交互。表单标签, 要提交的所有内容都应该在该标签中。
属性：action、method、enctype
action 表单要提交的地址，用于处理表单的内容（一般是提交字典到后台的一个接口，这个接口是java写成的，提交到这个接口后后台就知道如何处理这些数据了）。
method 提交的方法，默认是get方式提交。
get: 1.提交的键值对.放在地址栏中url后面. 2.安全性相对较差. 3.对提交内容的长度有限制.
post:1.提交的键值对不在地址栏. 2.安全性相对较高. 3.对提交内容的长度理论上无限制.
enctype 对表单数据进行编码，默认都是要编码的。格式为：application/x-www-form-urlencoded（表单默认的编码格式，表单发送前对所有字符进行编码。编码规则：空格转换为“+”号，特殊符号转换为ASC HEX值）。提交普通的文本内容到服务器就可以采用这种默认的编码方式。当你需要提交的是一个文件时，编码就需要采用另一种格式：multipart/form-data（不对字符编码，文件上传时使用）。text/plain（是一种纯文本编码，空格转换为“+”号，但是不对特殊字符进行编码）。
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Title</title>
</head>
<body>
<form action="https://www.baidu.com/s">
<input type="text" name="wd">
<input type="submit" value="百度一下">
</form>
</body>
</html>
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Title</title>
</head>
<body>
<form action="https://www.sogou.com/web">
<input type="text" name="query">
<input type="submit" value="搜狗搜索">
</form>
</body>
</html>
表单元素
<input> type 属性：
text 文本框输入（默认text文本框类型）。
autocomplete（自动完成输入的内容，要求表单元素要有name属性才有自动完成的效果，off表示自动完成不可用，on表示自动完成可用）
disabled（设置或者获取控件的状态，默认是false即可用，等于true时不可用，不能输入内容）
　　　　password 密码框。（以下属性text和password共有）
size（指定表单元素的初始宽度。当type为text或password时，表单元素的大小以字符为单位，对于其他元素，宽度以像素为单位）
maxlength（type为text或password时，表示输入的最大字符数），有利于防止sql的注入攻击
readonly 只读.　
　　　　　　placeholder 框内预置内容(灰色)，写上内容时才消失
radio 单选按钮。属性：
name（将name的值设置为相同值，才表示一组数据，才能实现单选功能）
value（必须要写，提交到服务器的key值，实际开发过程中value一般是编号）
checked（是否被选中的状态）
checkbox 复选框。
name（名字一定要一样一样的，才表示是一组数据，添加到同一value值列表提交到服务器）
value（必须要写，提交到服务器的key值，实际开发过程中value一般是编号）
checked（是否被选中的状态）
file 文件域，上传文件（不同的浏览器表现形式不同）
　　　　submit 提交按钮。用于提交表单。
　　　　reset 重置按钮。清空表单的输入，恢复到表单默认的状态。
button 普通按钮。一般结合javascript使用。
　　　　p_w_picpath 图片按钮，用来提交表单，与submit是一样的效果。
src（图片路径）
　　　　hidden 隐藏字段。
value（隐藏的内容）
　　　　color 颜色标签。value指定颜色值（采用#十六进制数表示）。
　　　　date 日期。value值指定默认的日期，格式为****-**-**（年月日）。
　　　　datetime-local 显示本地时间，value值指定默认的时间，格式为2016-05-20T11:10:10（年月日T时分秒）。
　　　　number 数字向上或者向下滑动。可以填数字然后向上或者向下选择不同的值。
　　　　range 滑动标签。min（指定最小值）、max（指定最大值）、value（指定当前默认值）。
　　　　week 每年的周数。value指定哪一年第几周，格式为2016-W25（2016年第25周）。
<textarea> 文本域标签。默认表现形式是可以输入很多行文本的文本框。
name （表单提交项的key）
　　　　cols（设置文本域宽度）
rows（设置文本域高度，即行数）
<select> 下拉框标签。使用时要结合<option>子标签一起使用。
name:表单提交项的key
size：选项个数
multiple：多选
<option> 下拉选中的每一项
value（表单提交项的值）
selected（selected下拉选默认被选中）
<optgroup>为每一项加上分组
<label> 把元素与文本结合起来
友好设计：不只是选中复选框才能选中并打钩，要求点击对应的文字也能选中该复选框。
这种情况下要用到<label>标签的for属性（设置或获取给定标签对象指定到的对象，值=另一个元素的id号即可）
<label for="name">姓名</label>
<input id="name" type="text">
<fieldset> 对表单中的相关元素进行分组
<fieldset>
<legend>温馨提示</legend>
<div align="middle">不要忘记点赞哦 ==</div>
</fieldset>
value: 表单提交项的值
对于不同的输入类型，value 属性的用法也不同：
type="button", "reset", "submit" - 定义按钮上的显示的文本
type="text", "password", "hidden" - 定义输入字段的初始值
type="checkbox", "radio", "p_w_picpath" - 定义与输入相关联的值
框架
<frameset> 框架
用来划分窗体，不能放在<body>中，否则没有效果。
cols （纵向分割页面。其数值表示方法有三种：“30%、30（或者30px）、*”；数值的个数代表分成的视窗数目且数值之间用“,”隔开。“30%”表示该框架区域占全部浏览器页面区域的30%；“30”表示该区域横向宽度为30像素；“*”表示该区域占用余下页面空间。例如：cols="25%,200,*" 表示将页面分为三部分，左面部分占页面30%，中间横向宽度为200像素，页面余下的作为右面部分。）
rows（横向分割页面。属性和cols一样）
frameborder（设置是否显示框架边框。设定值只有0、1；0 表示不要边框，1 表示要显示边框）
border（框架之间的距离，一般设置为0）
bordercolor（边框的颜色）
framespacing（设置框架与框架间的保留的空白距离）
<frameset cols="40%,*,*"> 第一个框架占整个浏览器窗口的40%,剩下的空间平均分配给另外两个框架。
<frameset cols="*,*,*,*"> 浏览器窗口等分为四部分。
<iframe> 框架
元素会创建包含另外一个文档的内联框架（即行内框架）
name （设置框架名称。此为必须设置的属性）
src （设置此框架要显示的网页名称或路径。此为必须设置的属性）
scrolling （设置是否要显示滚动条。设定值为auto, yes, no）
bordercolor （设置框架的边框颜色）
frameborder （设置是否显示框架边框。设定值只有0、1；0 表示不要边框，1 表示要显示边框）
noresize （设置框架大小是否能手动调节）
marginwidth （设置框架边界和其中内容之间的宽度）
marginhight （设置框架边界和其中内容之间的高度）
width（设置框架宽度）
height （设置框架高度）

在线咨询

上一篇：新媒体-视频剪辑制作
下一篇：手把手教你前端的各种文件上传攻略和大文件断点续传

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商