个写博客的朋友想让我帮忙获取一下豆瓣上的Top250的电影数据,说是做个什么电影推荐榜,没办法之后硬着头皮拿出我那一小点点的Python爬虫技术来完成人家的需求了。当然了也是在不违法的情况下进行的。
要爬取豆瓣电影排名信息,我们可以使用Python中的Request库来发送一个请求,然后使用一些HTML解析工具例如BeautifulSoup或者是通过Lxml库来对HTML页面进行解析,然后将解析到的结果打印出来。
import requests
from bs4 import BeautifulSoup
def crawl_douban_movies(url):
# 发送 HTTP GET 请求获取页面内容
response = requests.get(url)
if response.status_code == 200:
# 使用 BeautifulSoup 解析页面内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到电影列表
movie_list = soup.find_all('div', class_='item')
for movie in movie_list:
# 获取电影名称和评分
title = movie.find('span', class_='title').text
rating = movie.find('span', class_='rating_num').text
print(f"电影:{title},评分:{rating}")
else:
print("请求失败")
if __name__ == "__main__":
# 豆瓣电影 Top 250 页面 URL
url = "https://movie.douban.com/top250"
crawl_douban_movies(url)
是不是有点简单了?在这个例子中我们通过requests.get()发送HTTP GET请求获取豆瓣电影Top250页面的HTML内容。然后,使用BeautifulSoup解析页面内容,提取出电影名称和评分,并打印出来。
运行程序之后,发现居然给我来了个请求失败?这是为什么呢?是网络请求不通?还是说豆瓣网站对相关的操作有所限制呢?
经过验证发现豆瓣网站可能设置了反爬虫机制,检测到了爬虫行为并阻止了请求。为了规避这种情况,我尝试设置请求头信息,来模拟正常的浏览器访问。
为了模拟正常浏览器的访问操作,所以添加了请求头信息,将代码升级成如下的样子。
import requests
from bs4 import BeautifulSoup
def crawl_douban_movies(url):
# 添加 User-Agent 请求头信息
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
}
# 发送带有请求头信息的 HTTP GET 请求
response = requests.get(url, headers=headers)
if response.status_code == 200:
# 使用 BeautifulSoup 解析页面内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到电影列表
movie_list = soup.find_all('div', class_='item')
for movie in movie_list:
# 获取电影名称和评分
title = movie.find('span', class_='title').text
rating = movie.find('span', class_='rating_num').text
print(f"电影:{title},评分:{rating}")
else:
print("请求失败")
if __name__ == "__main__":
# 豆瓣电影 Top 250 页面 URL
url = "https://movie.douban.com/top250"
crawl_douban_movies(url)
与之前不同的是,我们添加了User-Agent请求头信息。这样这个请求就是模拟浏览器发送的。应该算是正常请求了。果然,运行代码之后,结果如下。
正当我以为这样就可以的时候,朋友居然说为什么没有导演的信息,为什么没有那个简单的评语的信息呀?我勒个去?还要这么麻烦么?这就不得不让我去分析一下页面了
打开网页开发这工具,简单的分析页面之后,有了这样的结果。如下所示。
导演信息,在一个div里面,并且class叫做bd,在这个div里面有个p标签,这个p标签中就是导演的信息。那么这样我们就可以通过如下的操作来获取了。
# 获取导演信息
directors = movie.find('div', class_='bd').find('p').text.split('\n')[1].strip().split('\xa0\xa0\xa0')
那么评语信息又在什么地方呢?
简单查找之后发现,评语在一个span标签中这就简单了,我们可以通过如下的方式来进行获取。
quote = movie.find('span', class_='inq').text if movie.find('span', class_='inq') else ''
整体代码修改变成了如下的样子。
import requests
from bs4 import BeautifulSoup
def crawl_douban_movies(url):
# 添加 User-Agent 请求头信息
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
}
# 发送带有请求头信息的 HTTP GET 请求
response = requests.get(url, headers=headers)
if response.status_code == 200:
# 使用 BeautifulSoup 解析页面内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到电影列表
movie_list = soup.find_all('div', class_='item')
for movie in movie_list:
# 获取电影名称
title = movie.find('span', class_='title').text
# 获取导演信息
directors = movie.find('div', class_='bd').find('p').text.split('\n')[1].strip().split('\xa0\xa0\xa0')
director = directors[0].strip().split(':')[-1]
# 获取评语
quote = movie.find('span', class_='inq').text if movie.find('span', class_='inq') else ''
print(f"电影:{title},导演:{director},评语:{quote}")
else:
print("请求失败")
if __name__ == "__main__":
# 豆瓣电影 Top 250 页面 URL
url = "https://movie.douban.com/top250"
crawl_douban_movies(url)
运行上述代码之后,结果如下所示,我心想,这下应该就可以了吧,然后人家说评分没有了,我去,这东西还能难得我么?我就把评分的代码给复制粘贴到这段代码中。
将评分的获取代码复制粘贴完成之后,得到了如下的结果
我就说这是不是很完美了,他居然说还不行?他还要下面的时间信息、产地信息这些?我去这咋玩?
其实获取时间信息和获取产地信息的方式跟上面的操作是一样的。只需要通过查看代码,找到对应的HTML标识就可以提取到对应的信息。
在获取电影详细信息的时候遇到了格式处理的问题,如下所示。
# 获取电影详情信息
details = movie.find('div', class_='bd').find('p').text.split('\n')
info = [i.strip() for i in details if i.strip() != '']
#print("获取到信息",info) # 打印详情信息列表
# 提取时间、产地和剧情信息
if len(info) >= 2:
year_region = info[1].split('\xa0/\xa0')
year = year_region[0].strip()
region = year_region[1].strip()
plot = info[1].strip()
else:
year = "未知"
region = "未知"
plot = "未知"
要获取电影的详细页面 URL,需要从每个电影条目中提取链接信息。豆瓣电影条目的链接通常包含在a标签的href属性中如下图所示。
通过如下的操作来获取到对应属性中的数据
detail_url = movie.find('a')['href']
最终获取完成的电影信息如下图所示。
到这里,人家的需求才算提完,原来现在电影博主都这么卷的了么?想要这么多信息,居然不自己整理,让我这个小喽喽来帮他实现。真实有天赋呀?
在满足了他所有的要求之后,最终我们给出详细的代码
import requests
from bs4 import BeautifulSoup
def crawl_douban_movies(url):
# 添加 User-Agent 请求头信息
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
}
# 发送带有请求头信息的 HTTP GET 请求
response = requests.get(url, headers=headers)
if response.status_code == 200:
# 使用 BeautifulSoup 解析页面内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到电影列表
movie_list = soup.find_all('div', class_='item')
for movie in movie_list:
# 获取电影名称
title = movie.find('span', class_='title').text
rating = movie.find('span', class_='rating_num').text
# 获取电影详细页面链接
detail_url = movie.find('a')['href']
# 获取导演信息
directors = movie.find('div', class_='bd').find('p').text.split('\n')[1].strip().split('\xa0\xa0\xa0')
director = directors[0].strip().split(':')[-1]
# 获取评语
quote = movie.find('span', class_='inq').text if movie.find('span', class_='inq') else ''
# 获取电影详情信息
details = movie.find('div', class_='bd').find('p').text.split('\n')
info = [i.strip() for i in details if i.strip() != '']
#print("获取到信息",info) # 打印详情信息列表
# 提取时间、产地和剧情信息
if len(info) >= 2:
year_region = info[1].split('\xa0/\xa0')
year = year_region[0].strip()
region = year_region[1].strip()
plot = info[1].strip()
else:
year = "未知"
region = "未知"
plot = "未知"
print(f"电影:{title}\n评分:{rating}\n导演:{director}\n评语:{quote}\n时间:{year}\n产地:{region}\n剧情:{plot}\n详细页面链接:{detail_url}\n")
else:
print("请求失败")
if __name__ == "__main__":
# 豆瓣电影 Top 250 页面 URL
url = "https://movie.douban.com/top250"
crawl_douban_movies(url)
通过上述代码,我们就可以获取到豆瓣电影TOP250的所有电影信息,当然这里需要手动的将页码信息进行添加,例如第二页的URL就会变成https://movie.douban.com/top250?start=25&filter= 样子,在实际操作的时候我们可以自己进行调整。
网页效果
每个li标签中有一部电影
我们获取每个li,再对其子节点进行查找可以得到想要的信息。
# -*- coding: utf-8 -*-
# @Author: 搞爬虫
# @Date: 2020-07-26 09:38:07
# @Last Modified by: 搞爬虫
# @Last Modified time: 2020-07-26 14:54:25
#库引入
import requests
from bs4 import BeautifulSoup
import time
定义获取html文档的函数
# (参数:)可以指定参数类型
def getHtml(i:int,startUrl:str,headers:dict):
text = ''
#每一页URL的区别在于start(如:第二页URL:)
# https://movie.douban.com/top250?start=25&filter= ,以此类推
url = startUrl+'?start=' + str(i*25)
try:
r = requests.get(url,headers = headers,timeout=8)
if r.status_code == 200:
return r.text
except:
print("failed to get html")
return ""
#定义解析网页的函数
def parseHtml(text:str,temp:dict) :
if text != '':
soup = bs(text,'lxml')
info_div = soup.find_all('div',class_='info')
for eachMovie in info_div:
ls = [] #这里用名称作为字典的键,其他信息存放在列表中作为值
info_hd = eachMovie.find('div',class_='hd')
info_bd = eachMovie.find('div',class_='bd')
#电影名称文本
name = info_hd.a.span.text.strip()
#电影简述文本
quote = info_bd.find('p',class_='quote').span.text.strip()
ls.append(quote)
temp[name] = ls
return temp
#定义控制台打印信息函数
def printContent(Info:dict):
if Info is not None:
count = 0
print("{:20}\t\t{:10}\t".format("电影名称","电影引述")) #格式化打印
#获得每一个键值对
for key,value in Info.items():
if count == 10:
print('')
print("============================================")
count = 0
print("{:12}\t\t{:^20}".format(key,value[0])) #字典的值是列表类型
count += 1
else:
print('no data')
#主函数
def main():
#这里可以打开开发者工具查看正常访问页面的请求头
#网页不涉及重要信息,我们只进行少量的爬取,不进行伪装也可以
headers = {'user-agent':'Mozilla/5.0'}
result = {}
startUrl = "https://movie.douban.com/top250"
num = input('要爬取多少页(1~10)')
for i in range(eval(num)):
text = getHtml(i,startUrl,headers)
time.sleep(2) #可以间断访问
result = parseHtml(text,result)
printContent(result)
if __name__ == '__main__':
main()
运行结果
改进过后可以显示电影的具体信息。完!
介
HTML 是什么?
htyper text markup language 即超文本标记语言。
超文本: 就是指页面内可以包含图片、链接,甚至音乐、程序等非文字元素。
标记语言: 标记(标签)构成的语言。
什么是标签:
是由一对尖括号包裹的单词构成 例如: <html> *所有标签中的单词不可能以数字开头.
标签不区分大小写.<html> 和 <HTML>. 推荐使用小写.
标签分为两部分: 开始标签<a> 和 结束标签</a>. 两个标签之间的部分 我们叫做标签体.
有些标签功能比较简单.使用一个标签即可.这种标签叫做自闭和标签.例如: <br/><hr/><input/><img/>
标签可以嵌套.但是不能交叉嵌套. <a><b></a></b>
标签的属性:
通常是以键值对形式出现的. 例如 name="nick"
属性只能出现在开始标签 或 自闭和标签中.
属性名字全部小写. *属性值必须使用双引号或单引号包裹 例如 name="nick"
如果属性值和属性名完全一样.直接写属性名即可. 例如 readonly
HTML5基本结构:
将HTML4中的DTD定义为如下结构即可,其他不变。
<!DOCTYPE HTML>
HTML5支持的两种指定页面使用的字符集的方式:
使用Content-Type指定字符集
<meta http-equiv="Content-Type" content="text/html ;charset=UTF-8"/>
直接使用charset指定字符集
<meta charset="UTF-8">
<head> 标签
<title>
<title>Title</title>
<base/>
标签为页面上的所有链接规定默认地址或默认目标。
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Title</title>
<base href="http://p_w_picpaths.cnblogs.com/cnblogs_com/suoning/845162/"/>
<base target="_blank" />
</head>
<body>
<img src="o_s.png" alt="图片加载失败。。。"/>
<a href="http://cnblogs.com/suoning/">nick blogs</a>
</body>
</html>
# 上面这段代码中,<img>标签的src属性是一个相对路径,因为<head>中通过base标签设置了链接的默认地址,
所以img的src实际的地址是“http://p_w_picpaths.cnblogs.com/cnblogs_com/suoning/845162/o_s.png”。
同样的,<a>中只是指定了href,并未指定target属性,所以也会使用base中设置的target属性的值。
<link/>
引用外部文档,常见于引用外部样式。重要属性有三个:rel、href、type。
rel 规定文档与被链接文档之间的关系。
rel="dns-prefetch" 预先解析缓存文档中使用的域名,目的是为了提高网页访问速度。使用场景:在一个网页频繁使用其他域名资源时。
rel="shortcut icon"或rel="icon" 在收藏和标题栏上用于显示的图标。示例:<link rel="icon" href="http://p_w_picpaths.cnblogs.com/cnblogs_com/suoning/845162/o_s.png">。注意:IE浏览器只支持ico格式,为了兼容IE,图片文件采用ico格式。
rel="stylesheet" 引用外部样式表。
rel="nofollow" 用于指示搜索引擎不要追踪(爬虫抓取),减少垃圾链接。用于<a>标签,使用场景:网页不被信任或是不希望呗搜索引擎录入的网站。
href 资源的路径(相对路径/绝对路径)。
type 规定被连接文档的MIME类型,用于明确文件的打开方式。例如:.ico文件 p_w_picpath/x-icon。
<meta/>
定义关于HTML文档的元数据。 重要的属性有三个:http-equiv、name、content
http-equiv 把content属性值关联到http头部。
Content-Type(浏览器接受的文档类型,一般是text/html)
refresh(网页刷新,以秒为单位)
expires(设定网页到期时间,一旦过期,必须到服务器上重传)
<meta http-equiv="Content-Type" content="text/html ;charset=UTF-8"/>
<meta http-equiv="Refresh" content="2">
<meta http-equiv="Refresh" content="2;URL=https://www.baidu.com">
<meta http-equiv="expires" content="6 Jun 2016"/>
name 把content属性关联到一个名称。
keywords(搜索关键字,用于搜索引擎抓取信息的显示)
description(搜索到网站后显示的网页内容简描述)
author(站点制作者信息)
generator(用以说明生成工具)
name也可以根据特定的功能自定义,在新浪网中有使用360认证和搜狐认证(<meta name="360-site-verification"content="63349**********"/>、<meta name="sogou_site_verification"content="BVI*******"/>)。
<meta name="keywords" content="搜索关键字">
<meta name="description" content="简要描述">
<meta name="author" content="http://cnblogs.com/suoning">
<meta name="generator" content="用以说明生成工具">
content 定义与http-equiv或name属性相关的元信息,是必要的属性。
<body> 标签
1、块级标签和内联标签
块级标签:<p><h1><table><ol><ul><form><div>
内联标签:<a><input><img><sub><sup><textarea><span>
block(块)元素的特点
① 总是在新行上开始;
② 高度,行高以及外边距和内边距都可控制;
③ 宽度缺省是它的容器的100%,除非设定一个宽度。
④ 它可以容纳内联元素和其他块元素
inline(内联)元素的特点
① 和其他元素都在一行上;
② 高,行高及外边距和内边距不可改变;
③ 宽度就是它的文字或图片的宽度,不可改变
④ 内联元素只能容纳文本或者其他内联元素
对行内元素,需要注意如下
设置宽度width 无效。
设置高度height 无效,可以通过line-height来设置。
设置margin 只有左右margin有效,上下无效。
设置padding 只有左右padding有效,上下则无效。注意元素范围是增大了,但是对元素周围的内容是没影响的。
2、基本标签
<h1>~<h6> 标题标签.
<p>: 段落标签. 包裹的内容被换行.并且也上下内容之间有一行空白.
style="text-indent: 2em"可以设置样式为首行缩进两个字符。
<blockquote></blockquote>可以用来设置整个段落的缩进。
<b> <strong>: 加粗标签.
<strike>: 为文字加上一条中线.
<u>: 文字下方加下划线.
<em> <i>: 文字变成斜体.
<sup>和<sub>: 上角标 和 下角标.
<br>:换行.
<hr>:水平线.
<div>
块级标签。块级标签常用于布局,行级标签常用语显示内容。
div的显示通常使用id或class来标识。id为唯一的标签标识,class为标签的类标识。
div的大小是由内容来决定的,默认情况下,高度由内容的高度决定,宽度适应屏幕。
可以容纳其他元素,是一个容器。
<span>
3、特殊符号
> >
< <
空格
" 引号
© 版权符号
特殊符号 符号码
" " ;
& & ;
< < ;
> > ;
© ;
® ;
± ± ;
× × ;
§ § ;
¢ ;
¥ ;
· · ;
&euro ;
£ ;
&trade ;
4、<a> 超链接标签(锚标签)
重要属性有三个:href、target、name
href 超链接地址:可以是Web上任意资源,包括图片,网页,样式,脚本文件等。href="#"时,表示被链接页面就是当前页面。
target 文档打开时要显示的目标位置,属性值一般有:_blank(新窗口中打开)、_self(默认,在超链接所在的容器中打开)、_parent(在超链接的父容器中打开)、_top(整个容器中打开)、name(框架名称)。
name 锚记名称。作用:跳转到文档的某个地方。返回首页。
# 跳转网页
<a href="http://cnblogs.com/suoning" target="_blank">Nick Blogs</a>
# 跳转锚记书签名称
<a name="top"><h3>Top!</h3></a>
<div style="height: 800px"></div>
<a href="#top">top</a>
1.标签最简式
<a href="mailto:xxx@xx.com">邮件联系</a>
2.标签帮你填抄送地址
<a href="mailto:xxx@xx.com?cc=xxxx@xx.com">邮件联系</a>
3.标签帮你填暗送地址
<a href="mailto:xxx@xx.com?bcc=xxxx@xx.com">邮件联系</a>
4.暗,抄
<a href="xxxxx@xx.com">邮件联系</a>
5.标签帮你填主题
<a href="mailto:xxx@xx.com?subject=这是主题">邮件联系</a>
6.填邮件内容
<a href="mailto:xxx@xx.com?body=这是内容">邮件联系</a>
7.多址发送
<a href="mailto:xxx@xx.com,xxxx@xx.com">邮件联系</a>
# http://shang.qq.com/v3/widget.html
<a target="_blank" href="http://wpa.qq.com/msgrd?v=3&uin=630571017&site=qq&menu=yes"><img border="0" src="http://wpa.qq.com/pa?p=2:630571017:51" alt="点击这里给我发消息" title="点击这里给我发消息"/></a>
<a href="tencent://message/?uin=630571017" target="_blank"><img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:13></a>
# 更多图片地址如下:
# http://wpa.qq.com/pa?p=1:707321921:1
# http://wpa.qq.com/pa?p=1:707321921:2
# http://wpa.qq.com/pa?p=1:707321921:3
# http://wpa.qq.com/pa?p=1:707321921:4
# http://wpa.qq.com/pa?p=1:707321921:5
# http://wpa.qq.com/pa?p=1:707321921:6
# http://wpa.qq.com/pa?p=1:707321921:7
# http://wpa.qq.com/pa?p=1:707321921:8
# http://wpa.qq.com/pa?p=1:707321921:9
# http://wpa.qq.com/pa?p=1:707321921:10
# http://wpa.qq.com/pa?p=1:707321921:11
# http://wpa.qq.com/pa?p=1:707321921:12
# http://wpa.qq.com/pa?p=1:707321921:13
5、<img> 图形标签
行级标签,用来显示图片。
重要属性有:src、title、alt、width、height、align。
src 图片地址。
title 鼠标悬浮在图片上的文字。
alt 图片找不到时要替换的文字。如果图片资源使用的是外网资源,则不会显示要替换的文字。如果使用的是本网站的资源(相对路径给出),则找不到图片时会显示替换的文字,并保留图片设置的宽高结构。
align 图片周围文字的垂直对齐情况。常用的属性值有:top(与图片的顶部对齐)、middle(与图片的中部对齐)、bottom(默认,与图片的底部对齐)。
width 图片的宽
height 图片的高 (宽高两个属性只用一个会自动等比缩放.)
<img src="http://p_w_picpaths.cnblogs.com/cnblogs_com/suoning/845162/o_ns.png" alt="图片加载失败。。。" title="The knife girl, kiss"/>
6、列表标签
<ul> :无序列表标签
<li>:列表中的每一项.
<ol> :有序列表标签
<li>:列表中的每一项.
<li>主要的属性有:type、value两个:
type指明项目的类型,属性值有:A,a,I,i,1,disc(实心圆),square(实心正方形),circle(空心圆)。
value表示序号值从几开始。
<dl> 定义列表
<dt> 列表标题
<dd> 列表项
<ur>
<li type="circle">A</li>
<li type="1">B</li>
<li type="1">C</li>
</ur>
<ol>
<li value="3">3</li>
<li>4</li>
</ol>
<dl>
<dt><i>标题</i></dt>
<dd>第一项</dd>
<dd>第二项</dd>
<dd>第三项</dd>
</dl>
7、<table> 表格标签
<table border="1">
<thead>
<tr>
<th>序号</th>
<th>姓名</th>
</tr>
</thead>
<tbody>
<tr>
<th>1.</th>
<td>nick</td>
</tr>
<tr>
<th>2.</th>
<td>jenny</td>
</tr>
</tbody>
</table>
<table> 表格标签
border:(表格边框)
align(水平对齐方式)
bgcolor(背景颜色)
cellpadding(内边距,单元格与内容之间的距离)
cellspacing(外边距,单元格的间距,设置为0时,表格变为实线表格)
width(表格的宽度,可以用%或者像素,最好通过css来设置长宽)
<caption> 表格的标题
<tr> 表格的数据行,table row
<th> 表格的表头名称,与<td>不同在于文字采用加粗居中的形式显示,table head cell
<td> 单元格,用来显示表格内容,table data cell
<thead> 表格头部,使结构更加分明
<tbody> 表格主体部分,使结构更加分明
rowspan 单元格竖跨多少行,作用在th或者td上
colspan 单元格横跨多少列(即合并单元格),作用在th或者td上
<table>
<caption>xxxxxxxxxx</caption>
<thead>
<tr>
<th>序号</th>
<th>姓名</th>
<th>年龄</th>
<th>女神</th>
</tr>
</thead>
<tbody>
<tr>
<th>1.</th>
<td>nick</td>
<td>18</td>
<td>可可西</td>
</tr>
<tr>
<th>2.</th>
<td>jenny</td>
<td>21</td>
<td>nick!!!</td>
</tr>
</tbody>
</table>
8、<form>表单标签
表单属性
HTML 表单用于接收不同类型的用户输入,用户提交表单时向服务器传输数据,从而实现用户与Web服务器的交互。表单标签, 要提交的所有内容都应该在该标签中。
属性:action、method、enctype
action 表单要提交的地址,用于处理表单的内容(一般是提交字典到后台的一个接口,这个接口是java写成的,提交到这个接口后后台就知道如何处理这些数据了)。
method 提交的方法,默认是get方式提交。
get: 1.提交的键值对.放在地址栏中url后面. 2.安全性相对较差. 3.对提交内容的长度有限制.
post:1.提交的键值对不在地址栏. 2.安全性相对较高. 3.对提交内容的长度理论上无限制.
enctype 对表单数据进行编码,默认都是要编码的。格式为:application/x-www-form-urlencoded(表单默认的编码格式,表单发送前对所有字符进行编码。编码规则:空格转换为“+”号,特殊符号转换为ASC HEX值)。提交普通的文本内容到服务器就可以采用这种默认的编码方式。当你需要提交的是一个文件时,编码就需要采用另一种格式:multipart/form-data(不对字符编码,文件上传时使用)。text/plain(是一种纯文本编码,空格转换为“+”号,但是不对特殊字符进行编码)。
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Title</title>
</head>
<body>
<form action="https://www.baidu.com/s">
<input type="text" name="wd">
<input type="submit" value="百度一下">
</form>
</body>
</html>
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Title</title>
</head>
<body>
<form action="https://www.sogou.com/web">
<input type="text" name="query">
<input type="submit" value="搜狗搜索">
</form>
</body>
</html>
表单元素
<input> type 属性:
text 文本框输入(默认text文本框类型)。
autocomplete(自动完成输入的内容,要求表单元素要有name属性才有自动完成的效果,off表示自动完成不可用,on表示自动完成可用)
disabled(设置或者获取控件的状态,默认是false即可用,等于true时不可用,不能输入内容)
password 密码框。(以下属性text和password共有)
size(指定表单元素的初始宽度。当type为text或password时,表单元素的大小以字符为单位,对于其他元素,宽度以像素为单位)
maxlength(type为text或password时,表示输入的最大字符数),有利于防止sql的注入攻击
readonly 只读.
placeholder 框内预置内容(灰色),写上内容时才消失
radio 单选按钮。属性:
name(将name的值设置为相同值,才表示一组数据,才能实现单选功能)
value(必须要写,提交到服务器的key值,实际开发过程中value一般是编号)
checked(是否被选中的状态)
checkbox 复选框。
name(名字一定要一样一样的,才表示是一组数据,添加到同一value值列表提交到服务器)
value(必须要写,提交到服务器的key值,实际开发过程中value一般是编号)
checked(是否被选中的状态)
file 文件域,上传文件(不同的浏览器表现形式不同)
submit 提交按钮。用于提交表单。
reset 重置按钮。清空表单的输入,恢复到表单默认的状态。
button 普通按钮。一般结合javascript使用。
p_w_picpath 图片按钮,用来提交表单,与submit是一样的效果。
src(图片路径)
hidden 隐藏字段。
value(隐藏的内容)
color 颜色标签。value指定颜色值(采用#十六进制数表示)。
date 日期。value值指定默认的日期,格式为****-**-**(年月日)。
datetime-local 显示本地时间,value值指定默认的时间,格式为2016-05-20T11:10:10(年月日T时分秒)。
number 数字向上或者向下滑动。可以填数字然后向上或者向下选择不同的值。
range 滑动标签。min(指定最小值)、max(指定最大值)、value(指定当前默认值)。
week 每年的周数。value指定哪一年第几周,格式为2016-W25(2016年第25周)。
<textarea> 文本域标签。默认表现形式是可以输入很多行文本的文本框。
name (表单提交项的key)
cols(设置文本域宽度)
rows(设置文本域高度,即行数)
<select> 下拉框标签。使用时要结合<option>子标签一起使用。
name:表单提交项的key
size:选项个数
multiple:多选
<option> 下拉选中的每一项
value(表单提交项的值)
selected(selected下拉选默认被选中)
<optgroup>为每一项加上分组
<label> 把元素与文本结合起来
友好设计:不只是选中复选框才能选中并打钩,要求点击对应的文字也能选中该复选框。
这种情况下要用到<label>标签的for属性(设置或获取给定标签对象指定到的对象,值=另一个元素的id号即可)
<label for="name">姓名</label>
<input id="name" type="text">
<fieldset> 对表单中的相关元素进行分组
<fieldset>
<legend>温馨提示</legend>
<div align="middle">不要忘记点赞哦 ==</div>
</fieldset>
value: 表单提交项的值
对于不同的输入类型,value 属性的用法也不同:
type="button", "reset", "submit" - 定义按钮上的显示的文本
type="text", "password", "hidden" - 定义输入字段的初始值
type="checkbox", "radio", "p_w_picpath" - 定义与输入相关联的值
框架
<frameset> 框架
用来划分窗体,不能放在<body>中,否则没有效果。
cols (纵向分割页面。其数值表示方法有三种:“30%、30(或者30px)、*”;数值的个数代表分成的视窗数目且数值之间用“,”隔开。“30%”表示该框架区域占全部浏览器页面区域的30%;“30”表示该区域横向宽度为30像素;“*”表示该区域占用余下页面空间。例如:cols="25%,200,*" 表示将页面分为三部分,左面部分占页面30%,中间横向宽度为200像素,页面余下的作为右面部分。)
rows(横向分割页面。属性和cols一样)
frameborder(设置是否显示框架边框。设定值只有0、1;0 表示不要边框,1 表示要显示边框)
border(框架之间的距离,一般设置为0)
bordercolor(边框的颜色)
framespacing(设置框架与框架间的保留的空白距离)
<frameset cols="40%,*,*"> 第一个框架占整个浏览器窗口的40%,剩下的空间平均分配给另外两个框架。
<frameset cols="*,*,*,*"> 浏览器窗口等分为四部分。
<iframe> 框架
元素会创建包含另外一个文档的内联框架(即行内框架)
name (设置框架名称。此为必须设置的属性)
src (设置此框架要显示的网页名称或路径。此为必须设置的属性)
scrolling (设置是否要显示滚动条。设定值为auto, yes, no)
bordercolor (设置框架的边框颜色)
frameborder (设置是否显示框架边框。设定值只有0、1;0 表示不要边框,1 表示要显示边框)
noresize (设置框架大小是否能手动调节)
marginwidth (设置框架边界和其中内容之间的宽度)
marginhight (设置框架边界和其中内容之间的高度)
width(设置框架宽度)
height (设置框架高度)
*请认真填写需求信息,我们会在24小时内与您取得联系。