HTML URL编码

RL也被称为网址。

URL 可以由单词组成,比如 "w3school.com.cn"，或者是因特网协议(IP)地址：192.168.1.253。

大多数人在网上冲浪时,会键入网址的域名,因为名称比数字容易记忆。

URL(Uniform Resource Locator)

当您点击 HTML 页面中的某个链接时,对应的<a>标签指向万维网上的一个地址。

统一资源定位器(URL)用于定位万维网上的文档(或其他数据)。

网址,比如 http://www.w3school.com.cn/html/index.asp,遵守以下的语法规则：

scheme://host.domain:port/path/filename

解释：

scheme 定义因特网服务的类型。最常见的类型是 http

host 定义域主机(http 的默认主机是 www)

domain 定义因特网域名，比如 w3school.com.cn

:port 定义主机上的端口号(http 的默认端口号是 80)

path 定义服务器上的路径(如果省略，则文档必须位于网站的根目录中)。

filename 定义文档/资源的名称

编者注：URL 的英文全称是 Uniform Resource Locator，中文也译为"统一资源定位符"。

URL Schemes

以下是其中一些最流行的 scheme：

Scheme 访问用于...

http 超文本传输协议以 http:// 开头的普通网页。不加密。

https 安全超文本传输协议安全网页。加密所有信息交换。

ftp 文件传输协议用于将文件下载或上传至网站。

file 您计算机上的文件。

URL编码

URL只能使用ASCII字符集来通过因特网进行发送。

由于URL常常会包含ASCII集合之外的字符,URL 必须转换为有效的ASCII格式。

URL编码使用"%"其后跟随两位的十六进制数来替换非ASCII字符。

URL不能包含空格。URL编码通常使用+来替换空格。

URL编码表参考

http://www.w3school.com.cn/tags/html_ref_urlencode.html

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>登录页面</title>
    /*总体的样式*/
    <style>
    	/*盒子样式*/
        #box{
            width: 350px; //宽
            height: 450px; //高
            border: 1px solid black; //边框
            border-radius: 10px; //边框弧度
            font-family: 黑体; //字体
            letter-spacing:8px; //段间距
            word-spacing: 10px; //字间距
            line-height: 40px; //行高
            font-size: 18px; //字大小
            padding: 20px; //内边框
        }
        /*给'注册'赋予样式*/
        .register{
            width:280px ; //宽
            height: 50px; //高
            background-color: skyblue; //背景颜色
            border-radius: 10px; //边框弧度

        }
        /*将所有边框都改变*/
        *{
            border-radius: 5px; 边框弧度
        }
        /*使用class选择器，赋予number宽高和边框*/
        .number{
            width: 185px; //宽
            height: 27px; //高
            border-width: 1px; //边框宽度

        }
        /*id选择器*/
        #two{
            width: 55px; //宽
            border-width: 1px; 边框宽度
        }
        /*id选择器*/
        #phone{
            width: 103px; //宽
        }
        /*class 选择器*/
        .boxs{
            zoom: 75%; //清除浮动
            color: darkgray; //颜色
        }
        /*class选择器*/
        .box_a{
            width: 50px; //宽
            height: 50px; //高
            background-image: url("../image/04.jpg "); //背景图片
            background-repeat: no-repeat; // 是否平铺
            background-size: 50px 25px; //背景尺寸
            position: relative; //定位 相对定位
            left: 310px; //定位后左移
            bottom: 32px; //定位后下移

        }
    </style>
</head>
<body>
<div id="box">
    <h1>请注册</h1>
<p style="color: darkgray">已有帐号?<a href="https://im.qq.com/index">登录</a></p>
<form action="" method="post">
    <label for="name">用户名</label>
    <input type="text" placeholder="请输入用户名" id="name" class="number"> <br>
    <label for="phone">手机号</label>
    <select name="" id="two" class="number">
    <optgroup>
        <option style="" class="">+86</option>
    </optgroup>
    </select>
    <input type="text" placeholder="请输入手机号" id="phone" class="number"> <br>
    <label for="mima">密 码</label>
    <input type="password" placeholder="请输入密码" id="mima" class="number"> <br>
    <label for="mima">验证码</label>
    <input type="password" placeholder="请输入验证码" id="is" class="number">
    <div class="box_a"></div>
    <div class="boxs">
        <input type="radio" id="" class="accept">阅读并接受协议<br>
    </div>
    <input type="submit" value="注册" class="register" >

    </form>
</div>


</body>
</html>
在这里插入图片描述

上一篇推文Gooseeker抓取豆瓣电影排行榜-剧情片中，我向大家分享了如何爬取“豆瓣排行榜-剧情片”这个类别中评分在前10%的电影。

这篇推文将是对上篇文章的进一步深入，主要介绍如何将其他分类中排在前10%的电影一起抓取下来。

其实，这个操作非常简单，只需要在上篇推文创建的规则上添加一个条件就可以了。即在“DS打数机”中，右键点击“主题—管理线索—添加”，按提示，将URL网址依次添加进来即可。

但，最大的问题在于，如何获取URL？在这里，如果分类网址只有29个，暂且还可以用手动复制粘贴的方法获取；但如果今天我们希望获取的网址信息有成百上千个，手动获取得花费多少时间啊~

接下来我就教大家一个简单的方法，用这个办法，我们可以更快更准确的获取到网址信息。

我在之前的文章中已经说到，URL网址的组成都有它的规律，所有的网页信息都有它们的HTML源代码。

只要稍作观察，就不难发现，豆瓣分类排行榜的网址的变动主要集中在下图标注的name和type上面：

现在，在豆瓣电影排行榜这个网页中，点击F12，调出网页源代码，点击下图红色椭圆框选的按钮，快速的定位到分类网址所在的位置。

如图可知，每个span属性下存放着一个href属性，里面包含了我们先要的分类名称name和类型代码type：

现在选中所有分类属性所在的上一级属性<div class=“types”>，右键选择“copy—copyelement”：

接下来，打开Excel，将内容Ctrl+V粘贴进来。

在这里，我主要通过Ctrl+H“替换”的方式，将重复且多余的内容一一替除，然后手动删除了小部分信息冗杂部分；最后用“数据—分列”的方法将依然不能删除的多余信息分列出去，并删除。经过删减，最后得到了如下图所示的B列；

最后，用公式“=$A&B1&$C”将URL网址的前后重复部分与B列合并，得到了所有分类的URL网址：

选择D列，按Ctrl+C，再按“选择性粘贴”Ctrl+Alt+V，选择“数值”Alt+V，确定。

最后，将D列网址复制，粘贴到推文最初提到的添加线索栏中：

添加完成后，按确定，右键点击主题“电影爬”，查看“统计线索”，如下图所示，线索有29条，也就是有29个URL网址处于待抓取状态。

最后，点击“单搜”，将线索改为“29”，确认，抓取完成即可。

该案例中需要处理的URL网址只有29条，可能你并不能感受到这种方法有多么便利，其他类型的URL网址也不可能都像豆瓣网址这样组合。

所以，这篇推文主要提供的是这种发现和处理URL的思路，通过这种思路，大家可以更加得心应手的解决URL网址的抓取问题。

如果大家想要了解更多，可以点击阅读原文，学习松鼠的爬虫视频课程哦。~

注：如直接点击阅读原文购买后，购买账号即为你的微信号。

在线咨询

上一篇：html固定定位position值fixed
下一篇：CSS设置宽高的小技巧

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商

HTML URL编码

您的项目需求