整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

HTML URL编码

RL也被称为网址。

URL 可以由单词组成,比如 "w3school.com.cn",或者是因特网协议(IP)地址:192.168.1.253。

大多数人在网上冲浪时,会键入网址的域名,因为名称比数字容易记忆。

URL(Uniform Resource Locator)

当您点击 HTML 页面中的某个链接时,对应的<a>标签指向万维网上的一个地址。

统一资源定位器(URL)用于定位万维网上的文档(或其他数据)。

网址,比如 http://www.w3school.com.cn/html/index.asp,遵守以下的语法规则:

scheme://host.domain:port/path/filename

解释:

scheme 定义因特网服务的类型。最常见的类型是 http

host 定义域主机(http 的默认主机是 www)

domain 定义因特网域名,比如 w3school.com.cn

:port 定义主机上的端口号(http 的默认端口号是 80)

path 定义服务器上的路径(如果省略,则文档必须位于网站的根目录中)。

filename 定义文档/资源的名称

编者注:URL 的英文全称是 Uniform Resource Locator,中文也译为"统一资源定位符"。

URL Schemes

以下是其中一些最流行的 scheme:

Scheme 访问 用于...

http 超文本传输协议 以 http:// 开头的普通网页。不加密。

https 安全超文本传输协议 安全网页。加密所有信息交换。

ftp 文件传输协议 用于将文件下载或上传至网站。

file 您计算机上的文件。


URL编码

URL只能使用ASCII字符集来通过因特网进行发送。

由于URL常常会包含ASCII集合之外的字符,URL 必须转换为有效的ASCII格式。

URL编码使用"%"其后跟随两位的十六进制数来替换非ASCII字符。

URL不能包含空格。URL编码通常使用+来替换空格。


URL编码表参考

http://www.w3school.com.cn/tags/html_ref_urlencode.html

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>登录页面</title>
    /*总体的样式*/
    <style>
    	/*盒子样式*/
        #box{
            width: 350px; //宽
            height: 450px; //高
            border: 1px solid black; //边框
            border-radius: 10px; //边框弧度
            font-family: 黑体; //字体
            letter-spacing:8px; //段间距
            word-spacing: 10px; //字间距
            line-height: 40px; //行高
            font-size: 18px; //字大小
            padding: 20px; //内边框
        }
        /*给'注册'赋予样式*/
        .register{
            width:280px ; //宽
            height: 50px; //高
            background-color: skyblue; //背景颜色
            border-radius: 10px; //边框弧度

        }
        /*将所有边框都改变*/
        *{
            border-radius: 5px; 边框弧度
        }
        /*使用class选择器,赋予number宽高和边框*/
        .number{
            width: 185px; //宽
            height: 27px; //高
            border-width: 1px; //边框宽度

        }
        /*id选择器*/
        #two{
            width: 55px; //宽
            border-width: 1px; 边框宽度
        }
        /*id选择器*/
        #phone{
            width: 103px; //宽
        }
        /*class 选择器*/
        .boxs{
            zoom: 75%; //清除浮动
            color: darkgray; //颜色
        }
        /*class选择器*/
        .box_a{
            width: 50px; //宽
            height: 50px; //高
            background-image: url("../image/04.jpg "); //背景图片
            background-repeat: no-repeat; // 是否平铺
            background-size: 50px 25px; //背景尺寸
            position: relative; //定位 相对定位
            left: 310px; //定位后左移
            bottom: 32px; //定位后下移

        }
    </style>
</head>
<body>
<div id="box">
    <h1>请注册</h1>
<p style="color: darkgray">已有帐号?<a href="https://im.qq.com/index">登录</a></p>
<form action="" method="post">
    <label for="name">用户名</label>
    <input type="text" placeholder="请输入用户名" id="name" class="number"> <br>
    <label for="phone">手机号</label>
    <select name="" id="two" class="number">
    <optgroup>
        <option style="" class="">+86</option>
    </optgroup>
    </select>
    <input type="text" placeholder="请输入手机号" id="phone" class="number"> <br>
    <label for="mima">密 码</label>
    <input type="password" placeholder="请输入密码" id="mima" class="number"> <br>
    <label for="mima">验证码</label>
    <input type="password" placeholder="请输入验证码" id="is" class="number">
    <div class="box_a"></div>
    <div class="boxs">
        <input type="radio" id="" class="accept">阅读并接受协议<br>
    </div>
    <input type="submit" value="注册" class="register" >

    </form>
</div>


</body>
</html>
在这里插入图片描述

上一篇推文Gooseeker抓取豆瓣电影排行榜-剧情片中,我向大家分享了如何爬取“豆瓣排行榜-剧情片”这个类别中评分在前10%的电影。

这篇推文将是对上篇文章的进一步深入,主要介绍如何将其他分类中排在前10%的电影一起抓取下来。

其实,这个操作非常简单,只需要在上篇推文创建的规则上添加一个条件就可以了。即在“DS打数机”中,右键点击“主题—管理线索—添加”,按提示,将URL网址依次添加进来即可。

但,最大的问题在于,如何获取URL?在这里,如果分类网址只有29个,暂且还可以用手动复制粘贴的方法获取;但如果今天我们希望获取的网址信息有成百上千个,手动获取得花费多少时间啊~

接下来我就教大家一个简单的方法,用这个办法,我们可以更快更准确的获取到网址信息。

我在之前的文章中已经说到,URL网址的组成都有它的规律,所有的网页信息都有它们的HTML源代码。

只要稍作观察,就不难发现,豆瓣分类排行榜的网址的变动主要集中在下图标注的nametype上面:

现在,在豆瓣电影排行榜这个网页中,点击F12,调出网页源代码,点击下图红色椭圆框选的按钮,快速的定位到分类网址所在的位置。

如图可知,每个span属性下存放着一个href属性,里面包含了我们先要的分类名称name和类型代码type:

现在选中所有分类属性所在的上一级属性<div class=“types”>,右键选择“copy—copyelement”:

接下来,打开Excel,将内容Ctrl+V粘贴进来。

在这里,我主要通过Ctrl+H“替换”的方式,将重复且多余的内容一一替除,然后手动删除了小部分信息冗杂部分;最后用“数据—分列”的方法将依然不能删除的多余信息分列出去,并删除。经过删减,最后得到了如下图所示的B列;

最后,用公式“=$A&B1&$C”将URL网址的前后重复部分与B列合并,得到了所有分类的URL网址:

选择D列,按Ctrl+C,再按“选择性粘贴”Ctrl+Alt+V,选择“数值”Alt+V,确定。

最后,将D列网址复制,粘贴到推文最初提到的添加线索栏中:

添加完成后,按确定,右键点击主题“电影爬”,查看“统计线索”,如下图所示,线索有29条,也就是有29个URL网址处于待抓取状态。

最后,点击“单搜”,将线索改为“29”,确认,抓取完成即可。

该案例中需要处理的URL网址只有29条,可能你并不能感受到这种方法有多么便利,其他类型的URL网址也不可能都像豆瓣网址这样组合。

所以,这篇推文主要提供的是这种发现和处理URL的思路,通过这种思路,大家可以更加得心应手的解决URL网址的抓取问题。

如果大家想要了解更多,可以点击阅读原文,学习松鼠的爬虫视频课程哦。~

注:如直接点击阅读原文购买后,购买账号即为你的微信号。