RL也被称为网址。
URL 可以由单词组成,比如 "w3school.com.cn",或者是因特网协议(IP)地址:192.168.1.253。
大多数人在网上冲浪时,会键入网址的域名,因为名称比数字容易记忆。
URL(Uniform Resource Locator)
当您点击 HTML 页面中的某个链接时,对应的<a>标签指向万维网上的一个地址。
统一资源定位器(URL)用于定位万维网上的文档(或其他数据)。
网址,比如 http://www.w3school.com.cn/html/index.asp,遵守以下的语法规则:
scheme://host.domain:port/path/filename
解释:
scheme 定义因特网服务的类型。最常见的类型是 http
host 定义域主机(http 的默认主机是 www)
domain 定义因特网域名,比如 w3school.com.cn
:port 定义主机上的端口号(http 的默认端口号是 80)
path 定义服务器上的路径(如果省略,则文档必须位于网站的根目录中)。
filename 定义文档/资源的名称
编者注:URL 的英文全称是 Uniform Resource Locator,中文也译为"统一资源定位符"。
URL Schemes
以下是其中一些最流行的 scheme:
Scheme 访问 用于...
http 超文本传输协议 以 http:// 开头的普通网页。不加密。
https 安全超文本传输协议 安全网页。加密所有信息交换。
ftp 文件传输协议 用于将文件下载或上传至网站。
file 您计算机上的文件。
URL编码
URL只能使用ASCII字符集来通过因特网进行发送。
由于URL常常会包含ASCII集合之外的字符,URL 必须转换为有效的ASCII格式。
URL编码使用"%"其后跟随两位的十六进制数来替换非ASCII字符。
URL不能包含空格。URL编码通常使用+来替换空格。
URL编码表参考
http://www.w3school.com.cn/tags/html_ref_urlencode.html
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>登录页面</title>
/*总体的样式*/
<style>
/*盒子样式*/
#box{
width: 350px; //宽
height: 450px; //高
border: 1px solid black; //边框
border-radius: 10px; //边框弧度
font-family: 黑体; //字体
letter-spacing:8px; //段间距
word-spacing: 10px; //字间距
line-height: 40px; //行高
font-size: 18px; //字大小
padding: 20px; //内边框
}
/*给'注册'赋予样式*/
.register{
width:280px ; //宽
height: 50px; //高
background-color: skyblue; //背景颜色
border-radius: 10px; //边框弧度
}
/*将所有边框都改变*/
*{
border-radius: 5px; 边框弧度
}
/*使用class选择器,赋予number宽高和边框*/
.number{
width: 185px; //宽
height: 27px; //高
border-width: 1px; //边框宽度
}
/*id选择器*/
#two{
width: 55px; //宽
border-width: 1px; 边框宽度
}
/*id选择器*/
#phone{
width: 103px; //宽
}
/*class 选择器*/
.boxs{
zoom: 75%; //清除浮动
color: darkgray; //颜色
}
/*class选择器*/
.box_a{
width: 50px; //宽
height: 50px; //高
background-image: url("../image/04.jpg "); //背景图片
background-repeat: no-repeat; // 是否平铺
background-size: 50px 25px; //背景尺寸
position: relative; //定位 相对定位
left: 310px; //定位后左移
bottom: 32px; //定位后下移
}
</style>
</head>
<body>
<div id="box">
<h1>请注册</h1>
<p style="color: darkgray">已有帐号?<a href="https://im.qq.com/index">登录</a></p>
<form action="" method="post">
<label for="name">用户名</label>
<input type="text" placeholder="请输入用户名" id="name" class="number"> <br>
<label for="phone">手机号</label>
<select name="" id="two" class="number">
<optgroup>
<option style="" class="">+86</option>
</optgroup>
</select>
<input type="text" placeholder="请输入手机号" id="phone" class="number"> <br>
<label for="mima">密 码</label>
<input type="password" placeholder="请输入密码" id="mima" class="number"> <br>
<label for="mima">验证码</label>
<input type="password" placeholder="请输入验证码" id="is" class="number">
<div class="box_a"></div>
<div class="boxs">
<input type="radio" id="" class="accept">阅读并接受协议<br>
</div>
<input type="submit" value="注册" class="register" >
</form>
</div>
</body>
</html>
在这里插入图片描述
上一篇推文Gooseeker抓取豆瓣电影排行榜-剧情片中,我向大家分享了如何爬取“豆瓣排行榜-剧情片”这个类别中评分在前10%的电影。
这篇推文将是对上篇文章的进一步深入,主要介绍如何将其他分类中排在前10%的电影一起抓取下来。
其实,这个操作非常简单,只需要在上篇推文创建的规则上添加一个条件就可以了。即在“DS打数机”中,右键点击“主题—管理线索—添加”,按提示,将URL网址依次添加进来即可。
但,最大的问题在于,如何获取URL?在这里,如果分类网址只有29个,暂且还可以用手动复制粘贴的方法获取;但如果今天我们希望获取的网址信息有成百上千个,手动获取得花费多少时间啊~
接下来我就教大家一个简单的方法,用这个办法,我们可以更快更准确的获取到网址信息。
我在之前的文章中已经说到,URL网址的组成都有它的规律,所有的网页信息都有它们的HTML源代码。
只要稍作观察,就不难发现,豆瓣分类排行榜的网址的变动主要集中在下图标注的name和type上面:
现在,在豆瓣电影排行榜这个网页中,点击F12,调出网页源代码,点击下图红色椭圆框选的按钮,快速的定位到分类网址所在的位置。
如图可知,每个span属性下存放着一个href属性,里面包含了我们先要的分类名称name和类型代码type:
现在选中所有分类属性所在的上一级属性<div class=“types”>,右键选择“copy—copyelement”:
接下来,打开Excel,将内容Ctrl+V粘贴进来。
在这里,我主要通过Ctrl+H“替换”的方式,将重复且多余的内容一一替除,然后手动删除了小部分信息冗杂部分;最后用“数据—分列”的方法将依然不能删除的多余信息分列出去,并删除。经过删减,最后得到了如下图所示的B列;
最后,用公式“=$A&B1&$C”将URL网址的前后重复部分与B列合并,得到了所有分类的URL网址:
选择D列,按Ctrl+C,再按“选择性粘贴”Ctrl+Alt+V,选择“数值”Alt+V,确定。
最后,将D列网址复制,粘贴到推文最初提到的添加线索栏中:
添加完成后,按确定,右键点击主题“电影爬”,查看“统计线索”,如下图所示,线索有29条,也就是有29个URL网址处于待抓取状态。
最后,点击“单搜”,将线索改为“29”,确认,抓取完成即可。
该案例中需要处理的URL网址只有29条,可能你并不能感受到这种方法有多么便利,其他类型的URL网址也不可能都像豆瓣网址这样组合。
所以,这篇推文主要提供的是这种发现和处理URL的思路,通过这种思路,大家可以更加得心应手的解决URL网址的抓取问题。
如果大家想要了解更多,可以点击阅读原文,学习松鼠的爬虫视频课程哦。~
注:如直接点击阅读原文购买后,购买账号即为你的微信号。
*请认真填写需求信息,我们会在24小时内与您取得联系。