点赞,转发加关注和私信,获取源代码!
在介绍爬取音频数据前,先大概说说做爬虫应该知道和应该会知识。
一、爬虫的对象?
HTML网页
二、网页的构成
为什么要了解网页构成?因为爬取网页中的数据前,
首先要确定目标数据是以何种形式存在于网页中,例如:文本、图片,还是标签属性等;
其次要确定目标数据在网页源代码中的位置,找到网页中元素排布规律,并分析其带有的特殊标识,从而达到提取目标数据的目的;
一般网页由三部分构成:HTML、CSS和JavaScript。
1). HTML 构成网页基本骨架,是网页内容的载体。用户端网页内容包含文字、图片、视频等。
2).CSS 起到修饰HTML的作用,用来改变内容外在表现,是网页的外在表现。能够修改字体、修改颜色、处理图片、超链接等,使网页显示效果丰富多彩。
3).Javascript可以实现各种动态交互效果。例如:动态交互图表、滚动翻页效果、鼠标拖动轨迹等。
图1
图2:
图3
表1中各个代码标签的意义如下表:
表1
3. HTML常用标签:了解常用标签的使用方式,可以快速定位爬取数据的位置提供参考。
3.1 网页标题:不会在HTML文档中直接显示,会显示在浏览器中作为网页的标识。
<title> 网页标题</tittle>
3.2 HTML文件各级标题:
<h1>一级标题</h1>
<h2>二级标题</h2>
<h3>三级标题</h3>
3.3 段落: <p>这是一个段落</p>
3.4 超链接:<a href="http://www.xxx.com/"> <a>
hrnef属性存放的是超链接要跳转到的目标网址<a href="http://www.xxx.com/"> <a>。
target属性决定点击该超链接后,目标网页会在何处显示;例如在新窗口打开<a href="http://www.xxx.com/" target="_blank">xxx<a>; 在当前窗口或框架中打开<a href="http://www.xxx.com/" target="_self">xxx<a>; 在当父窗口中打开<a href="http://www.xxx.com/" target="_parent">xxx<a>;
name属性为超链接添加标签名;例如<a href="http://www.xxx.com/" name="xxx">xxx<a>;
3.5 图像:<img src="图片源地址”>
3.6 表格:<table> </table>
3.7 div元素和span元素:div元素是一种块级元素,可以作为其他元素的容器。span元素是内联元素,通常是文本容器。
3.8 注释:<!--这是一段注释-->
3.9 其他如表格,CSS等,可百度了解;
三、利用Python requests模块下载目标网页相关内容
1.安装requests模块:pip install requests
2.程序基本思路:
""" 程序思路:
#1. 找到网站网址.
#2. 向网站发送获取数据的请求
#3. 筛选数据 运用正则表达式筛选音效名字
#4. 运用正则表达筛选链接
#5. 下载及储存数据 """
3. 在浏览器中输入目标网址打开网页,在网页鼠标右键下拉菜单中选择 “检查” ,
再点选“Network”,在“requests Headers”找到User Agent复制内容;
代码:headers={‘User Agent’:‘复制内容’},目的伪装浏览器请求头访问网页;
实现代码:
# 1.找到需要爬取的网站网址
url='https://www.xxx.com/xxx.html'
# 伪装成浏览器的请求头
headers={
'User-Agent': "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Mobile Safari/537.36"
}
# 2.向网站发送获取数据的请求
res=requests.get(url, headers=headers)
图4
图5 :Network
4. 在“element”中找到需要爬取的音频数据及规律,代码: reg=正则表达式;
reg='<source src=".*?" type="audio/mpeg">'
urls=re.findall(reg, res.text)
图6
5. 使用循环语句下载音频;
for url, name in zip(urls, names):
# print("https:"+url)
# 下载数据
music=requests.get("http:"+url, headers)
# 储存到本地路径音效下
with open("./音效/"+name+".mp3", "wb") as f:
f.write(music.content)
print('<%s,下载成功>' % names)
教材编制不易,希望能帮助到更多有兴趣的学习者,让工作和学习顺利进行;请您点赞转发及关注,后续将分享学习心得,让更多学习者使用。非常感谢!
作者:关中老玉米
日期:2021年01月08日
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
每次给视频配音都非常痛苦,久而久之我就积攒了很多的音频素材网站,今天就给大家分享6个私藏已久的音频资源网站,质量高又免费,且用且珍惜。
https://www.tosound.com/
这个网站可以查找全网不同站源的声音素材,包含不同风格的音乐、音效,资源非常丰富!提供了声音的来源出处,让我们可以自由挑选无版权素材,避免侵权问题。
https://icons8.com/music
这是一个的音乐资源丰富的素材库,虽然是国外网站,当可以搭配翻译插件使用。歌曲按照类别、流派进行划分,你也可以输入关键词搜索,全部音乐都可以试听下载。
https://sucai.zhiyu.art/music
这个资源网站比较全面,图片、视频、音乐、音效等素材,都可以免版权使用。目前有233个音乐素材和663个音效素材,支持试听,你可以按照类型、情绪进行筛选。
https://taira-komori.jpn.org/freesoundcn.html
这个网站里的所有音效,都是可以免费下载的,里面的声音分类非常的多,声音也非常逼真。有人的声音、动作声、动物的声音、自然界的各种声音,应有尽有。
https://mixkit.co/
这个网站可以顶三个用!因为它不仅是视频素材网站,还是音乐的素材网站和PR模板素材网站。音乐专区的音乐也非常的多,还有声音特效,都是可以免费下载的。
https://muhou.net/mouse-c_down
这是国内为数不多的免费资源共享站,里面提供了音乐素材,主要都是各种声音合集,适用于各类场景。但是这些音效都是在视频中,想要获取音频,需要格式转换。
通常我们会用到【迅捷音频转换器】,上面有个“音频提取”功能,将保存的视频添加进去,就能自动分离出音频了。
如果平时你下载的音频素材无法播放,很有可能是格式不兼容,也可以用这款工具,将音频通通转换成常用的mp3格式,就能正常播放使用啦。
最美尾巴:
以上就是我今天分享的内容,如果大家觉得有用,记得点赞告诉我,我会继续分享更多优质的内容。
上面这6个私藏已久的音频资源网站,质量高又免费,还请大家且用且珍惜呀。
一、HTML确实给了我们很多好东西,包括audio标签。
二、我们改改,src属性就不要了,加个controls,它是控制的意思,可以显示音频控制。
三、点了,可是没有歌呀,加歌进去吧,随便下载一首歌。
四、你会发现播放和暂停可以点击,还有进度条的拖动,都是可以用的,可如果你不喜欢那个按钮,又怎么自己做按钮来控制呢。
五、改成两个圆形按钮。
六、补点东西吧,audio标签也应该有个id,然后再加两个按钮的点击事件。
七、完成最后一步,让按钮可以控制audio。
*请认真填写需求信息,我们会在24小时内与您取得联系。