Python编程：爬取音频数据

点赞，转发加关注和私信，获取源代码！

在介绍爬取音频数据前，先大概说说做爬虫应该知道和应该会知识。

一、爬虫的对象？

HTML网页

二、网页的构成

为什么要了解网页构成？因为爬取网页中的数据前，

首先要确定目标数据是以何种形式存在于网页中，例如：文本、图片，还是标签属性等；

其次要确定目标数据在网页源代码中的位置，找到网页中元素排布规律，并分析其带有的特殊标识，从而达到提取目标数据的目的；

一般网页由三部分构成：HTML、CSS和JavaScript。

1）. HTML 构成网页基本骨架，是网页内容的载体。用户端网页内容包含文字、图片、视频等。

2）.CSS 起到修饰HTML的作用，用来改变内容外在表现，是网页的外在表现。能够修改字体、修改颜色、处理图片、超链接等，使网页显示效果丰富多彩。

3）.Javascript可以实现各种动态交互效果。例如：动态交互图表、滚动翻页效果、鼠标拖动轨迹等。

网页显示的基本原理：HTML通过成对出现的标记符（tag）标记要显示网页的各个部分。通过在网页中添加标记符，告诉浏览器以何种格式显示网页。浏览器会自上而下地浏览网页文件（HTML文件），然后根据内容周围的标记符来解释并显示各种内容。
HTML文件构成：在PyCharm中创建一个HTML文件，自动加载如下代码：

图1

图2：

图3

表1中各个代码标签的意义如下表：

表1

3. HTML常用标签：了解常用标签的使用方式，可以快速定位爬取数据的位置提供参考。

3.1 网页标题：不会在HTML文档中直接显示，会显示在浏览器中作为网页的标识。

3.2 HTML文件各级标题：

3.3 段落： <p>这是一个段落</p>

3.4 超链接：<a href="http://www.xxx.com/"> <a>

hrnef属性存放的是超链接要跳转到的目标网址<a href="http://www.xxx.com/"> <a>。

target属性决定点击该超链接后，目标网页会在何处显示；例如在新窗口打开<a href="http://www.xxx.com/" target="_blank">xxx<a>; 在当前窗口或框架中打开<a href="http://www.xxx.com/" target="_self">xxx<a>; 在当父窗口中打开<a href="http://www.xxx.com/" target="_parent">xxx<a>;

name属性为超链接添加标签名；例如<a href="http://www.xxx.com/" name="xxx">xxx<a>;

3.5 图像：<img src="图片源地址”>

3.6 表格：<table> </table>

3.7 div元素和span元素：div元素是一种块级元素，可以作为其他元素的容器。span元素是内联元素，通常是文本容器。

3.8 注释：

3.9 其他如表格，CSS等，可百度了解；

三、利用Python requests模块下载目标网页相关内容

1.安装requests模块：pip install requests

2.程序基本思路：

""" 程序思路：

#1. 找到网站网址.

#2. 向网站发送获取数据的请求

#3. 筛选数据运用正则表达式筛选音效名字

#4. 运用正则表达筛选链接

#5. 下载及储存数据 """

3. 在浏览器中输入目标网址打开网页，在网页鼠标右键下拉菜单中选择 “检查” ，

再点选“Network”，在“requests Headers”找到User Agent复制内容；

代码：headers={‘User Agent’：‘复制内容’}，目的伪装浏览器请求头访问网页；

实现代码：

# 1.找到需要爬取的网站网址
url='https://www.xxx.com/xxx.html'

# 伪装成浏览器的请求头
headers={
   'User-Agent': "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Mobile Safari/537.36"
}

# 2.向网站发送获取数据的请求
res=requests.get(url, headers=headers)

图4

图5 ：Network

4. 在“element”中找到需要爬取的音频数据及规律，代码： reg=正则表达式；

reg='<source src=".*?" type="audio/mpeg">'
urls=re.findall(reg, res.text)

图6

5. 使用循环语句下载音频；

for url, name in zip(urls, names):
   # print("https:"+url)
   # 下载数据
   music=requests.get("http:"+url, headers)
   # 储存到本地路径音效下
   with open("./音效/"+name+".mp3", "wb") as f:
      f.write(music.content)
   print('<%s,下载成功>' % names)

教材编制不易，希望能帮助到更多有兴趣的学习者，让工作和学习顺利进行；请您点赞转发及关注，后续将分享学习心得，让更多学习者使用。非常感谢！

作者：关中老玉米

日期：2021年01月08日

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

每次给视频配音都非常痛苦，久而久之我就积攒了很多的音频素材网站，今天就给大家分享6个私藏已久的音频资源网站，质量高又免费，且用且珍惜。

01*淘声网

https://www.tosound.com/

这个网站可以查找全网不同站源的声音素材，包含不同风格的音乐、音效，资源非常丰富！提供了声音的来源出处，让我们可以自由挑选无版权素材，避免侵权问题。

02*FUGUE

https://icons8.com/music

这是一个的音乐资源丰富的素材库，虽然是国外网站，当可以搭配翻译插件使用。歌曲按照类别、流派进行划分，你也可以输入关键词搜索，全部音乐都可以试听下载。

03*知鱼

https://sucai.zhiyu.art/music

这个资源网站比较全面，图片、视频、音乐、音效等素材，都可以免版权使用。目前有233个音乐素材和663个音效素材，支持试听，你可以按照类型、情绪进行筛选。

04*小森平

https://taira-komori.jpn.org/freesoundcn.html

这个网站里的所有音效，都是可以免费下载的，里面的声音分类非常的多，声音也非常逼真。有人的声音、动作声、动物的声音、自然界的各种声音，应有尽有。

05*Mixkit

https://mixkit.co/

这个网站可以顶三个用！因为它不仅是视频素材网站，还是音乐的素材网站和PR模板素材网站。音乐专区的音乐也非常的多，还有声音特效，都是可以免费下载的。

06*幕后

https://muhou.net/mouse-c_down

这是国内为数不多的免费资源共享站，里面提供了音乐素材，主要都是各种声音合集，适用于各类场景。但是这些音效都是在视频中，想要获取音频，需要格式转换。

通常我们会用到【迅捷音频转换器】，上面有个“音频提取”功能，将保存的视频添加进去，就能自动分离出音频了。

如果平时你下载的音频素材无法播放，很有可能是格式不兼容，也可以用这款工具，将音频通通转换成常用的mp3格式，就能正常播放使用啦。

最美尾巴：

以上就是我今天分享的内容，如果大家觉得有用，记得点赞告诉我，我会继续分享更多优质的内容。
上面这6个私藏已久的音频资源网站，质量高又免费，还请大家且用且珍惜呀。

H5之下做一个音频播放器，其实不难了，只用audio标签就可以了。
本章，只是加了两个按钮，通过自己添加的按钮来控制音频播放，这才是本文目的。

一、HTML确实给了我们很多好东西，包括audio标签。

打开浏览器，什么也没有。

二、我们改改，src属性就不要了，加个controls，它是控制的意思，可以显示音频控制。

三、点了，可是没有歌呀，加歌进去吧，随便下载一首歌。

四、你会发现播放和暂停可以点击，还有进度条的拖动，都是可以用的，可如果你不喜欢那个按钮，又怎么自己做按钮来控制呢。

按钮真的很丑，我们得改改样式。

五、改成两个圆形按钮。

六、补点东西吧，audio标签也应该有个id，然后再加两个按钮的点击事件。

七、完成最后一步，让按钮可以控制audio。

在线咨询

上一篇：使用nofollow标签会影响收录和权重吗？
下一篇：JavaScript按位运算符

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商