整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

Python编程:爬取音频数据

Python编程:爬取音频数据

点赞,转发加关注和私信,获取源代码!

在介绍爬取音频数据前,先大概说说做爬虫应该知道和应该会知识。

一、爬虫的对象?

HTML网页

二、网页的构成

为什么要了解网页构成?因为爬取网页中的数据前,

首先要确定目标数据是以何种形式存在于网页中,例如:文本、图片,还是标签属性等;

其次要确定目标数据在网页源代码中的位置,找到网页中元素排布规律,并分析其带有的特殊标识,从而达到提取目标数据的目的;

一般网页由三部分构成:HTML、CSS和JavaScript。

1). HTML 构成网页基本骨架,是网页内容的载体。用户端网页内容包含文字、图片、视频等。

2).CSS 起到修饰HTML的作用,用来改变内容外在表现,是网页的外在表现。能够修改字体、修改颜色、处理图片、超链接等,使网页显示效果丰富多彩。

3).Javascript可以实现各种动态交互效果。例如:动态交互图表、滚动翻页效果、鼠标拖动轨迹等。

  1. 网页显示的基本原理:HTML通过成对出现的标记符(tag)标记要显示网页的各个部分。通过在网页中添加标记符,告诉浏览器以何种格式显示网页。浏览器会自上而下地浏览网页文件(HTML文件),然后根据内容周围的标记符来解释并显示各种内容。
  2. HTML文件构成:在PyCharm中创建一个HTML文件,自动加载如下代码:

图1

图2:

图3

表1中各个代码标签的意义如下表:

表1

3. HTML常用标签:了解常用标签的使用方式,可以快速定位爬取数据的位置提供参考。

3.1 网页标题:不会在HTML文档中直接显示,会显示在浏览器中作为网页的标识。

<title> 网页标题</tittle>

3.2 HTML文件各级标题:

<h1>一级标题</h1>

<h2>二级标题</h2>

<h3>三级标题</h3>

3.3 段落: <p>这是一个段落</p>

3.4 超链接:<a href="http://www.xxx.com/"> <a>

hrnef属性存放的是超链接要跳转到的目标网址<a href="http://www.xxx.com/"> <a>。

target属性决定点击该超链接后,目标网页会在何处显示;例如在新窗口打开<a href="http://www.xxx.com/" target="_blank">xxx<a>; 在当前窗口或框架中打开<a href="http://www.xxx.com/" target="_self">xxx<a>; 在当父窗口中打开<a href="http://www.xxx.com/" target="_parent">xxx<a>;

name属性为超链接添加标签名;例如<a href="http://www.xxx.com/" name="xxx">xxx<a>;

3.5 图像:<img src="图片源地址”>

3.6 表格:<table> </table>


3.7 div元素和span元素:div元素是一种块级元素,可以作为其他元素的容器。span元素是内联元素,通常是文本容器。

3.8 注释:<!--这是一段注释-->

3.9 其他如表格,CSS等,可百度了解;

三、利用Python requests模块下载目标网页相关内容

1.安装requests模块:pip install requests

2.程序基本思路:

""" 程序思路:

#1. 找到网站网址.

#2. 向网站发送获取数据的请求

#3. 筛选数据 运用正则表达式筛选音效名字

#4. 运用正则表达筛选链接

#5. 下载及储存数据 """

3. 在浏览器中输入目标网址打开网页,在网页鼠标右键下拉菜单中选择 “检查” ,

再点选“Network”,在“requests Headers”找到User Agent复制内容;

代码:headers={‘User Agent’:‘复制内容’},目的伪装浏览器请求头访问网页;

实现代码:

# 1.找到需要爬取的网站网址
url='https://www.xxx.com/xxx.html'

# 伪装成浏览器的请求头
headers={
   'User-Agent': "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Mobile Safari/537.36"
}

# 2.向网站发送获取数据的请求
res=requests.get(url, headers=headers)

图4

图5 :Network

4. 在“element”中找到需要爬取的音频数据及规律,代码: reg=正则表达式;

reg='<source src=".*?" type="audio/mpeg">'
urls=re.findall(reg, res.text)


图6

5. 使用循环语句下载音频;

for url, name in zip(urls, names):
   # print("https:"+url)
   # 下载数据
   music=requests.get("http:"+url, headers)
   # 储存到本地路径音效下
   with open("./音效/"+name+".mp3", "wb") as f:
      f.write(music.content)
   print('<%s,下载成功>' % names)

教材编制不易,希望能帮助到更多有兴趣的学习者,让工作和学习顺利进行;请您点赞转发及关注,后续将分享学习心得,让更多学习者使用。非常感谢!


作者:关中老玉米

日期:2021年01月08日

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

每次给视频配音都非常痛苦,久而久之我就积攒了很多的音频素材网站,今天就给大家分享6个私藏已久的音频资源网站,质量高又免费,且用且珍惜。

01*淘声网

https://www.tosound.com/

这个网站可以查找全网不同站源的声音素材,包含不同风格的音乐、音效,资源非常丰富!提供了声音的来源出处,让我们可以自由挑选无版权素材,避免侵权问题。

02*FUGUE

https://icons8.com/music

这是一个的音乐资源丰富的素材库,虽然是国外网站,当可以搭配翻译插件使用。歌曲按照类别、流派进行划分,你也可以输入关键词搜索,全部音乐都可以试听下载。

03*知鱼

https://sucai.zhiyu.art/music

这个资源网站比较全面,图片、视频、音乐、音效等素材,都可以免版权使用。目前有233个音乐素材和663个音效素材,支持试听,你可以按照类型、情绪进行筛选。

04*小森平

https://taira-komori.jpn.org/freesoundcn.html

这个网站里的所有音效,都是可以免费下载的,里面的声音分类非常的多,声音也非常逼真。有人的声音、动作声、动物的声音、自然界的各种声音,应有尽有。

05*Mixkit

https://mixkit.co/

这个网站可以顶三个用!因为它不仅是视频素材网站,还是音乐的素材网站和PR模板素材网站。音乐专区的音乐也非常的多,还有声音特效,都是可以免费下载的。

06*幕后

https://muhou.net/mouse-c_down

这是国内为数不多的免费资源共享站,里面提供了音乐素材,主要都是各种声音合集,适用于各类场景。但是这些音效都是在视频中,想要获取音频,需要格式转换。

通常我们会用到【迅捷音频转换器】,上面有个“音频提取”功能,将保存的视频添加进去,就能自动分离出音频了。

如果平时你下载的音频素材无法播放,很有可能是格式不兼容,也可以用这款工具,将音频通通转换成常用的mp3格式,就能正常播放使用啦。

最美尾巴:

以上就是我今天分享的内容,如果大家觉得有用,记得点赞告诉我,我会继续分享更多优质的内容。

上面这6个私藏已久的音频资源网站,质量高又免费,还请大家且用且珍惜呀。

  • H5之下做一个音频播放器,其实不难了,只用audio标签就可以了。
  • 本章,只是加了两个按钮,通过自己添加的按钮来控制音频播放,这才是本文目的。

一、HTML确实给了我们很多好东西,包括audio标签。

  • 打开浏览器,什么也没有。

二、我们改改,src属性就不要了,加个controls,它是控制的意思,可以显示音频控制。

三、点了,可是没有歌呀,加歌进去吧,随便下载一首歌。

四、你会发现播放和暂停可以点击,还有进度条的拖动,都是可以用的,可如果你不喜欢那个按钮,又怎么自己做按钮来控制呢。

  • 按钮真的很丑,我们得改改样式。

五、改成两个圆形按钮。

六、补点东西吧,audio标签也应该有个id,然后再加两个按钮的点击事件。

七、完成最后一步,让按钮可以控制audio。