整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

手把手教你使用Python网络爬虫获取B站视频选集内容(附源码)

家好,我是Python进阶者。

前言

前几天雪球兄在Python交流群里分享了一个获取B站视频选集的Python代码,小编觉得非常奈斯,这里整理成一篇小文章,分享给大家学习。

关于雪球兄,大家应该都熟悉了,之前他写过Python实战文章,好评如潮,没来得及看的小伙伴,可以戳这里了:

盘点常用验证码标注和识别项目线上部署三种方式——VUE前端、Java后端和Python后端部署

Python项目实战篇——常用验证码标注&识别(CNN神经网络模型训练/测试/部署)

Python项目实战篇——常用验证码标注&识别(前端+后端实现高效率数据标注)

Python项目实战篇——常用验证码标注&识别(数据采集/预处理/字符图切割)

Python项目实战篇——常用验证码标注和识别(需求分析和实现思路)

之前也有给大家分享B站的一些文章,感兴趣的话可以看看这个文章,Python网络爬虫+数据分析:手把手教你用Python网络爬虫获取B站UP主10万条数据并用Pandas库进行趣味数据分析。


一、背景引入

一提到B站,第一印象就是视频,相信很多小伙伴和我一样,都想着去利用网络爬虫技术获取B站的视频吧,但是B站视频其实没有那么好拿到的,关于B站的视频获取,之前有介绍通过you-get库进行实现,感兴趣的小伙伴可以看这篇文章:You-Get 就是这么强势!。

言归正传,经常在B站上学习的小伙伴们可能经常会遇到有的博主连载几十个,甚至几百个视频,尤其像这种编程语言、课程、工具使用等连续的教程,就会出现选集系列,如下图所示。

当然这些选集的字段我们肉眼也是可以看得到的。只是通过程序来实现的话,可能真没有想象的那么简单。那么这篇文章的目标呢,就是通过Python网络爬虫技术,基于selenium库,实现视频选集的获取。


二、具体实现

这篇文章我们用的库是selenium,这个是一个用于模拟用户登录的库,虽然给人的感觉是慢,但是在网络爬虫领域,这个库还是用的蛮多的,用它来模拟登录、获取数据屡试不爽。下面是实现视频选集采集的所有代码,欢迎大家亲自动手实践。

# coding: utf-8
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait


class Item:
    page_num = ""
    part = ""
    duration = ""


    def __init__(self, page_num, part, duration):
        self.page_num = page_num
        self.part = part
        self.duration = duration


    def get_second(self):
        str_list = self.duration.split(":")
        sum = 0
        for i, item in enumerate(str_list):
            sum += pow(60, len(str_list) - i - 1) * int(item)


        return sum


def get_bilili_page_items(url):
    options = webdriver.ChromeOptions()
    options.add_argument('--headless')  # 设置无界面
    options.add_experimental_option('excludeSwitches', ['enable-automation'])
    # options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2,
    #                                           "profile.managed_default_content_settings.flash": 0})


    browser = webdriver.Chrome(options=options)
    # browser = webdriver.PhantomJS()
    print("正在打开网页...")
    browser.get(url)


    print("等待网页响应...")
    # 需要等一下,直到页面加载完成
    wait = WebDriverWait(browser, 10)
    wait.until(EC.visibility_of_element_located((By.XPATH, '//*[@class="list-box"]/li/a')))


    print("正在获取网页数据...")
    list = browser.find_elements_by_xpath('//*[@class="list-box"]/li')
    # print(list)
    itemList = []


    second_sum = 0


    # 2.循环遍历出每一条搜索结果的标题
    for t in list:
        # print("t text:",t.text)
        element = t.find_element_by_tag_name('a')
        # print("a text:",element.text)
        arr = element.text.split('\n')
        print(" ".join(arr))
        item = Item(arr[0], arr[1], arr[2])
        second_sum += item.get_second()
        itemList.append(item)


    print("总数量:", len(itemList))
    # browser.page_source


    print("总时长/分钟:", round(second_sum / 60, 2))
    print("总时长/小时:", round(second_sum / 3600.0, 2))


    browser.close()


    return itemList




get_bilili_page_items("https://www.bilibili.com/video/BV1Eb411u7Fw")

这里用到的选择器是xpath,利用视频示例是B站的《高等数学》同济版 全程教学视频(宋浩老师)视频选集,大家如果想抓取其他视频选集的话,只需要更改上述代码的最后一行的URL链接即可。


三、常见问题

在运行过程中小伙伴们应该会经常遇到这个问题,如下图所示。

这个是因为谷歌驱动版本问题导致的,只需要根据提示,去下载对应的驱动版本即可,驱动下载链接:

https://chromedriver.storage.googleapis.com/index.html


四、总结

我是Python进阶者。这篇文章主要给大家介绍了B站视频选集内容的获取方法,基于网络爬虫,通过selenium库和xpath选择器进行实现,并且给大家例举了常见问题的处理方法。小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。


击上方“头像”关注我们


当我们在找素材的时候,经常会因为,找不到素材,从而必须得从腾讯或者优酷爱奇艺等大平台视频网站,去下载素材。但是这类大平台视频网站基本上都有水印。而且根本去不掉。(不用猜肯定有杠精说我不知道用软件)


那我是怕杠精的人吗?开始正题

那么我们今天就来聊一聊如何去除这些水印吧。


要点:

  1. 进入视频平台,按F12或者右击点查看元素

2.打开网页代码后,ctrl+F,输入logo或者watermark


3.找到关键行直接整行删,看看水印是否去除。没去除接着重复2-3,因为视频水印代码不止一个。

4.删除后就可以录屏或者下载了


所有平台的操作都如出一辙,希望大家见仁见智。不要因为自己没成功就骂我

求粉丝保护。

学会了记得教给你的小伙伴哦。知识在于分享。

览html网页,查看其源代码,可以帮助我们了解该版网页的信息以及架构,每个浏览器都是允许用户查看他们访问的任何网页的HTML源代码的。以下编程狮小师妹就介绍几个常见浏览器的查看网页 HTML 源代码的方法。

谷歌浏览器 Google Chrome

仅查看源代码

方法一

要仅查看源代码,请按计算机键盘上的Ctrl+U

方法二

右键单击网页的空白部分,然后从出现的弹出菜单中选择“查看网页源代码(V)”。

查看包含元素的页面源

  1. 打开 Chrome 浏览器,然后浏览要查看其源代码的网页。
  2. 点击浏览器窗口右上角的“自定义及控制Google Chrome” 图标。
  3. 在出现的下拉菜单中,选择更多工具(L),然后选择开发者工具(D)(快捷键:Ctrl+Shift+I)。
  4. 单击屏幕底部出现的新部分左上角的“元素(Elements)”选项卡。

提示:

在 Chrome 中,按 F12Ctrl+ Shift+I 也会调出交互式开发人员工具。此工具提供了与源代码和 CSS 设置的更多交互,使用户可以查看代码中的更改如何立即影响网页。

火狐浏览器 Mozilla Firefox

仅查看源代码

方法一

要仅查看源代码,请按计算机键盘上的 Ctrl+U

方法二

右键单击网页的空白部分,然后从出现的弹出菜单中选择“查看页面源代码(V)”。

查看包含元素的页面源

  1. 打开 Firefox 并浏览您要查看其源代码的网页。
  2. 单击屏幕右上角的菜单 图标。
  3. 在下拉菜单中选择Web开发者,然后从展开的菜单中选择切换工具箱(快捷键:Ctrl+ Shift+I)。
  4. 单击显示在屏幕底部的部分左上角的“查看器”选项卡。

提示:

在 Firefox 中,按 F12 或 Ctrl+ Shift+I也会调出交互式开发人员工具。该工具提供了与源代码和 CSS 设置的交互,使用户可以实时查看代码中的更改如何影响网页。

查看页面的部分源代码

  1. 突出显示网页中您要查看其源代码的部分。
  2. 右键单击突出显示的部分,然后选择检查元素(Q)

提示:

您可以使用 Firebug 附加组件查看和编辑页面的源代码,并通过浏览器实时查看更改。

微软 Edge

仅查看源代码

方法一

要仅查看源代码,请按计算机键盘上的Ctrl+U

方法二

右键单击网页的空白部分,然后从出现的弹出菜单中选择“查看页面源代码(V)”。

查看包含元素的页面源

  1. 打开 Microsoft Edge 并浏览您要查看其源代码的网页。
  2. 点击屏幕右上角的设置和更多 图标。
  3. 将鼠标移到更多工具(L)在下拉菜单中,在展开的菜单选择开发人员工具(D)
  4. 单击屏幕右侧出现的窗口顶部的“元素(Elements)”选项卡。

提示:

在Microsoft Edge中,按F12或 Ctrl+ Shift+I 也会调出交互式开发人员工具。该工具提供了与源代码和 CSS 设置的交互,使用户可以实时查看代码中的更改如何影响网页。

IE浏览器 Microsoft Internet Explorer

仅查看源代码

方法一

要仅查看源代码,请按计算机键盘上的Ctrl+U

方法二

右键单击网页的空白部分,然后从出现的弹出菜单中选择查看源(V)

查看包含元素的页面源

  1. 打开 Internet Explorer 并浏览您要查看其源代码的网页。
  2. 单击右上角的工具
  3. 从下拉菜单中选择F12开发人员工具
  4. 单击开发人员工具菜单左上角的 DOM 资源管理器 选项卡。

提示:

在 Internet Explorer 中,按 F12 会弹出 DOM 工具。该工具提供了与源代码和 CSS 设置的交互,使用户可以查看代码中的更改如何立即影响网页。

360安全浏览器

仅查看源代码

方法一

要仅查看源代码,请按计算机键盘上的Ctrl+U

方法二

右键单击网页的空白部分,然后从出现的弹出菜单中选择“查看网页源代码(V)”。

查看包含元素的页面源

  1. 打开 360 安全浏览器,然后浏览要查看其源代码的网页。
  2. 点击浏览器窗口右上角的打开菜单图标。
  3. 在出现的下拉菜单中,选择更多工具(L),然后选择开发者工具(D)(快捷键:Ctrl+Shift+I)。
  4. 单击屏幕底部出现的新部分左上角的“元素(Elements)”选项卡。

提示:

在 360 安全浏览器中,按 F12Ctrl+ Shift+I 也会调出交互式开发者工具。此工具提供了与源代码和 CSS 设置的更多交互,使用户可以查看代码中的更改如何立即影响网页。

如何关闭源代码页或工具

查看完网页上的源代码后,您可能想要退出或关闭它。关闭源代码取决于您用来打开源代码的方法。

  • 如果您使用了Ctrl+U 方法(Edge 除外)或右键单击方法,请关闭在浏览器窗口顶部打开的新选项卡
  • 如果您使用过开发人员方法(使用 F12 或Ctrl+ Shift+I),请再次按相同的键,或单击工具窗口右上角的图标。

使用在线工具查看源代码

除了使用浏览器外,还有一些在线工具可让您查看任何网页的源代码。这些工具可能会有所帮助,因为大多数工具都可以格式化,样式化和突出显示代码,以使其易于阅读。

以上就是编程狮W3Cschool为你整理的关于《如何在浏览器账中查看网页的HTML源代码?》的全部内容,希望对你有所帮助~