手把手教你使用Python网络爬虫获取B站视频选集内容（附源码）

家好，我是Python进阶者。

前言

前几天雪球兄在Python交流群里分享了一个获取B站视频选集的Python代码，小编觉得非常奈斯，这里整理成一篇小文章，分享给大家学习。

关于雪球兄，大家应该都熟悉了，之前他写过Python实战文章，好评如潮，没来得及看的小伙伴，可以戳这里了：

盘点常用验证码标注和识别项目线上部署三种方式——VUE前端、Java后端和Python后端部署

Python项目实战篇——常用验证码标注&识别(CNN神经网络模型训练/测试/部署)

Python项目实战篇——常用验证码标注&识别(前端+后端实现高效率数据标注)

Python项目实战篇——常用验证码标注&识别(数据采集/预处理/字符图切割）

Python项目实战篇——常用验证码标注和识别(需求分析和实现思路)

之前也有给大家分享B站的一些文章，感兴趣的话可以看看这个文章，Python网络爬虫+数据分析：手把手教你用Python网络爬虫获取B站UP主10万条数据并用Pandas库进行趣味数据分析。

一、背景引入

一提到B站，第一印象就是视频，相信很多小伙伴和我一样，都想着去利用网络爬虫技术获取B站的视频吧，但是B站视频其实没有那么好拿到的，关于B站的视频获取，之前有介绍通过you-get库进行实现，感兴趣的小伙伴可以看这篇文章：You-Get 就是这么强势！。

言归正传，经常在B站上学习的小伙伴们可能经常会遇到有的博主连载几十个，甚至几百个视频，尤其像这种编程语言、课程、工具使用等连续的教程，就会出现选集系列，如下图所示。

当然这些选集的字段我们肉眼也是可以看得到的。只是通过程序来实现的话，可能真没有想象的那么简单。那么这篇文章的目标呢，就是通过Python网络爬虫技术，基于selenium库，实现视频选集的获取。

二、具体实现

这篇文章我们用的库是selenium，这个是一个用于模拟用户登录的库，虽然给人的感觉是慢，但是在网络爬虫领域，这个库还是用的蛮多的，用它来模拟登录、获取数据屡试不爽。下面是实现视频选集采集的所有代码，欢迎大家亲自动手实践。

# coding: utf-8
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait


class Item:
    page_num = ""
    part = ""
    duration = ""


    def __init__(self, page_num, part, duration):
        self.page_num = page_num
        self.part = part
        self.duration = duration


    def get_second(self):
        str_list = self.duration.split(":")
        sum = 0
        for i, item in enumerate(str_list):
            sum += pow(60, len(str_list) - i - 1) * int(item)


        return sum


def get_bilili_page_items(url):
    options = webdriver.ChromeOptions()
    options.add_argument('--headless')  # 设置无界面
    options.add_experimental_option('excludeSwitches', ['enable-automation'])
    # options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2,
    #                                           "profile.managed_default_content_settings.flash": 0})


    browser = webdriver.Chrome(options=options)
    # browser = webdriver.PhantomJS()
    print("正在打开网页...")
    browser.get(url)


    print("等待网页响应...")
    # 需要等一下，直到页面加载完成
    wait = WebDriverWait(browser, 10)
    wait.until(EC.visibility_of_element_located((By.XPATH, '//*[@class="list-box"]/li/a')))


    print("正在获取网页数据...")
    list = browser.find_elements_by_xpath('//*[@class="list-box"]/li')
    # print(list)
    itemList = []


    second_sum = 0


    # 2.循环遍历出每一条搜索结果的标题
    for t in list:
        # print("t text:",t.text)
        element = t.find_element_by_tag_name('a')
        # print("a text:",element.text)
        arr = element.text.split('\n')
        print(" ".join(arr))
        item = Item(arr[0], arr[1], arr[2])
        second_sum += item.get_second()
        itemList.append(item)


    print("总数量:", len(itemList))
    # browser.page_source


    print("总时长/分钟:", round(second_sum / 60, 2))
    print("总时长/小时:", round(second_sum / 3600.0, 2))


    browser.close()


    return itemList




get_bilili_page_items("https://www.bilibili.com/video/BV1Eb411u7Fw")

这里用到的选择器是xpath，利用视频示例是B站的《高等数学》同济版全程教学视频（宋浩老师）视频选集，大家如果想抓取其他视频选集的话，只需要更改上述代码的最后一行的URL链接即可。

三、常见问题

在运行过程中小伙伴们应该会经常遇到这个问题，如下图所示。

这个是因为谷歌驱动版本问题导致的，只需要根据提示，去下载对应的驱动版本即可，驱动下载链接：

https://chromedriver.storage.googleapis.com/index.html

四、总结

我是Python进阶者。这篇文章主要给大家介绍了B站视频选集内容的获取方法，基于网络爬虫，通过selenium库和xpath选择器进行实现，并且给大家例举了常见问题的处理方法。小伙伴们，快快用实践一下吧！如果在学习过程中，有遇到任何问题，欢迎加我好友，我拉你进Python学习交流群共同探讨学习。

击上方“头像”关注我们

当我们在找素材的时候，经常会因为，找不到素材，从而必须得从腾讯或者优酷爱奇艺等大平台视频网站，去下载素材。但是这类大平台视频网站基本上都有水印。而且根本去不掉。（不用猜肯定有杠精说我不知道用软件）

那我是怕杠精的人吗？开始正题

那么我们今天就来聊一聊如何去除这些水印吧。

要点：

进入视频平台，按F12或者右击点查看元素

2.打开网页代码后，ctrl+F，输入logo或者watermark

3.找到关键行直接整行删，看看水印是否去除。没去除接着重复2-3，因为视频水印代码不止一个。

4.删除后就可以录屏或者下载了

所有平台的操作都如出一辙，希望大家见仁见智。不要因为自己没成功就骂我

求粉丝保护。

学会了记得教给你的小伙伴哦。知识在于分享。

览html网页，查看其源代码，可以帮助我们了解该版网页的信息以及架构，每个浏览器都是允许用户查看他们访问的任何网页的HTML源代码的。以下编程狮小师妹就介绍几个常见浏览器的查看网页 HTML 源代码的方法。

谷歌浏览器 Google Chrome

仅查看源代码

方法一

要仅查看源代码，请按计算机键盘上的Ctrl+U。

方法二

右键单击网页的空白部分，然后从出现的弹出菜单中选择“查看网页源代码(V)”。

查看包含元素的页面源

打开 Chrome 浏览器，然后浏览要查看其源代码的网页。
点击浏览器窗口右上角的“自定义及控制Google Chrome” 图标。
在出现的下拉菜单中，选择更多工具(L)，然后选择开发者工具(D)（快捷键：Ctrl+Shift+I）。
单击屏幕底部出现的新部分左上角的“元素(Elements)”选项卡。

提示：
在 Chrome 中，按 F12 或 Ctrl+ Shift+I 也会调出交互式开发人员工具。此工具提供了与源代码和 CSS 设置的更多交互，使用户可以查看代码中的更改如何立即影响网页。

火狐浏览器 Mozilla Firefox

仅查看源代码

方法一

要仅查看源代码，请按计算机键盘上的 Ctrl+U。

方法二

右键单击网页的空白部分，然后从出现的弹出菜单中选择“查看页面源代码(V)”。

查看包含元素的页面源

打开 Firefox 并浏览您要查看其源代码的网页。
单击屏幕右上角的菜单图标。
在下拉菜单中选择Web开发者，然后从展开的菜单中选择切换工具箱（快捷键：Ctrl+ Shift+I）。
单击显示在屏幕底部的部分左上角的“查看器”选项卡。

提示：
在 Firefox 中，按 F12 或 Ctrl+ Shift+I也会调出交互式开发人员工具。该工具提供了与源代码和 CSS 设置的交互，使用户可以实时查看代码中的更改如何影响网页。

查看页面的部分源代码

突出显示网页中您要查看其源代码的部分。
右键单击突出显示的部分，然后选择检查元素(Q)。

提示：
您可以使用 Firebug 附加组件查看和编辑页面的源代码，并通过浏览器实时查看更改。

微软 Edge

仅查看源代码

方法一

要仅查看源代码，请按计算机键盘上的Ctrl+U。

方法二

右键单击网页的空白部分，然后从出现的弹出菜单中选择“查看页面源代码(V)”。

查看包含元素的页面源

打开 Microsoft Edge 并浏览您要查看其源代码的网页。
点击屏幕右上角的设置和更多 图标。
将鼠标移到更多工具(L)在下拉菜单中，在展开的菜单选择开发人员工具(D)。
单击屏幕右侧出现的窗口顶部的“元素(Elements)”选项卡。

提示：
在Microsoft Edge中，按F12或 Ctrl+ Shift+I 也会调出交互式开发人员工具。该工具提供了与源代码和 CSS 设置的交互，使用户可以实时查看代码中的更改如何影响网页。

IE浏览器 Microsoft Internet Explorer

仅查看源代码

方法一

要仅查看源代码，请按计算机键盘上的Ctrl+U。

方法二

右键单击网页的空白部分，然后从出现的弹出菜单中选择查看源(V)。

查看包含元素的页面源

打开 Internet Explorer 并浏览您要查看其源代码的网页。
单击右上角的工具。
从下拉菜单中选择F12开发人员工具。
单击开发人员工具菜单左上角的 DOM 资源管理器 选项卡。

提示：
在 Internet Explorer 中，按 F12 会弹出 DOM 工具。该工具提供了与源代码和 CSS 设置的交互，使用户可以查看代码中的更改如何立即影响网页。

360安全浏览器

仅查看源代码

方法一

要仅查看源代码，请按计算机键盘上的Ctrl+U。

方法二

右键单击网页的空白部分，然后从出现的弹出菜单中选择“查看网页源代码(V)”。

查看包含元素的页面源

打开 360 安全浏览器，然后浏览要查看其源代码的网页。
点击浏览器窗口右上角的打开菜单图标。
在出现的下拉菜单中，选择更多工具(L)，然后选择开发者工具(D)（快捷键：Ctrl+Shift+I）。
单击屏幕底部出现的新部分左上角的“元素(Elements)”选项卡。

提示：
在 360 安全浏览器中，按 F12 或 Ctrl+ Shift+I 也会调出交互式开发者工具。此工具提供了与源代码和 CSS 设置的更多交互，使用户可以查看代码中的更改如何立即影响网页。

如何关闭源代码页或工具

查看完网页上的源代码后，您可能想要退出或关闭它。关闭源代码取决于您用来打开源代码的方法。

如果您使用了Ctrl+U 方法（Edge 除外）或右键单击方法，请关闭在浏览器窗口顶部打开的新选项卡。
如果您使用过开发人员方法（使用 F12 或Ctrl+ Shift+I），请再次按相同的键，或单击工具窗口右上角的图标。

使用在线工具查看源代码

除了使用浏览器外，还有一些在线工具可让您查看任何网页的源代码。这些工具可能会有所帮助，因为大多数工具都可以格式化，样式化和突出显示代码，以使其易于阅读。

以上就是编程狮W3Cschool为你整理的关于《如何在浏览器账中查看网页的HTML源代码？》的全部内容，希望对你有所帮助~

在线咨询

上一篇：卡巴斯基修复四年老漏洞注入HTML源码的唯一标识符会泄露用户隐私
下一篇：手把手的教你用PHP将HTML生成PDF

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商

手把手教你使用Python网络爬虫获取B站视频选集内容（附源码）

家好，我是Python进阶者。

前言

前几天雪球兄在Python交流群里分享了一个获取B站视频选集的Python代码，小编觉得非常奈斯，这里整理成一篇小文章，分享给大家学习。

一、背景引入

二、具体实现

三、常见问题

四、总结

谷歌浏览器 Google Chrome

仅查看源代码

查看包含元素的页面源

火狐浏览器 Mozilla Firefox

仅查看源代码

查看包含元素的页面源

查看页面的部分源代码

微软 Edge

仅查看源代码

查看包含元素的页面源

IE浏览器 Microsoft Internet Explorer

仅查看源代码

查看包含元素的页面源

360安全浏览器

仅查看源代码

查看包含元素的页面源

如何关闭源代码页或工具

使用在线工具查看源代码

您的项目需求