html+SpringBoot超大视频上传解决方案

tml+SpringBoot超大视频上传解决方案，html+SpringBoot超大视频上传思路，html+SpringBoot超大视频上传源码，html+SpringBoot超大视频上传实例，html+SpringBoot超大视频上传实现方法，html+SpringBoot超大视频分块上传，html+SpringBoot超大视频分片上传，html+SpringBoot超大视频加密上传，html+SpringBoot超大视频切片上传，html+SpringBoot超大视频批量上传，

随着视频网站和大数据应用的普及，特别是高清视频和4K视频应用的到来，超大文件上传已经成为了日常的基础应用需求。

SpringBoot实现HTTP大文件断点续传分片上传，JAVA以HTTP方式实现大文件分片，分段，分块，分割上传。

需要支持断点续传，上传一半关闭电脑后，明天能够继续上传。或者关闭浏览器，或关闭网页，或刷新网页。

速度这块的话，内网是希望跑满的，百兆网络的话12MB/S左右，千兆的话50MB/S左右。

需要支持文件夹上传，断点续传，上传保留层级结构。

网上搜到的SpringBoot的代码不多，完整的不多，能用的也不多，基本上大部分的文章只是提供了少量的代码，讲一下思路，或者实现方案。

之前一般的做法都是使用HTML5来做的，大部都是传文件的，传文件夹的不多。网上能够搜到的能用的不多。下来下的话，基本上都不能满足用户的需求。或者用户在用的时候总是会遇到这样或那样的问题，维护的话也很麻烦，用户满意度比较低。

对于大文件的处理，无论是用户端还是服务端，如果一次性进行读取发送、接收都是不可取，很容易导致内存问题。所以对于大文件上传，采用切块分段上传

从上传的效率来看，利用多线程并发上传能够达到最大效率。

文件上传页面的前端可以选择使用一些比较好用的上传组件，例如百度的开源组件WebUploader，泽优软件的up6，这些组件基本能满足文件上传的一些日常所需功能，如异步上传文件，文件夹，拖拽式上传，黏贴上传，上传进度监控，文件缩略图，甚至是大文件断点续传，大文件秒传。

在web项目中上传文件夹现在已经成为了一个主流的需求。在OA，或者企业ERP系统中都有类似的需求。上传文件夹并且保留层级结构能够对用户行成很好的引导，用户使用起来也更方便。能够提供更高级的应用支撑。

版本：6.5.40
代码：https://gitee.com/xproer/up6-jsp-springboot/tree/6.5.40/

nosql示例

nosql示例不需要进行任何配置，可以直接访问测试。

SQL示例

1.创建数据库

2.配置数据库连接

3.自动下载maven依赖

4.启动项目

启动成功

6.访问及测试

默认页面接口定义：

在浏览器中访问：

数据表中的数据

、HTML简介

1.HTML是什么?

HTML:htper text markup language超文本标记(标签)语言

由各种标签组成，用来制作网页，告诉浏览器如何显示页面

2.作用

制作网页，控制网页和内容的显示
插入图片、音乐、视频、动画等多媒体
通过链接来检索信息
使用表单获取用户的信息，实现交互

3.版本

w3c:world wide web consortium万维网联盟，制定web技术相关标准和规范的组织，HTML技术hi由w3c制定的标准

两个版本:HTML4.0.1、HTML5.0-----通常H5

官网：http://www.W3shcool.com.cn

4.扩展名

HTML文档是以.html或.htm结尾

二、HTML文档结构

1.基本结构

1.1简介

HTML标签是由尖括号括起来的关键词，如,通常是成对出现的,如<html></html>
以 <html>为根标签，包含： <head>头部和<body>主体部分
头部提供关于网页的相关信息，如标题、文档类型、字符编码、关键字等摘要信息
主体部分提供网页的显示内容，真正显示在页面中的内容
合理地进行缩进
标签名不区分大小写，但是一般要用小写

1.2.开发工具

记事本notepad、sublime、Notepad++、Dreamweaver、VScode、Webstorm等

使用步骤：

新建文件(cltr+N)，然后保存（ctrl+s）,指定扩展名为.html
编写HTML代码
在浏览器中打开文件

使用技巧：

先保存再写代码，否则代码无颜色提示
创建一个文件夹，用于保存所有的网页内容，将文件夹拖拽到sublime中，便于管理
显示/隐藏侧边栏方式1:查看–>侧边栏–>显示/隐藏侧边栏方式2:ctrl+K紧接着按B
显示多栏方式1：查看–>布局–>列数：2列方式2：Alt+shift+2

1.3浏览器

常见的浏览器：IE浏览器微软、chrome谷歌浏览器、fifirefox火狐、safari苹果

浏览器的作用是读取html文件，并以网页的形式来显示

浏览器不会直接显示html标签，而是使用标签来解释网页的内容

2.标签

2.1标签的组成

一个完整的html标签的组成：

<标签名属性名="属性值">内容</标签名>

<!DOCTYPE html>
<html lang="en">
	<head>
		<meta charset="UTF-8">
		<title>标签</title>
	</head>
	<body  bgcolor="red" text="blue">
		html从入门到精通!
    </body>
</html>
12345678910

属性值要用双撇号括起来，一般用双引号

2.2标签的分类

根据标签是否关闭，分为，关闭型和非关闭型

关闭型：有结束标签，即标签成对出现

<html></html>
<head></head>
<title></title>

非关闭型：没有结束标签

<meta>
<br>
<h1>....<h6>

根据标签是否独占一行，分为块级标签和行级标签

块级标签：显示为块状，独占一行

<h1>大家好</h1>
<hr>

行级标签：在行内显示，可与其他内容在同一行显示

2.3注释

注释在浏览器中不会显示,是用来标注解释html语句,但通过查看源代码的方式可以看到

语法:

<--注释内容-->

2.4实体字符

也称为特殊字符,用于显示一些特殊符号,如<>&空格等

语法:

<&实体字符的名称>

2.5文档类型

在html文档的第一行,使用<!DOCTYPE html>

声明HTML文档的类型用来告诉浏览器页面的文档嘞型,用来制定html版本的规范

目前基本上最常用的html5

<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<title>Document</title>
</head>
<body>
	
</body>
</html>
12345678910

三\常用标签

3.1基本标签

块级标签\亲啊后有明显的间隔 |
| h1…h5 | 标题标签 | 按照h1到h6逐渐变小.块级标签 |
| | | |
| | | |

三、常用标签

1.基本标签

1.1 有序列表
ol:ordered listli:list item默认使用阿拉伯数字、从1开始标记，可以通过属性进行修改
· type属性：设置列表的符号标记、取值；数字1（默认）、字母（a或A）、罗马数字(i或I) · start属性：设置起始值，值必须是数字
1.2 无序列表
ul:unodered list
li:list item
默认情况下使用实心圆表作为符号标记，可以通过属性进行修改
· type属性：设置列表的符号标记、取值：disc实心圆（默认）、circle空心圆、square正方形、none不显示项目符号
1.3 定义列表
dl:definition list
dt:definition title
dd:definition description
1.4 水平线标签
hr:horizontal
常用属性：
· color:颜色

两种方式：

颜色名称：如red、green、blue、white、black、pink、orange等

16进制的RGB表示法：Red、Green、Blue用法：#RRGGBB 每种颜色的取值范值0-255，转换为16 进制00-FF

如: #FF0000 红色 #00FF00绿色 #0000FF蓝色 #FFFFFF白色、#CCCCCC #FF7300桔色

· size:粗细，数值

· width宽度

两种写法：

像素：绝对值（固定值）

百分比：相对值，相对于水平线标签所在父容器宽度的百分比

· align对齐

取值：center居中 left right
1.5图像标签
img:image
常见的图片格式：.jpg .png .gif .bmp
常见的属性：
· src:source指定图片的路径（来源），必选叁数

如果图片与html源代码在同一个文件夹中，可以直接在src中写图片名称即可

习惯上，我们会将多个图片与html代码文档分别放在同一个文件夹project中的不同目录下，此时需要在src中指定图片的路径为相对路径

路径的分类：

· 相对路径

表示： ./当前路径
…/当前位置的上一级文件夹

提示：…/image

· alt:当图片无法显示时显示的提示信息

· title:当鼠标放到图片上时显示的提示信息

· width和 height:设置图片的宽度和高度
默认图片以原始尺寸显示

如果只设置其中一个，则另一个会按比例缩放

如果同时设置宽和高，可能导致图片变形

两种写法：

像素：绝对值（固定值）

百分比：相对值，相对于父容器的尺寸的百分比
2.其他标签

为了更好语义化
3.头部标签
· meta定义网页的摘要信息，如字符编码，关键词，描述，作者等
· title定义网页的标题
· style定义内容css样式
· link引用外部css样式
· script定义或引用脚本
· base定义基础路径
默认以当前页面文件所在的位置为相对路径参照
4.标签嵌套
一个标签中嵌套另外一个标签
标签不能乱嵌套
浏览器渲染后显示的页面代码与编码时有所不同
chrome浏览器提供的开发工具：帮助开发人员查看和调试页面的
如何打开：
· Elements:从浏览器的角度来看页面，浏览器渲染页面时内部的结构
· console:控制台，显示各种警告和错误信息
· network:查看网络请求信息，浏览器向服务器请求了哪些资源，资源大小，
加载资源所消耗的时间

四、超链接
1.简介
使用超链接可以从一个页面跳转到另外一个页面，实现页面之间导航
当鼠标移动到超链接文本或图片时，鼠标箭头会变成一只小手
超链接有三种类型:
普通链接/页面间的链接，跳转到另一个页面锚链接：链接到锚点（链接到同一个页面的指定位置）功能链接：实现特殊功能(发邮件，下载)
2.基本用法
使用标签来创建超链接
语法格式：

常用属性：
href:链接地址或路径,链接地址

world

链接文本或图片

1 2 3 4 5 1 target:链接打开的位置,取值

路径分类：
绝对路径以根开始的路径
file:///D:/software/b.html https://www.baidu.com/img/bd_logo1.png
相对路径相对于当前页面文件所在的路径,不是以根开始的路径 ./ 当前路径 …/ 当前位置上一级目录

3.锚链接
3.1简介
点击链接后跳转到某一个页面的指定位置（锚点anchor）
锚链接的分类：
页面内的锚链接页面间的锚链接
3.2 页面内的锚链接
步骤：

定义锚点（标记）
链接锚点
_self 自身，当前，默认值 _blank新的，空白的 _parent父层框架 _top顶层框架
目标位置
1 2 3 4
1

3.3 页面间的锚链接

4.功能链接
5.URL
5.1 简介
URL:Uniform Resource Locator 统一资源定位器,用来定位资源所在的位置，最常见的就是网址

5.2 组成
一个完整的URL由8个部分组成：
协议：prococol 如 http:超文本传输协议，用来访问WEB网站Hyper text Transfer protocal https:更加安全的协议 SSL安全套接子层 ftp文件传输协议，用来访问服务器上的文件，实现文件的上传和下载File Transfer protocol file:文件协议，用来访问本地文件主机名hostname服务器地址或服务器Netbios名称,如www.baidu.com ftp://10.255.254.254 端口：port位于主机名的后面，使用冒号进行分隔不同的协议使用不同的端口，如http使用80端口,https使用的443端口,ftp使用20和21 如果使用的是默认端口，则端口可以省略如果使用的不是默认端口，则必须指定端口http://59.49.32.213:7070/ 路径：path目标文件所在的路径结构，如:www.baidu.com/img/ 资源resource要访问的目标文件，如bd_logo1.png 查询字符串：query string 也称为参数在资源后面使用?开头的一组名称/值
链接文本
链接文本
https://www.baidu.com/img/bd_logo1.png?name=tom&age=2&sex=male https://www.w3school.com.cn/html/html_quotation_elements.asp file:///C:/Users/Administrator/Desktop/project/code/09.%E5%B8%B8%E7%94%A8%E6%A0%87%E7%A D%BE3.html http://www.sxgjpx.net/ ftp://10.255.254.253/
1
1
1 2 3
4 5
名称和值之间以=分隔，多个之间用&分隔，如:name=tom&age=2&sex=male 锚点anchor，在资源后面使用#开头的文本，如#6 身份认证authentication,指定身份信息，如：ftp://账户:密码@ftp.bbshh010.com
五、表格
1.简介
表格是一个规则的行列结构，每个表格是由若干行组成，每行由若干个单元格组成
table row column
2.基本结构
2.1 table标签
用来定义表格
常用属性：
border:表格边框默认为0 width/height：宽度/高度 bordercolor:边框的颜色 align:对齐方式，取值：left(默认) center居中 right居右 bgcolor:背景颜色 background:背景图片 cellspacing间距：单元格与单元格之间的距离 cellpadding边距：单元格中的内容到边界之间的距离
2.2 tr标签
用来定义行：table row
常用属性：
align:水平对齐取值：left(默认) center right valign垂直对齐取值：top center bottom bgcolor:背景颜色 background:背景图片
2.3 td标签
用来定义单元格，table data
常用属性：align、valign、bgcolor、background
注意：表格必须是由行组成，行必须由单元格来组成，数据必须放到单元格中
3.合并单元格
合并单元格也称为单元格的跨行跨列
两个属性：
rowspan 设置单元格所跨的行数 colspan 设置单元格所跨的列数
步骤：

在跨越的单元格中设置rowspan/colspan属性 2. 将被跨越的单元格删除
必须要保证每行的实际列数是相同的，否则表格可能会出错乱
4.高级标签
4.1caption标签
表格的标题标签
4.2thead标签
表格的头部table head
4.3th标签
表格的头部标题table head title
一般用在thead中，设置头部的标题，替代td标签，与td的区别，th中的文本会加粗且居中显示
4.4tbody标签
表格的主体table body
4.5tfoot标签
表格的底部table foot

六、表单
1.简介
表单是一个包含若干个表单元素的区域，用于获取琐类型的用户数据

表单元素是允许用户在表单输入信息的元素，如文本框、密码框、单选按钮、复选框、下拉列表、按钮等
2.表单结构
2.1表单语法

2.2form标签
用来定义表单，可以包含多个表单元素
常用属性：
action:提交数据给谁处理，即处理数据的程序，默认为当前页面 method:提交数据的方式或方法，取值：get(默认)，post get和post的区别： get:以查询字符串的形式提交，在地址栏中能看到，长度有限制，不安全 post以表单数据组的形式进行提交，在地址栏中看不到，长度无限制，安全 enctype(encode type)编码类型：提交数据的编码，取值：application/X-www-form-urlencoded(默认)、multipart/form-data(文件上传)
3.表单元素
大多数的表单元素都是使用标签来定义的，通过设置属性type来定义不同的表单元素

3.1单行文本框
常用属性：
·name名称，很重要，如果没有定义name属性，则该表单元素的数据是无法提交的

·value初始值

·size显示宽度

·maxlength:大字符数，默认是没有限制

·readonly只读：readonly=“readonly”,可简写readonly,即只写属性名

·disabled禁用：disabled=“disabled”, 可简写disabled完全禁用

表单元素被提交的两个条件，1.有name属性2.非disabled

3.2 单选按钮
常用属性：

·name名称：多个radio的name属性必须相同，才能实现互斥（单选）

·value值

·checked:是否被选中，两种状态，选中，未选中 checked=“checked” 简写 checked

3.3 复选框
常用属性与单选按钮radio类似

3.4 文件选择器
常用属性：

·name:名称

·accept设置可选择的文件类型，用来限制上传的文件类型

使用MIME格式字符串对资源类型进行限制

常见的MIME类型：

·纯文本：text/plain text/xml text/html

· 图像：image/png image/jpeg image/gif

4.特殊表单元素

4.1下拉列表

select常用属性：

·name名称

·size行数，同时显示多个选项

·multiple允许同时选择多个

option常用属性：

·value选项值

·selected设置默认选中项

optgroup常用属性：

·label分组的标签

4.2文本域

·name名称

·rows行数

·cols列数

5、其他标签

5.1 label标签

为表单元素提供标签，当选中label标签中的文本内容时会自动将光标切换到与之相关联的表单元素。

常用属性：

·for必须将该属性值设置为与相关联的表单元素的Id属性值相同。

注：几乎所有HTML标签都具有id属性，且id值必须唯一。

5.2 button标签

也表示按钮，与input按钮类似

语法：

1按钮文字或图像

常用属性：

·type按钮的类型，取值: submit（默认）、reset、button

5.3 fieldset和legend标签

fieldset标签，对表单元素进行分组

legend标签，对分组添加标题

七、内嵌框架
1、简介

使用iframe可以在一个页面中引用另一个页面，实现复用、灵活

2、基本用法

语法：

常用属性：

· src:引用的页面

· width/height宽度/高度，像素或百分比

· frameborder是否显示边框，取值：1(yes) 0(no)—默认

· scrolling是否显示滚动条，取值：yes no auto

· name属性为框架定义名称

3、在框架中打开链接

3链接的文本或图像

八、HTML5简介

1、发展

W3C于1992年12月发布了HTML4.0.1标准
W3C于2014年10月发布了HTML5标准

2、特点

· 取消了过时的标签，如font、center等，它们仅具有展示外观的功能

· 增加了一些更具有语义化的标签，如header、footer、aside等

· 增加了一些新功能标签，如canvas、audio、video

· 增加了一些表单控件，如email、date、time、url、search等

· 可以直接在浏览器中绘画（canvas），无需flash

· 增加了本地存储的支持

3、兼容性

http://caniuse.com

提供了各种浏览器版本对HTML5和CSS规范的支持度

九、HTML5新增内容
1、结构相关的标签

用来进行页面结构布局，本身无任何特殊样式，需要使用CSS进行样式设置

· article定义一个独立的内容，完整的文章

· section定义文档的章节、段落

· header文章的头部、页眉、标题

· footer文章的底部、页脚、标注

· aside定义侧边栏

· figure图片区域

· figcaption为图片区域定义标题

· nav定义导航菜单

结构标签只是表明各部分的角色，并无实际的外观样式，与普通div相同

2、语义相关的标签
2.1 mark标签
标注，用来突出显示文本，默认添加黄色背景
2.2 time标签
定义日期和时间，便于搜索引擎智能查找
2.3 details和 summary标签
默认显示summary中的内容，点击后显示details中的内容
注：并不是所有的浏览器都兼容，chrome、opera支持、Firefox、IE浏览器不支持
2.4 meter标签
计数仪，表示度量
常用属性：

· max定义大值，默认为1

· min定义小值，默认为0

· value定义当前值

· high定义限定为高的值

· low定义限定为低的值

· optimum定义佳值

规则：

如果optimum大于high，则表示值越大越好

当value大于high时为绿色

当value在low与high之间时为黄色

当value小于low时为红色

如果optimum小于low，则表示值越小越好

当value小于low时为绿色

当value在low与high之间时为黄色

当value大于high时为红色

当optimum介于low和high之间，则表示值在low和high之间好当value在low与high之间时显示绿色，否则显示黄色

2.5 progress标签
进度条，表示运行中的进度
常用属性：

· value定义当前值

· max定义完成的值

3.表单相关
3.1 新增表单元素
新增以下type类型：

· email接收邮箱

· url接收URL

· tel接收电话号码，目前仅在移动设备上有效

· search搜索文框

· number/range接收数字/数字滑块,包含min,max,step属性

· date/month/week/time/datetime日期时间选择器，兼容性不好

· color颜色拾取

作用：

· 具有格式校验的功能

· 可以与移动设备的键盘相关联

3.2新增表单属性
form标签的属性：

· autocomplete是否启动表单的自动完成功能，取值:on(默认)、oﬀ

· novalidate提交表单时不进行校验，默认会进行表单校验

3.3 新增表单元素的属性
新增表单元素属性：input/select/textarea等

· placeholder提示文字

· required是否必填

· autocomplete是否启用该表单元素的自动完成功能

· autofocus设置初始焦点元素

· pattern使用正则表达式（RegExp后面会讲解），进行数据校验

· list使文本元素具有下拉列表的功能，需要配合datalist和option标签一起使用

· form可以将表单元素写在form标签外面，然后通过该属性关联指定的表单

4、多媒体标签
4.1audio标签
在页面中插入音频，不同的浏览器对音频格式的支持不一样
audio常用属性：

· src音频文件的来源

· controls是否显示控制面板，默认不显示

· autoplay是否自动播放，默认不自动播放

· loop是否循环播放

· muted是否静音

· preload是否预加载，取值：none不预加载、auto预加载（默认）、metadata只加载元数据

如果设置了autoplay属性，则该属性无效

可以结合source标签使用，指定多个音频文，浏览器会检测并使用第一个可用的音频文件

4.2 video标签
在页面中插入视频，不同的浏览器对视频格式的支持不一样
用法与audio标签基本相同，增加属性：

· widht/height视频播放器的宽度/高度

· poster在视频加载前显示的图片

案例1hello.html

<html>
	<body>
		<tiele>HTML技术</tiele>
	</body>
	<body>
		大家好，欢迎学习html技术!
	</body>
</html>1234567

效果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-h271e4v6-1593240920352)(C:\Users\lenovo\Desktop\新建文件夹\静态网页2\案例\result\案例1.png)]

案例2标签的组成.html

<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<title>标签</title>
</head>
<body text="blue">
	标签的组成
	<br>
	html从入门到精通！
	<hr>
	<h1>标签的分类</h1>
	<hr>

	<h2>标签的分类</h2>
	<hr>

	<h6>标签的分类</h6>
	<hr>

	<span>哈哈</span>嘿嘿
	
</body>
</html>1234567891011121314151617181920212223

效果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jx6zJE1P-1593240920354)(C:\Users\lenovo\Desktop\新建文件夹\静态网页2\案例\result\案例2.png)]

案例3实体字符.html

<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<title>Document</title>
</head>
<body>
	图书:<<HTML从入门到精通<<
	<hr>

	北京      上海      广州
	<hr>

	在HTML中用<表示<小于号
	<hr>

	“HTML语言” 或 &qout;HTML语言&qout;
	<hr>

	版权所有© 2000-2020 高教培训
	<hr>

	×关闭符号
</body>
</html>123456789101112131415161718192021222324

效果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nuFLl3hm-1593240920355)(C:\Users\lenovo\Desktop\新建文件夹\静态网页2\案例\result\案例3.png)]

（剩下的下期出）

原文链接：https://blog.csdn.net/WanXuang/article/details/106982782?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160513384519724835852804%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=160513384519724835852804&biz_id=&utm_medium=distribute.pc_search_top_result.none-task-code-2~all~top_position~default-1-106982782-12.nonecase&utm_term=html

作者：WanXuang

出处：从CSDN

不缺好看的桌面呢？这边来爬取网站超清图片吧

本次爬虫用到的网址是：

http://www.netbian.com/index.htm: 彼岸桌面.里面有很多的好看壁纸，而且都是可以下载高清无损的，还比较不错，所以我就拿这个网站练练手。

作为一个初学者，刚开始的时候，无论的代码的质量如何，总之代码只要能够被正确完整的运行那就很能够让自己开心的，如同我们的游戏一样，能在短时间内得到正向的反馈，我们就会更有兴趣去玩。

学习也是如此，只要我们能够在短期内得到学习带来的反馈，那么我们的对于学习的欲望也是强烈的。能够完整的完整此次爬虫程序的编写，那便是一个最大的收货，但其实我在此次过程中的收获远不止此。

好的代码其实应该具有以下特性

能够满足最关键的需求
容易理解
有充分的注释
使用规范的命名
没有明显的安全问题
经过充分的测试

就以充分的测试为例，经常写代码的就应该知道，尽管多数时候你的代码没有BUG,但那仅仅说明只是大多数情况下是稳定的，但是在某些条件下就会出错（达到出错条件，存在逻辑问题的时候等）。这是肯定的。至于什么原因，不同的代码有不同的原因。如果代码程序都是一次就能完善的，那么我们使用的软件的软件就不会经常更新了。其他其中的道理就不一一道说了，久而自知。

好的代码一般具有的5大特性

1.便于维护
2.可复用
3.可扩展
4.强灵活性
5.健壮性

经过我的代码运行我发现时间复杂度比较大，因此这是我将要改进的地方，但也不止于此。也有很多利用得不合理的地方，至于存在的不足的地方就待我慢慢提升改进吧！

路过的大佬欢迎留下您宝贵的代码修改意见，

完整代码如下

import os
import bs4
import re
import time
import requests
from bs4 import BeautifulSoup

def getHTMLText(url, headers):
    """向目标服务器发起请求并返回响应"""
    try:
        r = requests.get(url=url, headers=headers)
        r.encoding = r.apparent_encoding
        soup = BeautifulSoup(r.text, "html.parser")
        return soup
    except:
        return ""

def CreateFolder():
    """创建存储数据文件夹"""
    flag = True
    while flag == 1:
        file = input("请输入保存数据文件夹的名称：")
        if not os.path.exists(file):
            os.mkdir(file)
            flag = False
        else:
            print('该文件已存在，请重新输入')
            flag = True

    # os.path.abspath(file)  获取文件夹的绝对路径
    path = os.path.abspath(file) + "\\"
    return path

def fillUnivList(ulist, soup):
    """获取每一张图片的原图页面"""
    # [0]使得获得的ul是 <class 'bs4.BeautifulSoup'> 类型
    div = soup.find_all('div', 'list')[0]
    for a in div('a'):
        if isinstance(a, bs4.element.Tag):
            hr = a.attrs['href']
            href = re.findall(r'/desk/[1-9]\d{4}.htm', hr)
            if bool(href) == True:
                ulist.append(href[0])

    return ulist

def DownloadPicture(left_url,list,path):
    for right in list:
        url = left_url + right
        r = requests.get(url=url, timeout=10)
        r.encoding = r.apparent_encoding
        soup = BeautifulSoup(r.text,"html.parser")
        tag = soup.find_all("p")
        # 获取img标签的alt属性，给保存图片命名
        name = tag[0].a.img.attrs['alt']
        img_name = name + ".jpg"
        # 获取图片的信息
        img_src = tag[0].a.img.attrs['src']
        try:
            img_data = requests.get(url=img_src)
        except:
            continue

        img_path = path + img_name
        with open(img_path,'wb') as fp:
            fp.write(img_data.content)
        print(img_name, "   ******下载完成！")

def PageNumurl(urls):
    num = int(input("请输入爬取所到的页码数："))
    for i in range(2,num+1):
        u = "http://www.netbian.com/index_" + str(i) + ".htm"
        urls.append(u)

    return urls


if __name__ == "__main__":
    uinfo = []
    left_url = "http://www.netbian.com"
    urls = ["http://www.netbian.com/index.htm"]
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"
    }
    start = time.time()
    # 1.创建保存数据的文件夹
    path = CreateFolder()
    # 2. 确定要爬取的页面数并返回每一页的链接
    PageNumurl(urls)
    n = int(input("访问的起始页面："))
    for i in urls[n-1:]:
        # 3.获取每一个页面的首页数据文本
        soup = getHTMLText(i, headers)
        # 4.访问原图所在页链接并返回图片的链接
        page_list = fillUnivList(uinfo, soup)
        # 5.下载原图
        DownloadPicture(left_url, page_list, path)

    print("全部下载完成！", "共" + str(len(os.listdir(path))) + "张图片")
    end = time.time()
    print("共耗时" + str(end-start) + "秒")

运行

部分展示结果如下：

起学Python，一起写代码，加油！奥利给！！！

在线咨询

上一篇：HTML的两种渲染方法
下一篇：16个超牛逼的HTML5和JavaScript特效

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商

html+SpringBoot超大视频上传解决方案

、HTML简介

1.HTML是什么?

2.作用

3.版本

4.扩展名

二、HTML文档结构

1.基本结构

1.1简介

1.2.开发工具

1.3浏览器

2.标签

2.1标签的组成

2.2标签的分类

2.3注释

2.4实体字符

2.5文档类型

三\常用标签

3.1基本标签

案例1hello.html

案例2标签的组成.html

案例3实体字符.html

您的项目需求