tml+SpringBoot超大视频上传解决方案,html+SpringBoot超大视频上传思路,html+SpringBoot超大视频上传源码,html+SpringBoot超大视频上传实例,html+SpringBoot超大视频上传实现方法,html+SpringBoot超大视频分块上传,html+SpringBoot超大视频分片上传,html+SpringBoot超大视频加密上传,html+SpringBoot超大视频切片上传,html+SpringBoot超大视频批量上传,
随着视频网站和大数据应用的普及,特别是高清视频和4K视频应用的到来,超大文件上传已经成为了日常的基础应用需求。
SpringBoot实现HTTP大文件断点续传分片上传,JAVA以HTTP方式实现大文件分片,分段,分块,分割上传。
需要支持断点续传,上传一半关闭电脑后,明天能够继续上传。或者关闭浏览器,或关闭网页,或刷新网页。
速度这块的话,内网是希望跑满的,百兆网络的话12MB/S左右,千兆的话50MB/S左右。
需要支持文件夹上传,断点续传,上传保留层级结构。
网上搜到的SpringBoot的代码不多,完整的不多,能用的也不多,基本上大部分的文章只是提供了少量的代码,讲一下思路,或者实现方案。
之前一般的做法都是使用HTML5来做的,大部都是传文件的,传文件夹的不多。网上能够搜到的能用的不多。下来下的话,基本上都不能满足用户的 需求。或者用户在用的时候总是会遇到这样或那样的问题,维护的话也很麻烦,用户满意度比较低。
对于大文件的处理,无论是用户端还是服务端,如果一次性进行读取发送、接收都是不可取,很容易导致内存问题。所以对于大文件上传,采用切块分段上传
从上传的效率来看,利用多线程并发上传能够达到最大效率。
文件上传页面的前端可以选择使用一些比较好用的上传组件,例如百度的开源组件WebUploader,泽优软件的up6,这些组件基本能满足文件上传的一些日常所需功能,如异步上传文件,文件夹,拖拽式上传,黏贴上传,上传进度监控,文件缩略图,甚至是大文件断点续传,大文件秒传。
在web项目中上传文件夹现在已经成为了一个主流的需求。在OA,或者企业ERP系统中都有类似的需求。上传文件夹并且保留层级结构能够对用户行成很好的引导,用户使用起来也更方便。能够提供更高级的应用支撑。
版本:6.5.40
代码:https://gitee.com/xproer/up6-jsp-springboot/tree/6.5.40/
nosql示例
nosql示例不需要进行任何配置,可以直接访问测试。
SQL示例
1.创建数据库
2.配置数据库连接
3.自动下载maven依赖
4.启动项目
启动成功
6.访问及测试
默认页面接口定义:
在浏览器中访问:
数据表中的数据
相关问题:
1.javax.servlet.http.HttpServlet错误
2.项目无法发布到tomcat
3.md5计算完毕后卡住
4.服务器找不到config.json文件
5.Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile
相关参考:
文件保存位置
源码工程文档:https://drive.weixin.qq.com/s?k=ACoAYgezAAw1dWofra
源码报价单:https://drive.weixin.qq.com/s?k=ACoAYgezAAwoiul8gl
OEM版报价单:https://drive.weixin.qq.com/s?k=ACoAYgezAAwuzp4W0a
产品源代码:https://drive.weixin.qq.com/s?k=ACoAYgezAAwbdKCskc
授权生成器:https://drive.weixin.qq.com/s?k=ACoAYgezAAwTIcFph1
HTML:htper text markup language超文本标记(标签)语言
由各种标签组成,用来制作网页,告诉浏览器如何显示页面
w3c:world wide web consortium万维网联盟,制定web技术相关标准和规范的组织,HTML技术hi由w3c制定的标准
两个版本:HTML4.0.1、HTML5.0-----通常H5
官网:http://www.W3shcool.com.cn
HTML文档是以.html或.htm结尾
记事本notepad、sublime、Notepad++、Dreamweaver、VScode、Webstorm等
使用步骤:
使用技巧:
常见的浏览器:IE浏览器微软、chrome谷歌浏览器、fifirefox火狐、safari苹果
浏览器的作用是读取html文件,并以网页的形式来显示
浏览器不会直接显示html标签,而是使用标签来解释网页的内容
一个完整的html标签的组成:
<标签名 属性名="属性值">内容</标签名>
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>标签</title>
</head>
<body bgcolor="red" text="blue">
html从入门到精通!
</body>
</html>
12345678910
属性值要用双撇号括起来,一般用双引号
根据标签是否关闭,分为,关闭型和非关闭型
<html></html>
<head></head>
<title></title>
非关闭型:没有结束标签
<meta>
<br>
<h1>....<h6>
根据标签是否独占一行,分为块级标签和行级标签
块级标签:显示为块状,独占一行
<h1>大家好</h1>
<hr>
行级标签:在行内显示,可与其他内容在同一行显示
<span></span>
注释在浏览器中不会显示,是用来标注解释html语句,但通过查看源代码的方式可以看到
语法:
<--注释内容-->
也称为特殊字符,用于显示一些特殊符号,如<>&空格等
语法:
<&实体字符的名称>
在html文档的第一行,使用<!DOCTYPE html>
声明HTML文档的类型用来告诉浏览器页面的文档嘞型,用来制定html版本的规范
目前基本上最常用的html5
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Document</title>
</head>
<body>
</body>
</html>
12345678910
1.基本标签
1.1 有序列表
ol:ordered listli:list item默认使用阿拉伯数字、从1开始标记,可以通过属性进行修改
· type属性:设置列表的符号标记、取值;数字1(默认)、字母(a或A)、罗马数字(i或I) · start属性:设置起始值,值必须是数字
1.2 无序列表
ul:unodered list
li:list item
默认情况下使用实心圆表作为符号标记,可以通过属性进行修改
· type属性:设置列表的符号标记、取值:disc实心圆(默认)、circle空心圆、square正方形、none不 显示项目符号
1.3 定义列表
dl:definition list
dt:definition title
dd:definition description
1.4 水平线标签
hr:horizontal
常用属性:
· color:颜色
两种方式:
颜色名称:如red、green、blue、white、black、pink、orange等
16进制的RGB表示法:Red、Green、Blue用法:#RRGGBB 每种颜色的取值范值0-255,转换为16 进制00-FF
如: #FF0000 红色 #00FF00绿色 #0000FF蓝色 #FFFFFF白色、#CCCCCC #FF7300桔色
· size:粗细,数值
· width宽度
两种写法:
像素:绝对值(固定值)
百分比:相对值,相对于水平线标签所在父容器宽度的百分比
· align对齐
取值:center居中 left right
1.5图像标签
img:image
常见的图片格式:.jpg .png .gif .bmp
常见的属性:
· src:source指定图片的路径(来源),必选叁数
如果图片与html源代码在同一个文件夹中,可以直接在src中写图片名称即可
习惯上,我们会将多个图片与html代码文档分别放在同一个文件夹project中的不同目录下,此时需要 在src中指定图片的路径为相对路径
路径的分类:
· 相对路径
表示: ./当前路径
…/当前位置的上一级文件夹
提示:…/image
· alt:当图片无法显示时显示的提示信息
· title:当鼠标放到图片上时显示的提示信息
· width和 height:设置图片的宽度和高度
默认图片以原始尺寸显示
如果只设置其中一个,则另一个会按比例缩放
如果同时设置宽和高,可能导致图片变形
两种写法:
像素:绝对值(固定值)
百分比:相对值,相对于父容器的尺寸的百分比
2.其他标签
为了更好语义化
3.头部标签
· meta定义网页的摘要信息,如字符编码,关键词,描述,作者等
· title定义网页的标题
· style定义内容css样式
· link引用外部css样式
· script定义或引用脚本
· base定义基础路径
默认以当前页面文件所在的位置为相对路径参照
4.标签嵌套
一个标签中嵌套另外一个标签
标签不能乱嵌套
浏览器渲染后显示的页面代码与编码时有所不同
chrome浏览器提供的开发工具:帮助开发人员查看和调试页面的
如何打开:
· Elements:从浏览器的角度来看页面,浏览器渲染页面时内部的结构
· console:控制台,显示各种警告和错误信息
· network:查看网络请求信息,浏览器向服务器请求了哪些资源,资源大小,
加载资源所消耗的时间
四、超链接
1.简介
使用超链接可以从一个页面跳转到另外一个页面,实现页面之间导航
当鼠标移动到超链接文本或图片时,鼠标箭头会变成一只小手
超链接有三种类型:
普通链接/页面间的链接,跳转到另一个页面 锚链接:链接到锚点(链接到同一个页面的指定位置) 功能链接:实现特殊功能(发邮件,下载)
2.基本用法
使用 标签来创建超链接
语法格式:
常用属性:
href:链接地址或路径,链接地址
world
链接文本或图片
1 2 3 4 5 1 target:链接打开的位置,取值
路径分类:
绝对路径 以根开始的路径
file:///D:/software/b.html https://www.baidu.com/img/bd_logo1.png
相对路径 相对于当前页面文件所在的路径,不是以根开始的路径 ./ 当前路径 …/ 当前位置上一级目录
3.锚链接
3.1简介
点击链接后跳转到某一个页面的指定位置(锚点anchor)
锚链接的分类:
页面内的锚链接 页面间的锚链接
3.2 页面内的锚链接
步骤:
3.3 页面间的锚链接
4.功能链接
5.URL
5.1 简介
URL:Uniform Resource Locator 统一资源定位器,用来定位资源所在的位置,最常见的就是网址
5.2 组成
一个完整的URL由8个部分组成:
协议:prococol 如 http:超文本传输协议,用来访问WEB网站Hyper text Transfer protocal https:更加安全的协议 SSL安全套接子层 ftp文件传输协议,用来访问服务器上的文件,实现文件的上传和下载File Transfer protocol file:文件协议,用来访问本地文件 主机名hostname服务器地址或服务器Netbios名称,如www.baidu.com ftp://10.255.254.254 端口:port位于主机名的后面,使用冒号进行分隔 不同的协议使用不同的端口,如http使用80端口,https使用的443端口,ftp使用20和21 如果使用的是默认端口,则端口可以省略 如果使用的不是默认端口,则必须指定端口http://59.49.32.213:7070/ 路径:path目标文件所在的路径结构,如:www.baidu.com/img/ 资源resource要访问的目标文件,如bd_logo1.png 查询字符串:query string 也称为参数 在资源后面使用?开头的一组名称/值
链接文本
链接文本
https://www.baidu.com/img/bd_logo1.png?name=tom&age=2&sex=male https://www.w3school.com.cn/html/html_quotation_elements.asp file:///C:/Users/Administrator/Desktop/project/code/09.%E5%B8%B8%E7%94%A8%E6%A0%87%E7%A D%BE3.html http://www.sxgjpx.net/ ftp://10.255.254.253/
1
1
1 2 3
4 5
名称和值之间以=分隔,多个之间用&分隔,如:name=tom&age=2&sex=male 锚点anchor,在资源后面使用#开头的文本,如#6 身份认证authentication,指定身份信息,如:ftp://账户:密码@ftp.bbshh010.com
五、表格
1.简介
表格是一个规则的行列结构,每个表格是由若干行组成,每行由若干个单元格组成
table row column
2.基本结构
2.1 table标签
用来定义表格
常用属性:
border:表格边框 默认为0 width/height:宽度/高度 bordercolor:边框的颜色 align:对齐方式,取值:left(默认) center居中 right居右 bgcolor:背景颜色 background:背景图片 cellspacing间距:单元格与单元格之间的距离 cellpadding边距:单元格中的内容到边界之间的距离
2.2 tr标签
用来定义行:table row
常用属性:
align:水平对齐 取值:left(默认) center right valign垂直对齐 取值:top center bottom bgcolor:背景颜色 background:背景图片
2.3 td标签
用来定义单元格,table data
常用属性:align、valign、bgcolor、background
注意:表格必须是由行组成,行必须由单元格来组成,数据必须放到单元格中
3.合并单元格
合并单元格也称为单元格的跨行跨列
两个属性:
rowspan 设置单元格所跨的行数 colspan 设置单元格所跨的列数
步骤:
六、表单
1.简介
表单是一个包含若干个表单元素的区域,用于获取琐类型的用户数据
表单元素是允许用户在表单输入信息的元素,如文本框、密码框、单选按钮、复选框、下拉列表、按钮等
2.表单结构
2.1表单语法
1
2.2form标签
用来定义表单,可以包含多个表单元素
常用属性:
action:提交数据给谁处理,即处理数据的程序,默认为当前页面 method:提交数据的方式或方法,取值:get(默认),post get和post的区别: get:以查询字符串的形式提交,在地址栏中能看到,长度有限制,不安全 post以表单数据组的形式进行提交,在地址栏中看不到,长度无限制,安全 enctype(encode type)编码类型:提交数据的编码,取值:application/X-www-form-urlencoded(默 认)、multipart/form-data(文件上传)
3.表单元素
大多数的表单元素都是使用 标签来定义的,通过设置属性type来定义不同的表单元素
1
3.1单行文本框
常用属性:
·name名称,很重要,如果没有定义name属性,则该表单元素的数据是无法提交的
·value初始值
·size显示宽度
·maxlength:大字符数,默认是没有限制
·readonly只读:readonly=“readonly”,可简写readonly,即只写属性名
·disabled禁用:disabled=“disabled”, 可简写disabled完全禁用
表单元素被提交的两个条件,1.有name属性2.非disabled
3.2 单选按钮
常用属性:
·name名称:多个radio的name属性必须相同,才能实现互斥(单选)
·value值
·checked:是否被选中,两种状态,选中,未选中 checked=“checked” 简写 checked
3.3 复选框
常用属性与单选按钮radio类似
3.4 文件选择器
常用属性:
·name:名称
·accept设置可选择的文件类型,用来限制上传的文件类型
使用MIME格式字符串对资源类型进行限制
常见的MIME类型:
·纯文本:text/plain text/xml text/html
· 图像:image/png image/jpeg image/gif
4.特殊表单元素
4.1下拉列表
select常用属性:
·name名称
·size行数,同时显示多个选项
·multiple允许同时选择多个
option常用属性:
·value选项值
·selected设置默认选中项
optgroup常用属性:
·label分组的标签
4.2文本域
·name名称
·rows行数
·cols列数
5、其他标签
5.1 label标签
为表单元素提供标签,当选中label标签中的文本内容时会自动将光标切换到与之相关联的表单元素。
常用属性:
·for必须将该属性值设置为与相关联的表单元素的Id属性值相同。
注:几乎所有HTML标签都具有id属性,且id值必须唯一。
5.2 button标签
也表示按钮,与input按钮类似
语法:
1按钮文字或图像
常用属性:
·type按钮的类型,取值: submit(默认)、reset、button
5.3 fieldset和legend标签
fieldset标签,对表单元素进行分组
legend标签,对分组添加标题
七、内嵌框架
1、简介
使用iframe可以在一个页面中引用另一个页面,实现复用、灵活
2、基本用法
语法:
1
常用属性:
· src:引用的页面
· width/height宽度/高度 ,像素或百分比
· frameborder是否显示边框,取值:1(yes) 0(no)—默认
· scrolling是否显示滚动条,取值:yes no auto
· name属性 为框架定义名称
3、在框架中打开链接
1
2
3链接的文本或图像
八、HTML5简介
1、发展
W3C于1992年12月发布了HTML4.0.1标准
W3C于2014年10月发布了HTML5标准
2、特点
· 取消了过时的标签,如font、center等,它们仅具有展示外观的功能
· 增加了一些更具有语义化的标签,如header、footer、aside等
· 增加了一些新功能标签,如canvas、audio、video
· 增加了一些表单控件,如email、date、time、url、search等
· 可以直接在浏览器中绘画(canvas),无需flash
· 增加了本地存储的支持
3、兼容性
http://caniuse.com
提供了各种浏览器版本对HTML5和CSS规范的支持度
九、HTML5新增内容
1、结构相关的标签
用来进行页面结构布局,本身无任何特殊样式,需要使用CSS进行样式设置
· article定义一个独立的内容,完整的文章
· section定义文档的章节、段落
· header文章的头部、页眉、标题
· footer文章的底部、页脚、标注
· aside定义侧边栏
· figure图片区域
· figcaption为图片区域定义标题
· nav定义导航菜单
结构标签只是表明各部分的角色,并无实际的外观样式,与普通div相同
2、语义相关的标签
2.1 mark标签
标注,用来突出显示文本,默认添加黄色背景
2.2 time标签
定义日期和时间,便于搜索引擎智能查找
2.3 details和 summary标签
默认显示summary中的内容,点击后显示details中的内容
注:并不是所有的浏览器都兼容,chrome、opera支持、Firefox、IE浏览器不支持
2.4 meter标签
计数仪,表示度量
常用属性:
· max定义大值,默认为1
· min定义小值,默认为0
· value定义当前值
· high定义限定为高的值
· low定义限定为低的值
· optimum定义佳值
规则:
当value大于high时为绿色
当value在low与high之间时为黄色
当value小于low时为红色
当value小于low时为绿色
当value在low与high之间时为黄色
当value大于high时为红色
2.5 progress标签
进度条,表示运行中的进度
常用属性:
· value定义当前值
· max定义完成的值
3.表单相关
3.1 新增表单元素
新增以下type类型:
· email接收邮箱
· url接收URL
· tel接收电话号码,目前仅在移动设备上有效
· search搜索文框
· number/range接收数字/数字滑块,包含min,max,step属性
· date/month/week/time/datetime日期时间选择器,兼容性不好
· color颜色拾取
作用:
· 具有格式校验的功能
· 可以与移动设备的键盘相关联
3.2新增表单属性
form标签的属性:
· autocomplete是否启动表单的自动完成功能, 取值:on(默认)、off
· novalidate提交表单时不进行校验,默认会进行表单校验
3.3 新增表单元素的属性
新增表单元素属性:input/select/textarea等
· placeholder提示文字
· required是否必填
· autocomplete是否启用该表单元素的自动完成功能
· autofocus设置初始焦点元素
· pattern使用正则表达式(RegExp后面会讲解),进行数据校验
· list使文本元素具有下拉列表的功能,需要配合datalist和option标签一起使用
· form可以将表单元素写在form标签外面,然后通过该属性关联指定的表单
4、多媒体标签
4.1audio标签
在页面中插入音频,不同的浏览器对音频格式的支持不一样
audio常用属性:
· src音频文件的来源
· controls是否显示控制面板,默认不显示
· autoplay是否自动播放,默认不自动播放
· loop是否循环播放
· muted是否静音
· preload是否预加载,取值:none不预加载、auto预加载(默认)、metadata只加载元数据
如果设置了autoplay属性,则该属性无效
可以结合source标签使用,指定多个音频文,浏览器会检测并使用第一个可用的音频文件
4.2 video标签
在页面中插入视频,不同的浏览器对视频格式的支持不一样
用法与audio标签基本相同,增加属性:
· widht/height视频播放器的宽度/高度
· poster在视频加载前显示的图片
<html>
<body>
<tiele>HTML技术</tiele>
</body>
<body>
大家好,欢迎学习html技术!
</body>
</html>1234567
效果
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-h271e4v6-1593240920352)(C:\Users\lenovo\Desktop\新建文件夹\静态网页2\案例\result\案例1.png)]
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>标签</title>
</head>
<body text="blue">
标签的组成
<br>
html从入门到精通!
<hr>
<h1>标签的分类</h1>
<hr>
<h2>标签的分类</h2>
<hr>
<h6>标签的分类</h6>
<hr>
<span>哈哈</span>嘿嘿
</body>
</html>1234567891011121314151617181920212223
效果
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jx6zJE1P-1593240920354)(C:\Users\lenovo\Desktop\新建文件夹\静态网页2\案例\result\案例2.png)]
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Document</title>
</head>
<body>
图书:<<HTML从入门到精通<<
<hr>
北京 上海 广州
<hr>
在HTML中用<表示<小于号
<hr>
“HTML语言” 或 &qout;HTML语言&qout;
<hr>
版权所有© 2000-2020 高教培训
<hr>
×关闭符号
</body>
</html>123456789101112131415161718192021222324
效果
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nuFLl3hm-1593240920355)(C:\Users\lenovo\Desktop\新建文件夹\静态网页2\案例\result\案例3.png)]
(剩下的下期出)
原文链接:https://blog.csdn.net/WanXuang/article/details/106982782?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160513384519724835852804%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=160513384519724835852804&biz_id=&utm_medium=distribute.pc_search_top_result.none-task-code-2~all~top_position~default-1-106982782-12.nonecase&utm_term=html
作者:WanXuang
出处:从CSDN
不缺好看的桌面呢?这边来爬取网站超清图片吧
本次爬虫用到的网址是:
http://www.netbian.com/index.htm: 彼岸桌面.里面有很多的好看壁纸,而且都是可以下载高清无损的,还比较不错,所以我就拿这个网站练练手。
作为一个初学者,刚开始的时候,无论的代码的质量如何,总之代码只要能够被正确完整的运行那就很能够让自己开心的,如同我们的游戏一样,能在短时间内得到正向的反馈,我们就会更有兴趣去玩。
学习也是如此,只要我们能够在短期内得到学习带来的反馈,那么我们的对于学习的欲望也是强烈的。能够完整的完整此次爬虫程序的编写,那便是一个最大的收货,但其实我在此次过程中的收获远不止此。
好的代码其实应该具有以下特性
就以充分的测试为例,经常写代码的就应该知道,尽管多数时候你的代码没有BUG,但那仅仅说明只是大多数情况下是稳定的,但是在某些条件下就会出错(达到出错条件,存在逻辑问题的时候等)。这是肯定的。至于什么原因,不同的代码有不同的原因。如果代码程序都是一次就能完善的,那么我们使用的软件的软件就不会经常更新了。其他其中的道理就不一 一道说了,久而自知。
好的代码一般具有的5大特性
1.便于维护
2.可复用
3.可扩展
4.强灵活性
5.健壮性
经过我的代码运行我发现时间复杂度比较大,因此这是我将要改进的地方,但也不止于此。也有很多利用得不合理的地方,至于存在的不足的地方就待我慢慢提升改进吧!
路过的大佬欢迎留下您宝贵的代码修改意见,
完整代码如下
import os
import bs4
import re
import time
import requests
from bs4 import BeautifulSoup
def getHTMLText(url, headers):
"""向目标服务器发起请求并返回响应"""
try:
r = requests.get(url=url, headers=headers)
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text, "html.parser")
return soup
except:
return ""
def CreateFolder():
"""创建存储数据文件夹"""
flag = True
while flag == 1:
file = input("请输入保存数据文件夹的名称:")
if not os.path.exists(file):
os.mkdir(file)
flag = False
else:
print('该文件已存在,请重新输入')
flag = True
# os.path.abspath(file) 获取文件夹的绝对路径
path = os.path.abspath(file) + "\\"
return path
def fillUnivList(ulist, soup):
"""获取每一张图片的原图页面"""
# [0]使得获得的ul是 <class 'bs4.BeautifulSoup'> 类型
div = soup.find_all('div', 'list')[0]
for a in div('a'):
if isinstance(a, bs4.element.Tag):
hr = a.attrs['href']
href = re.findall(r'/desk/[1-9]\d{4}.htm', hr)
if bool(href) == True:
ulist.append(href[0])
return ulist
def DownloadPicture(left_url,list,path):
for right in list:
url = left_url + right
r = requests.get(url=url, timeout=10)
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text,"html.parser")
tag = soup.find_all("p")
# 获取img标签的alt属性,给保存图片命名
name = tag[0].a.img.attrs['alt']
img_name = name + ".jpg"
# 获取图片的信息
img_src = tag[0].a.img.attrs['src']
try:
img_data = requests.get(url=img_src)
except:
continue
img_path = path + img_name
with open(img_path,'wb') as fp:
fp.write(img_data.content)
print(img_name, " ******下载完成!")
def PageNumurl(urls):
num = int(input("请输入爬取所到的页码数:"))
for i in range(2,num+1):
u = "http://www.netbian.com/index_" + str(i) + ".htm"
urls.append(u)
return urls
if __name__ == "__main__":
uinfo = []
left_url = "http://www.netbian.com"
urls = ["http://www.netbian.com/index.htm"]
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"
}
start = time.time()
# 1.创建保存数据的文件夹
path = CreateFolder()
# 2. 确定要爬取的页面数并返回每一页的链接
PageNumurl(urls)
n = int(input("访问的起始页面:"))
for i in urls[n-1:]:
# 3.获取每一个页面的首页数据文本
soup = getHTMLText(i, headers)
# 4.访问原图所在页链接并返回图片的链接
page_list = fillUnivList(uinfo, soup)
# 5.下载原图
DownloadPicture(left_url, page_list, path)
print("全部下载完成!", "共" + str(len(os.listdir(path))) + "张图片")
end = time.time()
print("共耗时" + str(end-start) + "秒")
运行
部分展示结果如下:
起学Python,一起写代码,加油!奥利给!!!
*请认真填写需求信息,我们会在24小时内与您取得联系。