整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

如何使用python爬取网页上的图片!非礼勿视!

如何使用python爬取网页上的图片!非礼勿视!
# -*- coding: utf-8 -*-
"""根据搜索词下载百度图片"""
import re
import sys
import urllib
import requests
import os
import cv2
from PIL import Image
def get_onepage_urls(onepageurl):
 """获取单个翻页的所有图片的urls+当前翻页的下一翻页的url"""
 if not onepageurl:
 print('已到最后一页, 结束')
 return [], ''
 try:
 html=requests.get(onepageurl)
 html.encoding='utf-8'
 html=html.text
 except Exception as e:
 print(e)
 pic_urls=[]
 fanye_url=''
 return pic_urls, fanye_url
 pic_urls=re.findall('"objURL":"(.*?)",', html, re.S)
 fanye_urls=re.findall(re.compile(r'<a href="(.*)" class="n">下一页</a>'), html, flags=0)
 fanye_url='http://image.baidu.com' + fanye_urls[0] if fanye_urls else ''
 return pic_urls, fanye_url
def down_pic(pic_urls):
 """给出图片链接列表, 下载所有图片"""
 for i, pic_url in enumerate(pic_urls):
 try:
 pic=requests.get(pic_url, timeout=15)
 string=str(i + 1) + '.jpg'
 with open(string, 'wb') as f:
 a=f.write(pic.content)
 img=cv2.imread(string) #这个地方想把那些像素值不高的图片删除的,但是实现的不好,以后改进
 if img.size < 6912000:
 if os.path.exists(string):
 os.remove(string)
 continue
 print('成功下载第%s张图片: %s' % (str(i + 1), str(pic_url)))
 except Exception as e:
 print('下载第%s张图片时失败: %s' % (str(i + 1), str(pic_url)))
 print(e)
 continue
if __name__=='__main__':
 keyword='高清风景桌面' # 关键词, 改为你想输入的词即可, 相当于在百度图片里搜索一样
 url_init_first=r'http://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1497491098685_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&ctd=1497491098685%5E00_1519X735&word='
 url_init=url_init_first + urllib.parse.quote(keyword, safe='/')
 all_pic_urls=[]
 onepage_urls, fanye_url=get_onepage_urls(url_init)
 all_pic_urls.extend(onepage_urls)
 fanye_count=0 # 累计翻页数
 while 1:
 onepage_urls, fanye_url=get_onepage_urls(fanye_url)
 fanye_count +=1
 # print('第页' % str(fanye_count))
 if fanye_url=='' and onepage_urls==[]:
 break
 all_pic_urls.extend(onepage_urls)
 down_pic(list(set(all_pic_urls)))

果展示:

是不是非常简单,代码还有很多!可以加小编的群:960410445

于安全和隐私的原因,web 应用程序不能直接访问用户设备上的文件。如果需要读取一个或多个本地文件,可以通过使用input file和FileReader来实现。在这篇文章中,我们将通过一些例子来看看它是如何工作的。

文件操作的流程

获取文件

由于浏览器中的 JS 无法从用户的设备访问本地文件,我们需要为用户提供一种方法来选择一个或多个文件供我们使用。这可以通过文件选择器<input type='fule' />来完成。

<input type="file" id="fileInput">

如果想允选择多个文件,可以添加multiple属性:

<input type="file" id="fileInput" multiple>

我们可以通过change事件来监听文件的选择,也可以添加另一个 UI 元素让用户显式地开始对所选文件的处理。

input file 具有一个files属性,该属性是File对象的列表(可能有多个选择的文件)。

File对象如下所示:

读取文件

读取文件,主要使用的是[FileReader][1]类。

「该对象拥有的属性:」

「FileReader.error」 :只读,一个DOMException,表示在读取文件时发生的错误 。

「FileReader.readyState」:只读 表示 FileReader 状态的数字。取值如下:

常量名值描述EMPTY0还没有加载任何数据LOADING1数据正在被加载DONE2已完成全部的读取请求

「FileReader.result」:只读,文件的内容。该属性仅在读取操作完成后才有效,数据的格式取决于使用哪个方法来启动读取操作。

「该对象拥有的方法:」

readAsText(file, encoding):以纯文本形式读取文件,读取到的文本保存在result属性中。第二个参数代表编码格式。

readAsDataUrl(file):读取文件并且将文件以数据URI的形式保存在result属性中。

readAsBinaryString(file):读取文件并且把文件以字符串保存在result属性中。

readAsArrayBuffer(file):读取文件并且将一个包含文件内容的ArrayBuffer保存咋result属性中。

FileReader.abort():中止读取操作。在返回时,readyState属性为DONE。

「文件读取的过程是异步操作,在这个过程中提供了三个事件:progress、error、load事件。」

progress:每隔50ms左右,会触发一次progress事件。

error:在无法读取到文件信息的条件下触发。

load:在成功加载后就会触发。

在下面的示例中,我们将使用readAsText和readAsDataURL方法来显示文本和图像文件的内容。

例一:读取文本文件

为了将文件内容显示为文本,change需要重写一下:

首先,我们要确保有一个可以读取的文件。如果用户取消或以其他方式关闭文件选择对话框而不选择文件,我们就没有什么要读取和退出函数。

然后我们继续创建一个FileReader。reader的工作是异步的,以避免阻塞主线程和 UI 更新,这在读取大文件(如视频)时非常重要。

reader发出一个'load'事件(例如,类似于Image对象),告诉我们的文件已经读取完毕。

reader将文件内容保存在其result属性中。此属性中的数据取决于我们使用的读取文件的方法。在我们的示例中,我们使用readAsText方法读取文件,因此result将是一个文本字符串。

例二:显示本地选择的图片

如果我们想要显示图像,将文件读取为字符串并不是很有用。FileReader有一个readAsDataURL方法,可以将文件读入一个编码的字符串,该字符串可以用作<img>元素的源。本例的代码与前面的代码基本相同,区别是我们使用readAsDataURL读取文件并将结果显示为图像:

总结

1)由于安全和隐私的原因,JavaScript 不能直接访问本地文件。

2)可以通过 input 类型为 file 来选择文件,并对文件进行处理。

3) file input 具有带有所选文件的files属性。

4) 我们可以使用FileReader来访问所选文件的内容。


作者: Martin Splitt 译者:前端小智 来源:dev

原文:https://dev.to/g33konaut/reading-local-files-with-javascript-25hn

面上一幅图片,查看图片的属性:

查看图片的绝对地址:C:\Users\Administrator\Desktop,文件名是:097.jpg。

新建一个txt文档,输入:

  • <!DOCTYPE html>

  • <html>

  • <body>

  • <img src="C:/Users/Administrator/Desktop/097.jpg"

  • width="500" height="365">

  • </body>

  • </html>

把文件保存到电脑桌面之后,把txt改为html文件,并用浏览器打开,就可以在网页上看到刚才的图片了。