网页文字无法复制，教你5种快速提取文字的方法，一键提

网页文字无法复制，教你5种快速提取文字的方法，一键提取1000字

知各位有没有碰到过，想要复制网页上的文字，却无法复制，今天给大家分享5种可以提取网页文字的方法。

1、微信提取文字

微信其实是能够提取图片文字的,首先将需要提取文字的页面截取下来,然后打开微信，随便找个好友将图片发送，发送成功点击图片就会弹出一个框，点击框中的提取文字功能就可以提取了。

2、 QQ提取文字

QQ提取的方法也是一样，将截图发给好友，打开图片，长按图片两秒就会弹出一个框，下方有个提取文字功能，点击下就可以提取了。

3、华为手机提取文字

其实很多手机都自带有提取图片文字功能，就比如华为手机，里面有个智慧识屏功能，将其开启，打开图片就能提取里面的文字了。

4、小米手机提取

小米手机也是可以提取图片文字，需要在设置里面开启传送门功能，然后在相册中打开图片，长按两秒就会弹出提取框就可以提取了。

5、软件提取

除了以上四种方法，我们也可以借用手机上的软件来进行提取，比如迅捷文字识别软件，支持提取图片里的文字和数据表格等，上传或现拍就能直接提取出来。

网页文字无法复制，教你5种快速提取文字的方法，一键提取1000字。

有以下文件html.html：

想要提取全部标签<h4></h4>内的文本，可使用如下Python代码：

import re
with open("html.html",'rU') as strf:
....str=strf.read()
res=r'(?<=<h4>).*?(?=</h4>)'
li=re.findall(res,str)
with open("new.txt","w") as wstr:
....for s in li:
........wstr.write(s)
........wstr.write("\r\n")
........print(s,'\r\n')

正则表达式r'(?<=<h4>).*?(?=</h4>)中括号部分属于向后向前查找，相当于字符串作为边界进行查找。

运行后会将标签<h4></h4>内的文本提取到文件new.txt：

-End-

本处理其实是一个很大的题目，无法用文本处理这个名字来概括，从这里这一章开始，我们直接用子项目名做名称。

关键词：html代码

下面我们开始一个新的内容，就是从网页代码的文本文件中提取文字。网页代码，我们一般也叫他html代码。

下面我们有一个文本文件，内容如下

内容很长很长，我们仅仅取出一个屏幕，能做范例就好。

下面的题目是，从这个代码文件中，我们提取出要看的内容。为此，我们编写一个程序做个练习。这个程序的名字叫《网页代码中提取文字.py》。

先开始做第一件事，在不做任何修改的情况下，直接读取文本文件的内容。

于是我们编写了下面一个程序

阅读过前面文章的人，这个程序一看就懂，不用再解释了。运行后，显示效果如下

如果让我们从这段代码中读出里面的中文内容，我相信是非常困难的。

下面研究的课题就是，把中间有用的中文部分内容挑选出来，其他的代码部分去掉，还要尽量保持应该保持的段落，最后有条件的话，再把内容进行一下加工，最后保持文章的主体部分。总之，内容多多如何处理呢？

首先，我们将研究第一个问题，了解网页代码的基本知识。看下图

第一张图片，是一个网页的基本框架。第二张图片，我们对他进行了标注，绿色部分是网页的头部信息，红色部分是网页中的实质内容。黄色的圈圈，就是网页的全部代码。

网页的代码通常用尖括号把它标注出来，他有很多的特殊符号，本格式如下

<html></html>这两个是匹配的，中间就是网页代码具体的内容。

<body></body>这两个也是匹配的，中间是代码中文章体内容的具体部分。

<p></p>这两个也是匹配的，中间是文章段落的具体部分。

HTML语言，大部分内容都是这样配对的，个别的不配对。

由于内容实在太多，我们仅做最简单的介绍。只要掌握一个规律就可以啦，这个规律就是，代码一般都是用尖括号括起来的。

需要说明的是，网页代码我们可以随便打开一个网页，查看源代码就可以看到。我们研究的是通过取出文字的内容来研究文本处理的方法。

在线咨询

上一篇：武侠小说上官鼎武侠全集(HTML格式)电子书免费下
下一篇：万得图片批量处理 -可以对图片进行批量处理的工具

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。