用python3教你任意Html主内容提取

x1 工具准备

工欲善其事必先利其器，爬取语料的根基便是基于python。

我们基于python3进行开发，主要使用以下几个模块：requests、lxml、json。

简单介绍一个各模块的功能

01｜requests

requests是一个Python第三方库，处理URL资源特别方便。它的官方文档上写着大大口号：HTTP for Humans(为人类使用HTTP而生)。相比python自带的urllib使用体验，笔者认为requests的使用体验比urllib高了一个数量级。

我们简单的比较一下：

urllib:

 1import urllib2
 2import urllib
 3
 4URL_GET = "https://api.douban.com/v2/event/list"
 5#构建请求参数
 6params = urllib.urlencode({'loc':'108288','day_type':'weekend','type':'exhibition'})
 7
 8#发送请求
 9response = urllib2.urlopen('?'.join([URL_GET,'%s'])%params)
10#Response Headers
11print(response.info())
12#Response Code
13print(response.getcode())
14#Response Body
15print(response.read())
复制代码

requests：

 1import requests
 2
 3URL_GET = "https://api.douban.com/v2/event/list"
 4#构建请求参数
 5params = {'loc':'108288','day_type':'weekend','type':'exhibition'}
 6
 7#发送请求
 8response = requests.get(URL_GET,params=params)
 9#Response Headers
10print(response.headers)
11#Response Code
12print(response.status_code)
13#Response Body
14print(response.text)复制代码

我们可以发现，这两种库还是有一些区别的：

1. 参数的构建：urllib需要对参数进行urlencode编码处理，比较麻烦；requests无需额外编码处理，十分简洁。

2. 请求发送：urllib需要额外对url参数进行构造，变为符合要求的形式；requests则简明很多，直接get对应链接与参数。

3. 连接方式：看一下返回数据的头信息的“connection”，使用urllib库时，"connection":"close"，说明每次请求结束关掉socket通道，而使用requests库使用了urllib3，多次请求重复使用一个socket，"connection":"keep-alive"，说明多次请求使用一个连接，消耗更少的资源

4. 编码方式：requests库的编码方式Accept-Encoding更全，在此不做举例

综上所诉，使用requests更为简明、易懂，极大的方便我们开发。

02｜lxml

BeautifulSoup是一个库，而XPath是一种技术，python中最常用的XPath库是lxml。

当我们拿到requests返回的页面后，我们怎么拿到想要的数据呢？这个时候祭出lxml这强大的HTML/XML解析工具。python从不缺解析库，那么我们为什么要在众多库里选择lxml呢？我们选择另一款出名的HTML解析库BeautifulSoup来进行对比。

我们简单的比较一下：

BeautifulSoup:

1from bs4 import BeautifulSoup #导入库
2# 假设html是需要被解析的html
3
4#将html传入BeautifulSoup 的构造方法,得到一个文档的对象
5soup = BeautifulSoup(html,'html.parser',from_encoding='utf-8')
6#查找所有的h4标签 
7links = soup.find_all("h4")
复制代码

lxml:

1from lxml import etree
2# 假设html是需要被解析的html
3
4#将html传入etree 的构造方法,得到一个文档的对象
5root = etree.HTML(html)
6#查找所有的h4标签 
7links = root.xpath("//h4")
复制代码

我们可以发现，这两种库还是有一些区别的：

1. 解析html: BeautifulSoup的解析方式和JQ的写法类似，API非常人性化，支持css选择器；lxml的语法有一定的学习成本

2. 性能：BeautifulSoup是基于DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多；而lxml只会局部遍历，另外lxml是用c写的，而BeautifulSoup是用python写的，明显的性能上lxml>>BeautifulSoup。

综上所诉，使用BeautifulSoup更为简明、易用，lxml虽然有一定学习成本，但总体也很简明易懂，最重要的是它基于C编写，速度快很多，对于笔者这种强迫症，自然而然就选lxml啦。

03｜json

python自带json库，对于基础的json的处理，自带库完全足够。但是如果你想更偷懒，可以使用第三方json库，常见的有demjson、simplejson。

这两种库，无论是import模块速度，还是编码、解码速度，都是simplejson更胜一筹，再加上兼容性 simplejson 更好。所以大家如果想使用方库，可以使用simplejson。

0x2 确定语料源

将武器准备好之后，接下来就需要确定爬取方向。

以电竞类语料为例，现在我们要爬电竞类相关语料。大家熟悉的电竞平台有企鹅电竞、企鹅电竞和企鹅电竞(斜眼)，所以我们以企鹅电竞上直播的游戏作为数据源进行爬取。

我们登陆企鹅电竞官网，进入游戏列表页，可以发现页面上有很多游戏，通过人工去写这些游戏名收益明显不高，于是我们就开始我们爬虫的第一步：游戏列表爬取。

 1import requests
 2from lxml import etree
 3
 4# 更新游戏列表
 5def _updateGameList():
 6 # 发送HTTP请求时的HEAD信息，用于伪装为浏览器
 7 heads = { 
 8 'Connection': 'Keep-Alive',
 9 'Accept': 'text/html, application/xhtml+xml, */*',
10 'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
11 'Accept-Encoding': 'gzip, deflate',
12 'User-Agent': 'Mozilla/6.1 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'
13 }
14 # 需要爬取的游戏列表页
15 url = 'https://egame.qq.com/gamelist'
16
17 # 不压缩html，最大链接时间为10妙
18 res = requests.get(url, headers=heads, verify=False, timeout=10)
19 # 为防止出错，编码utf-8
20 res.encoding = 'utf-8'
21 # 将html构建为Xpath模式
22 root = etree.HTML(res.content)
23 # 使用Xpath语法，获取游戏名
24 gameList = root.xpath("//ul[@class='livelist-mod']//li//p//text()")
25 # 输出爬到的游戏名
26 print(gameList)
复制代码

当我们拿到这几十个游戏名后，下一步就是对这几十款游戏进行语料爬取，这时候问题就来了，我们要从哪个网站来爬这几十个游戏的攻略呢，taptap?多玩？17173？在对这几个网站进行分析后，发现这些网站仅有一些热门游戏的文章语料，一些冷门或者低热度的游戏，例如“灵魂筹码”、“奇迹：觉醒”、“死神来了”等，很难在这些网站上找到大量文章语料，如图所示：

我们可以发现，“ 奇迹：觉醒”、“灵魂筹码”的文章语料特别少，数量上不符合我们的要求。那么有没有一个比较通用的资源站，它拥有着无比丰富的文章语料，可以满足我们的需求。

其实静下心来想想，这个资源站我们天天都有用到，那就是百度。我们在百度新闻搜索相关游戏，拿到搜索结果列表，这些列表的链接的网页内容几乎都与搜索结果强相关，这样我们数据源不够丰富的问题便轻松解决了。但是此时出现了一个新的问题，并且是一个比较难解决的问题——如何抓取到任意网页的文章内容？

因为不同的网站都有不同的页面结构，我们无法与预知将会爬到哪个网站的数据，并且我们也不可能针对每一个网站都去写一套爬虫，那样的工作量简直难以想象！但是我们也不能简单粗暴的将页面中的所有文字都爬下来，用那样的语料来进行训练无疑是噩梦！

经过与各个网站斗智斗勇、查询资料与思索之后，终于找到一条比较通用的方案，下面为大家讲一讲笔者的思路。

0x3 任意网站的文章语料爬取

01｜提取方法

1）基于Dom树正文提取

2）基于网页分割找正文块

3）基于标记窗的正文提取

4）基于数据挖掘或机器学习

5）基于行块分布函数正文提取

02｜提取原理

大家看到这几种是不是都有点疑惑了，它们到底是怎么提取的呢？让笔者慢慢道来。

1）基于Dom树的正文提取：

这一种方法主要是通过比较规范的HTML建立Dom树，然后地柜遍历Dom，比较并识别各种非正文信息，包括广告、链接和非重要节点信息，将非正文信息抽离之后，余下来的自然就是正文信息。

但是这种方法有两个问题

① 特别依赖于HTML的良好结构，如果我们爬取到一个不按W3c规范的编写的网页时，这种方法便不是很适用。

② 树的建立和遍历时间复杂度、空间复杂度都较高，树的遍历方法也因HTML标签会有不同的差异。

2) 基于网页分割找正文块：

这一种方法是利用HTML标签中的分割线以及一些视觉信息（如文字颜色、字体大小、文字信息等）。

这种方法存在一个问题：

① 不同的网站HTML风格迥异，分割没有办法统一，无法保证通用性。

3) 基于标记窗的正文提取：

先科普一个概念——标记窗，我们将两个标签以及其内部包含的文本合在一起成为一个标记窗（比如 <h1>我是h1</h1> 中的“我是h1”就是标记窗内容）,取出标记窗的文字。

这种方法先取文章标题、HTML中所有的标记窗，在对其进行分词。然后计算标题的序列与标记窗文本序列的词语距离L，如果L小于一个阈值，则认为此标记窗内的文本是正文。

这种方法虽然看上去挺好，但其实也是存在问题的：

① 需要对页面中的所有文本进行分词，效率不高。

② 词语距离的阈值难以确定，不同的文章拥有不同的阈值。

4）基于数据挖掘或机器学习

使用大数据进行训练，让机器提取主文本。

这种方法肯定是极好的，但是它需要先有html与正文数据，然后进行训练。我们在此不进行探讨。

5）基于行块分布函数正文提取

对于任意一个网页，它的正文和标签总是杂糅在一起。此方法的核心有亮点：① 正文区的密度；② 行块的长度；一个网页的正文区域肯定是文字信息分布最密集的区域之一，这个区域可能最大（评论信息长、正文较短），所以同时引进行块长度进行判断。

实现思路：

① 我们先将HTML去标签，只留所有正文，同时留下标签取出后的所有空白位置信息，我们称其为Ctext；

② 对每一个Ctext取周围k行(k<5)，合起来称为Cblock；

③ 对Cblock去掉所有空白符，其文字总长度称为Clen；

④ 以Ctext为横坐标轴，以各行的Clen为纵轴，建立坐标系。

以这个网页为例： http://www.gov.cn/ldhd/2009-11/08/content_1459564.htm 该网页的正文区域为145行至182行。

由上图可知，正确的文本区域全都是分布函数图上含有最值且连续的一个区域，这个区域往往含有一个骤升点和一个骤降点。因此，网页正文抽取问题转化为了求行块分布函数上的骤升点和骤降点两个边界点，这两个边界点所含的区域包含了当前网页的行块长度最大值并且是连续的。

经过大量实验，证明此方法对于中文网页的正文提取有较高的准确度,此算法的优点在于，行块函数不依赖与HTML代码，与HTML标签无关，实现简单，准确率较高。

主要逻辑代码如下：

 1# 假设content为已经拿到的html
 2
 3# Ctext取周围k行(k<5),定为3
 4blocksWidth = 3
 5# 每一个Cblock的长度
 6Ctext_len = []
 7# Ctext
 8lines = content.split('n')
 9# 去空格
10for i in range(len(lines)):
11 if lines[i] == ' ' or lines[i] == 'n':
12 lines[i] = ''
13# 计算纵坐标，每一个Ctext的长度
14for i in range(0, len(lines) - blocksWidth):
15 wordsNum = 0
16 for j in range(i, i + blocksWidth):
17 lines[j] = lines[j].replace("\s", "")
18 wordsNum += len(lines[j])
19 Ctext_len.append(wordsNum)
20# 开始标识
21start = -1
22# 结束标识
23end = -1
24# 是否开始标识
25boolstart = False
26# 是否结束标识
27boolend = False
28# 行块的长度阈值
29max_text_len = 88
30# 文章主内容
31main_text = []
32# 没有分割出Ctext
33if len(Ctext_len) < 3:
34 return '没有正文'
35for i in range(len(Ctext_len) - 3):
36 # 如果高于这个阈值
37 if(Ctext_len[i] > max_text_len and (not boolstart)):
38 # Cblock下面3个都不为0，认为是正文
39 if (Ctext_len[i + 1] != 0 or Ctext_len[i + 2] != 0 or Ctext_len[i + 3] != 0):
40 boolstart = True
41 start = i
42 continue
43 if (boolstart):
44 # Cblock下面3个中有0，则结束
45 if (Ctext_len[i] == 0 or Ctext_len[i + 1] == 0):
46 end = i
47 boolend = True
48 tmp = []
49
50 # 判断下面还有没有正文
51 if(boolend):
52 for ii in range(start, end + 1):
53 if(len(lines[ii]) < 5):
54 continue
55 tmp.append(lines[ii] + "n")
56 str = "".join(list(tmp))
57 # 去掉版权信息
58 if ("Copyright" in str or "版权所有" in str):
59 continue
60 main_text.append(str)
61 boolstart = boolend = False
62# 返回主内容
63result = "".join(list(main_text))
复制代码

0x4 结语

至此我们就可以获取任意内容的文章语料了，但这仅仅是开始，获取到了这些语料后我们还需要在一次进行清洗、分词、词性标注等，才能获得真正可以使用的语料。

C#中，你可以使用System.Net.Http.HttpClient来从网页获取HTML内容，然后使用System.Text.RegularExpressions.Regex来解析和提取HTML中的<title>标签内容。以下是一个简单的示例，演示了如何执行此操作：

csharpusing System;
using System.Net.Http;
using System.Text.RegularExpressions;
using System.Threading.Tasks;

class Program
{
    static readonly HttpClient client = new HttpClient();

    static async Task Main(string[] args)
    {
        try
        {
            // 要抓取内容的网页URL
            string url = "http://example.com";
            
            // 发送HTTP GET请求获取网页内容
            string htmlContent = await client.GetStringAsync(url);

            // 正则表达式，用于匹配<title>标签内的内容
            string titlePattern = @"<title>(.+?)</title>";

            // 使用Regex.Match方法查找匹配项
            Match match = Regex.Match(htmlContent, titlePattern);

            // 如果找到了匹配项
            if (match.Success)
            {
                // 提取<title>标签内的内容
                string title = match.Groups[1].Value;

                // 输出提取到的title
                Console.WriteLine("网页标题: " + title);
            }
            else
            {
                Console.WriteLine("未找到<title>标签。");
            }
        }
        catch (HttpRequestException e)
        {
            Console.WriteLine("\nException Caught!");
            Console.WriteLine("Message :{0} ", e.Message);
        }
    }
}

在这个示例中，我们首先创建了一个HttpClient实例，然后使用GetStringAsync方法异步获取网页的HTML内容。接下来，我们定义了一个正则表达式titlePattern，用于匹配<title>标签中的文本。Regex.Match方法用于在HTML内容中查找匹配项。如果找到匹配项，我们就从匹配结果中提取出标题文本并打印出来。

请注意，使用正则表达式解析HTML可能不是最可靠的方法，因为HTML的结构可能会非常复杂，并且正则表达式可能无法正确处理所有情况。在实际应用中，建议使用HTML解析库（如AngleSharp或HtmlAgilityPack）来解析HTML文档，这样可以更健壮和准确地提取所需的信息。

下面是一个使用HtmlAgilityPack库提取网页标题的示例：

csharpusing System;
using System.Net.Http;
using HtmlAgilityPack;
using System.Threading.Tasks;

class Program
{
    static readonly HttpClient client = new HttpClient();

    static async Task Main(string[] args)
    {
        try
        {
            // 要抓取内容的网页URL
            string url = "http://example.com";
            
            // 发送HTTP GET请求获取网页内容
            string htmlContent = await client.GetStringAsync(url);

            // 加载HTML内容到HtmlDocument对象
            HtmlDocument doc = new HtmlDocument();
            doc.LoadHtml(htmlContent);

            // 使用XPath查询找到<title>元素并获取其InnerText
            var titleNode = doc.DocumentNode.SelectSingleNode("//title");
            if (titleNode != null)
            {
                string title = titleNode.InnerText;
                Console.WriteLine("网页标题: " + title);
            }
            else
            {
                Console.WriteLine("未找到<title>标签。");
            }
        }
        catch (HttpRequestException e)
        {
            Console.WriteLine("\nException Caught!");
            Console.WriteLine("Message :{0} ", e.Message);
        }
    }
}

在这个示例中，我们使用了HtmlAgilityPack库来加载HTML内容，并使用XPath查询来定位<title>标签。这种方法通常比使用正则表达式更加稳定和可靠。在使用HtmlAgilityPack之前，你需要通过NuGet安装它：

bashInstall-Package HtmlAgilityPack

或者，如果你使用.NET Core CLI，可以运行：

文将揭示mfc网页文章采集的奥秘，帮助读者了解该技术的原理和应用。通过10个要点，详细介绍了它的工作原理、数据采集方法、常见问题及解决方案等内容，为读者提供了实用且全面的指导。

1.什么是mfc网页文章采集？

mfc网页文章采集是一种自动化工具，用于从互联网上获取特定网页中的文章内容。通过分析HTML代码，它能够提取出文章标题、作者、发布时间、正文等信息，并将其存储到数据库或文件中。

2. mfc网页文章采集的工作原理是什么？

mfc网页文章采集利用HTTP协议发送请求获取目标网页的HTML代码，然后通过解析HTML代码找到目标文章所在的标签和属性，并提取相关内容。最后，将提取到的内容进行处理和存储。

3. mfc网页文章采集的数据采集方法有哪些？

mfc网页文章采集可以通过两种方式进行数据采集：基于规则的采集和基于机器学习的采集。基于规则的采集需要事先定义好提取规则，而基于机器学习的采集则通过训练模型自动学习提取规则。

4. mfc网页文章采集的应用领域有哪些？

mfc网页文章采集在各个领域都有广泛的应用，比如新闻媒体、金融投资、市场调研等。它能够帮助用户快速获取大量的文章数据，进行信息分析和决策支持。

5. mfc网页文章采集的优势是什么？

mfc网页文章采集具有高效、准确、自动化等优势。它可以大幅度提高数据采集的效率，减少人工操作的成本，并保证数据的准确性和一致性。

6. mfc网页文章采集常见问题及解决方案

-问题一：如何应对网页结构变化导致的采集失败？

解决方案：定期更新采集规则，及时适应网页结构变化。

-问题二：如何处理反爬虫机制阻止的采集？

解决方案：使用代理IP、随机UA等技术手段规避反爬虫机制。

-问题三：如何处理验证码验证导致的采集中断？

解决方案：使用自动识别验证码的技术，或者人工干预进行验证。

7. mfc网页文章采集的发展趋势

随着互联网技术的不断进步和发展，mfc网页文章采集也在不断演化。未来，它将更加智能化、自动化，并且可以适应更多复杂的网页结构和反爬虫机制。

8.如何选择合适的mfc网页文章采集工具？

在选择mfc网页文章采集工具时，需要考虑以下几个因素：

-功能：是否满足自己的需求？

-稳定性：是否稳定可靠？

-支持：是否有良好的技术支持和更新？

-成本：是否符合预算？

9. mfc网页文章采集的法律风险如何规避？

在进行mfc网页文章采集时，需要注意遵守相关法律法规，尊重他人的知识产权和隐私权。可以通过获取授权、合理使用数据等方式规避法律风险。

10.如何提高mfc网页文章采集效果？

提高mfc网页文章采集效果可以从以下几个方面入手：

-优化采集规则，提高提取准确性；

-使用多线程技术，提高采集速度；

-针对特定网站进行定制化开发，提高适应性。

通过本文的介绍，相信读者对mfc网页文章采集有了更深入的了解。它是一种强大的工具，可以帮助我们快速获取互联网上的文章数据，并应用于各个领域。但同时也需要注意遵守相关法律法规，确保合法合规使用。希望本文能够为读者提供有益的指导和帮助。

在线咨询

上一篇：JavaScript正则表达式入门知识详细介绍
下一篇：基础面试02:HTML5为什么只需要最顶部写!DOCTYPE html?聊聊SGML

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商

用python3教你任意Html主内容提取

您的项目需求