整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

C# 正则获取网页内容, 抓取html源代码里的 title

C#中,你可以使用System.Net.Http.HttpClient来从网页获取HTML内容,然后使用System.Text.RegularExpressions.Regex来解析和提取HTML中的<title>标签内容。以下是一个简单的示例,演示了如何执行此操作:

csharpusing System;
using System.Net.Http;
using System.Text.RegularExpressions;
using System.Threading.Tasks;

class Program
{
    static readonly HttpClient client = new HttpClient();

    static async Task Main(string[] args)
    {
        try
        {
            // 要抓取内容的网页URL
            string url = "http://example.com";
            
            // 发送HTTP GET请求获取网页内容
            string htmlContent = await client.GetStringAsync(url);

            // 正则表达式,用于匹配<title>标签内的内容
            string titlePattern = @"<title>(.+?)</title>";

            // 使用Regex.Match方法查找匹配项
            Match match = Regex.Match(htmlContent, titlePattern);

            // 如果找到了匹配项
            if (match.Success)
            {
                // 提取<title>标签内的内容
                string title = match.Groups[1].Value;

                // 输出提取到的title
                Console.WriteLine("网页标题: " + title);
            }
            else
            {
                Console.WriteLine("未找到<title>标签。");
            }
        }
        catch (HttpRequestException e)
        {
            Console.WriteLine("\nException Caught!");
            Console.WriteLine("Message :{0} ", e.Message);
        }
    }
}

在这个示例中,我们首先创建了一个HttpClient实例,然后使用GetStringAsync方法异步获取网页的HTML内容。接下来,我们定义了一个正则表达式titlePattern,用于匹配<title>标签中的文本。Regex.Match方法用于在HTML内容中查找匹配项。如果找到匹配项,我们就从匹配结果中提取出标题文本并打印出来。

请注意,使用正则表达式解析HTML可能不是最可靠的方法,因为HTML的结构可能会非常复杂,并且正则表达式可能无法正确处理所有情况。在实际应用中,建议使用HTML解析库(如AngleSharp或HtmlAgilityPack)来解析HTML文档,这样可以更健壮和准确地提取所需的信息。

下面是一个使用HtmlAgilityPack库提取网页标题的示例:

csharpusing System;
using System.Net.Http;
using HtmlAgilityPack;
using System.Threading.Tasks;

class Program
{
    static readonly HttpClient client = new HttpClient();

    static async Task Main(string[] args)
    {
        try
        {
            // 要抓取内容的网页URL
            string url = "http://example.com";
            
            // 发送HTTP GET请求获取网页内容
            string htmlContent = await client.GetStringAsync(url);

            // 加载HTML内容到HtmlDocument对象
            HtmlDocument doc = new HtmlDocument();
            doc.LoadHtml(htmlContent);

            // 使用XPath查询找到<title>元素并获取其InnerText
            var titleNode = doc.DocumentNode.SelectSingleNode("//title");
            if (titleNode != null)
            {
                string title = titleNode.InnerText;
                Console.WriteLine("网页标题: " + title);
            }
            else
            {
                Console.WriteLine("未找到<title>标签。");
            }
        }
        catch (HttpRequestException e)
        {
            Console.WriteLine("\nException Caught!");
            Console.WriteLine("Message :{0} ", e.Message);
        }
    }
}

在这个示例中,我们使用了HtmlAgilityPack库来加载HTML内容,并使用XPath查询来定位<title>标签。这种方法通常比使用正则表达式更加稳定和可靠。在使用HtmlAgilityPack之前,你需要通过NuGet安装它:

bashInstall-Package HtmlAgilityPack

或者,如果你使用.NET Core CLI,可以运行:

喽大家好,我是胖达。本期视频来看看路径相关的内容。我们知道在网页中存在很多的图片,如果把这些图片和html文档放在一起,这样不光不美观,管理起来也非常不方便。通常会新建一个专门用来管理图像资源的文件夹,当需要查找图像的时候就会选择使用路径的方式来指定图像文件的位置。

路径的类型又分为两种,第一种是相对路径,第二种是绝对路径。今天先来了解一下相对路径。相对路径是相对于当前文件的位置来表示资源,也就是图片位置的路径表达方式。简单来说就是图片相对于当前html文档的位置。这里把相对路径的分类给大家列出来了,一个一个往下看。

·首先是同级路径。同级路径不需要在html里面写任何符号,只需要将文件名写到html属性里就可以了。在代码里看一下,这里有一个image,点jpg的图片和html文档处于同一级,所以在html的属性里直接写image,点jpg保存一下看看效果。

可以看到现在图片是正常展示的,同级路径下只需要在html属性里完整填写图像文件的名称就可以了。

·再来看第二个下级路径。当图像文件位于html文件下一集时,需要在html属性里完整填写同级文件夹的名称,然后斜杠写出对应图片文件的名称。

→首先打开资源文件夹,在这里新增一个images的文件夹。将image图片文件复制一份放到images文件夹里。

→打开vscode,新建一个gtml文档,这里新增一个image标签。

→在左侧资源管理器中刚刚新增的images文件夹已经显示出来了,打开以后会发现里面有一个image,点jpg的图片。把这个路径写一下,在src属性里面写入位于当前html文件同级的images文件夹的名称,使用符号斜杠找到image,点gpg,看一下效果。此时图片也完整显示出来了。

→如果在amager四文件夹里还有一个amager四文件夹,下级路径又该怎么写?在amager文件夹里再新建一个文件夹,打开vscod,在左侧的资源管理器中a major s文件夹下面又新增了一个a major s文件夹,在这里面又放了一张图片。

这张图片应该怎样让它展示出来?一起来看一下。

→首先找到同级的images文件夹,使用符号斜杠,此时vscode会提供给两个选项,一个是imagers文件夹,另一个是imager.gpg。选择imagers,imagers文件夹里面的imager.gpg的文件了,保存一下看看效果。

在浏览器中这两张图片都完美的展现出来了。

最后来看一下相对路径里面的。上级路径使用的符号是点点杠。上级路径又应该怎么理解?也就是图像文件是位于当前这个 hd ml文件的上一集。

在练习文件夹里新增一个名为 hd ml的文件夹,打开vs code,选择刚刚新增的文件夹,选择新建文件,这里需要新增一个 hd ml文档。在当前 hd ml文档中,如果想要调用上一级的 image 点 j p g 的图片应该怎么做?在 sr c 属性里面使用点点杠。

这里 vs code提供了上一集路径中存在的文件,选择 image 点 j p g,在浏览器中看下效果,此时图片也是正常显示的。如果hd ml文件藏得更深一些,把当前的文件复制一份,新增一个hd ml文件夹,将复制的文档粘贴一下,打开刚刚复制的文档,修改sr c属性里面的值,使用点点杠。

此时是没有找到 amage 点 j p g 的文件,这个时候就需要重复刚刚的操作,点点杠就能找到需要到的 amage 点 jbg 的文件了,保存一下看看效果。这里可以看到图片还是正常显示出来了。

本期视频主要了解了相对路径的三种分类,一个是同级路径,一个是下级路径,还有一个是上级路径。希望小伙伴们下来可以好好练习一下,这对于后期的内容非常重要。下期再来聊聊绝对路径。本期的内容到此结束,感谢观看,下期再见。



敬的用户,您是否曾经因为需要给大量的HTML文本添加同样的内容而感到苦恼?让我们介绍一款高效的批量处理工具,为你解决这个问题!这个工具能够快速地给html文本批量添加所需内容,让您不再因苦于手工操作,大幅提升工作效率。

首先,在首助编辑高手的主页面板块栏里,选择“文本批量处理”板块。

第二步,进入板块栏里,我们要点击上方功能栏里的“添加文件”即可

第三步,在弹出来的文件夹里,将您要添加内容的HTML文件进行导入进去

第四步,然后在下方的功能栏里,选择“添加内容”功能即可。

第五步,选择完毕之后,我们就要在下方的内容栏里将要输入的内容进行一一导入进行,即可

第六步,都设置完毕之后,我们就可以点击批量添加内容,等上方的状态栏显示添加成功,我们就可以打开文件进行查看,发现我们的内容已经添加完毕了