翼度科技»论坛 编程开发 .net 查看内容

.net下功能强大的HTML解析库HtmlAgilityPack,数据抓取必备

7

主题

7

帖子

21

积分

新手上路

Rank: 1

积分
21
HtmlAgilityPack是一个.NET平台下的HTML解析库,它可以将HTML文本转换为DOM文档对象,方便我们对HTML文本进行操作和分析。HtmlAgilityPack支持XPath语法,可以通过XPath表达式来获取DOM节点,同时还提供了一些方便的API,可以实现HTML文本的解析、修改、生成等功能。本文将详细介绍HtmlAgilityPack的使用及使用方法。
一、HtmlAgilityPack的安装
HtmlAgilityPack是一个NuGet包,可以通过Visual Studio的NuGet包管理器来安装。具体步骤如下:

  • 打开Visual Studio,打开要安装HtmlAgilityPack的项目。
  • 在“解决方案资源管理器”中右键单击项目,选择“管理NuGet程序包”。
  • 在“NuGet程序包管理器”中搜索“HtmlAgilityPack”,选择“安装”。
  • 等待安装完成。
安装完成后,就可以在项目中使用HtmlAgilityPack了。
二、HtmlAgilityPack的使用

  • 加载HTML文本
使用HtmlAgilityPack解析HTML文本的第一步是将HTML文本加载到一个HtmlDocument对象中。可以通过以下代码来实现:
  1. HtmlDocument doc = new HtmlDocument();
  2. doc.LoadHtml(htmlText);
复制代码
其中,htmlText是要解析的HTML文本。LoadHtml方法会将HTML文本解析成一个DOM文档对象,并存储在doc对象中。

  • 获取DOM节点
HtmlAgilityPack提供了一些方法来获取DOM节点,例如GetElementById、GetElementsByTagName、SelectSingleNode、SelectNodes等。这些方法都接受一个XPath表达式作为参数,用来指定要获取的节点。以下是一些示例代码:
  1. // 获取id为"content"的节点
  2. HtmlNode contentNode = doc.GetElementById("content");
  3. // 获取所有的a标签
  4. HtmlNodeCollection aNodes = doc.DocumentNode.SelectNodes("//a");
  5. // 获取第一个p标签
  6. HtmlNode pNode = doc.DocumentNode.SelectSingleNode("//p");
复制代码
其中,XPath表达式的语法与XML的XPath语法相同。在这里不再详细介绍。

  • 修改DOM节点
HtmlAgilityPack提供了一些方法来修改DOM节点,例如SetAttributeValue、InnerHtml、OuterHtml等。以下是一些示例代码:
  1. // 修改id为"content"的节点的class属性
  2. contentNode.SetAttributeValue("class", "new-class");
  3. // 修改第一个p标签的内容
  4. pNode.InnerHtml = "这是新的内容";
  5. // 修改第一个a标签的href属性
  6. HtmlNode aNode = aNodes[0];
  7. aNode.SetAttributeValue("href", "http://www.example.com");
复制代码

  • 生成HTML文本
HtmlAgilityPack还可以将DOM文档对象转换为HTML文本。可以通过以下代码来实现:
  1. string newHtmlText = doc.DocumentNode.OuterHtml;
复制代码
其中,OuterHtml属性返回DOM文档对象的HTML文本表示。
三、HtmlAgilityPack的功能实例
下面将通过一些具体的实例来演示HtmlAgilityPack的使用方法。

  • 获取页面标题
以下代码演示了如何获取页面标题:
  1. HtmlDocument doc = new HtmlDocument();
  2. doc.LoadHtml(htmlText);HtmlNode titleNode = doc.DocumentNode.SelectSingleNode("//title");string title = titleNode.InnerHtml;
复制代码
其中,htmlText是要解析的HTML文本。首先,将HTML文本加载到一个HtmlDocument对象中。然后,通过XPath表达式“//title”获取页面标题节点。最后,通过InnerHtml属性获取标题的内容。

  • 获取页面中的所有图片
以下代码演示了如何获取页面中的所有图片:
  1. HtmlDocument doc = new HtmlDocument();
  2. doc.LoadHtml(htmlText);HtmlNodeCollection imgNodes = doc.DocumentNode.SelectNodes("//img");foreach (HtmlNode imgNode in imgNodes){    string src = imgNode.GetAttributeValue("src", "");    Console.WriteLine(src);}
复制代码
首先,将HTML文本加载到一个HtmlDocument对象中。然后,通过XPath表达式“//img”获取所有图片节点。最后,遍历所有图片节点,获取每个节点的src属性。

  • 获取页面中的所有链接
以下代码演示了如何获取页面中的所有链接:
  1. HtmlDocument doc = new HtmlDocument();
  2. doc.LoadHtml(htmlText);HtmlNodeCollection aNodes = doc.DocumentNode.SelectNodes("//a");foreach (HtmlNode aNode in aNodes){    string href = aNode.GetAttributeValue("href", "");    Console.WriteLine(href);}
复制代码
首先,将HTML文本加载到一个HtmlDocument对象中。然后,通过XPath表达式“//a”获取所有链接节点。最后,遍历所有链接节点,获取每个节点的href属性。

  • 修改页面中的所有链接
以下代码演示了如何将页面中的所有链接修改为指定的链接:
  1. HtmlDocument doc = new HtmlDocument();
  2. doc.LoadHtml(htmlText);HtmlNodeCollection aNodes = doc.DocumentNode.SelectNodes("//a");foreach (HtmlNode aNode in aNodes){    aNode.SetAttributeValue("href", "http://www.example.com");}string newHtmlText = doc.DocumentNode.OuterHtml;
复制代码
首先,将HTML文本加载到一个HtmlDocument对象中。然后,通过XPath表达式“//a”获取所有链接节点。最后,遍历所有链接节点,将它们的href属性修改为指定的链接。最后,通过OuterHtml属性将修改后的DOM文档对象转换为HTML文本。
本文介绍了HtmlAgilityPack的使用及使用方法。HtmlAgilityPack是一个功能强大、易用性高的HTML解析库,可以方便地对HTML文本进行操作和分析。通过本文的介绍,读者可以了解HtmlAgilityPack的基本用法,并可以根据需要自行扩展。
 


来源:https://www.cnblogs.com/hanbing81868164/archive/2023/11/27/17856515.html
免责声明:由于采集信息均来自互联网,如果侵犯了您的权益,请联系我们【E-Mail:cb@itdo.tech】 我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

举报 回复 使用道具