HtmlAgilityPack获取#开头节点的XPath

获取文档的XPath,有些文字元素没有包含在节点里面,

比如

 

用HtmlAgilityPack获取的XPath如下:

  /html[1]/body[1]/div[1]/div[2]/div[1]/div[2]/div[1]/div[4]/article[1]/section[1]/div[1]/p[1]/#text[1]

但是用doc.DocumentNode.SelectSingleNode(xpath);获取就会报错;

xpath改成这样就可以了

  /html[1]/body[1]/div[1]/div[2]/div[1]/div[2]/div[1]/div[4]/article[1]/section[1]/div[1]/p[1]/text()[1]

写个方法转换一下:

复制代码
public static string rexpt(string p)
{
    var resxpath = p;
    if (Regex.IsMatch(p, @"/#[a-z]+(\[\d+\])?$"))
    {
        var end = Regex.Match(p, @"/#[a-z]+(\[\d+\])?$").Value;
        var rep = Regex.Match(end, @"[a-z]+").Value + "()" + Regex.Match(end, @"\[\d+\]").Value;
        resxpath = Regex.Replace(resxpath, @"/#[a-z]+(\[\d+\])?$", "/" + rep);
    }
    return resxpath;
}
复制代码

 

posted @   新*  阅读(106)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异

喜欢请打赏

扫描二维码打赏

支付宝打赏

点击右上角即可分享
微信分享提示