HtmlAgilityPack获取#开头节点的XPath
获取文档的XPath,有些文字元素没有包含在节点里面,
比如
用HtmlAgilityPack获取的XPath如下:
/html[1]/body[1]/div[1]/div[2]/div[1]/div[2]/div[1]/div[4]/article[1]/section[1]/div[1]/p[1]/#text[1]
但是用doc.DocumentNode.SelectSingleNode(xpath);获取就会报错;
xpath改成这样就可以了
/html[1]/body[1]/div[1]/div[2]/div[1]/div[2]/div[1]/div[4]/article[1]/section[1]/div[1]/p[1]/text()[1]
写个方法转换一下:
public static string rexpt(string p) { var resxpath = p; if (Regex.IsMatch(p, @"/#[a-z]+(\[\d+\])?$")) { var end = Regex.Match(p, @"/#[a-z]+(\[\d+\])?$").Value; var rep = Regex.Match(end, @"[a-z]+").Value + "()" + Regex.Match(end, @"\[\d+\]").Value; resxpath = Regex.Replace(resxpath, @"/#[a-z]+(\[\d+\])?$", "/" + rep); } return resxpath; }
分类:
技术
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异