c# 抓取 js动态生成的HTML的工具:NHtmlUnit
(此博客文章纯属个人记录,转载请注明出处!)
官方地址:NHtmlUnit
编译获取dll方法:
1.下载nuget.exe (nuget所在网站:http://www.nuget.org/)
2.打开DOS命令对话框,
进入nuget.exe文件所在目录(我的exe文件放在桌面)
3.运行命令安装NHtmlUnit,安装后会在当前目录创建两个文件夹,一个是安装所需环境IKVM,另一个就是需要的NHtmlUnit文件夹,里面的lib目录下面有生成的dll
运行命令:nuget install NHtmlUnit
3.使用方法可以去HtmlUnit的官方网站阅读文档,或在博客园搜索教程,与JAVA的HtmlUnit的用法是一样的,NHtmlUnit只是
在HtmlUnit上加了个壳使.net可以调用JAVA而已。
实例代码(引用dll:HtmlUnit,NHtmlUnit,为了偷懒,我把所有IKVM的dll都引用了):
class Program { static void Main(string[] args) { WebClient client = new WebClient(); client.Options.JavaScriptEnabled = false; client.Options.CssEnabled = true; client.Options.ThrowExceptionOnScriptError = false; client.Options.Timeout = 5000; HtmlPage page = client.GetHtmlPage("http://www.baidu.com/#wd=11&rsv_spt=1&issp=1&rsv_bp=0&ie=utf-8&tn=baiduhome_pg&rsv_sug3=2&rsv_sug2=0&inputT=26"); Thread.Sleep(3000); string xml = page.AsXml(); HtmlDocument doc = new HtmlDocument();//忽略此类,这个类是其他DLL提供的,与NHtmlUnit无关 doc.LoadHtml(xml); string nodeName = doc.GetElementbyId("container").Name; Console.WriteLine("\r\n\r\n\r\n\r\n" + nodeName + "\r\n\r\n\r\n\r\n" ); Console.Read(); } }
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· winform 绘制太阳,地球,月球 运作规律
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· AI 智能体引爆开源社区「GitHub 热点速览」