解决HtmlAgilityPack中文乱码
Html Agility Pack是用C#写的开源Html Parser。
在抓取163首页(http://www.163.com)代码如下:
不过有点问题是抓取的Code乱码了。
通过跟踪代码发现通过修改HtmlWeb.cs 中的第1466行(1.4.0.0版) 文件可以解决这个问题。
方法名为:
private HttpStatusCode Get(Uri uri, string method, string path, HtmlDocument doc, IWebProxy proxy, ICredentials creds)
原始实现源代码:
修改后的代码:
重新编译一下,就不会中文乱码了...