html to pdf - 使用Wkhtmltopdf.exe - 实现,可导出需登录的页面
工作中一个比较常见的需求,要求将某个Url地址的内容转换为PDF文件,在网上查找无数文章后,发现目前最简单实用且效果很不错的就是采用Wkhtmltopdf.exe程序来转换。
安装此程序后,有二种方式使用(本人的环境是Windows7,vs2010,wkhtmltopdf.exe是windows32位):
1.在VS2010中,可以使用Nuget搜索安装Wkhtmltopdf插件到项目中,然后调用相应的方法,如下控制台程序代码:
1 static void Main(string[] args) 2 { 3 Console.InputEncoding = Encoding.UTF8; 4 5 PdfConvert.Environment.Debug = true; 6 PdfConvert.ConvertHtmlToPdf(new PdfDocument { Url = "http://www.codaxy.com" }, new PdfOutput 7 { 8 OutputFilePath = "c:\\pdf\\codaxy.pdf" 9 }); 10 PdfConvert.ConvertHtmlToPdf(new PdfDocument { Url = "-", Html = "<html><h1>test</h1></html>" }, new PdfOutput 11 { 12 OutputFilePath = "c:\\pdf\\inline.pdf" 13 }); 14 PdfConvert.ConvertHtmlToPdf(new PdfDocument { Url = "-", Html = "<html><h1>測試</h1></html>" }, new PdfOutput 15 { 16 OutputFilePath = "c:\\pdf\\inline_cht.pdf" 17 }); 18 }
注意OutputFilePath 如果不输入盘符,默认是生成在程序运行目录下;需注意OutputFilePath 的输出路径写入权限问题。
2.也可以编程执行Wkhtmltopdf.exe应用程序命令的方式来进行转换。如下代码(下面代码从http://www.cnblogs.com/shanyou/archive/2012/09/07/2676026.html转载):
1 //Button的Click事件(把Url的网页内容转成PDF) 2 protected void btn_execute_Click(object sender, EventArgs e) 3 { 4 5 //因为Web 是多线程环境,避免甲产生的文件被乙下载去,所以档名都用唯一 6 string fileNameWithOutExtention = Guid.NewGuid().ToString(); 7 8 //执行wkhtmltopdf.exe 9 Process p = System.Diagnostics.Process.Start(@"D:\wkhtmltopdf\wkhtmltopdf.exe", @"http://msdn.microsoft.com/zh-cn D:\" + fileNameWithOutExtention + ".pdf"); 10 11 //若不加这一行,程序就会马上执行下一句而抓不到文件发生意外:System.IO.FileNotFoundException: 找不到文件 ''。 12 p.WaitForExit(); 13 14 15 //把文件读进文件流 16 FileStream fs = new FileStream(@"D:\" + fileNameWithOutExtention + ".pdf", FileMode.Open); 17 byte[] file = new byte[fs.Length]; 18 fs.Read(file, 0, file.Length); 19 fs.Close(); 20 21 //Response给客户端下载 22 Response.Clear(); 23 Response.AddHeader("content-disposition", "attachment; filename=" + fileNameWithOutExtention + ".pdf");//强制下载 24 Response.ContentType = "application/octet-stream"; 25 Response.BinaryWrite(file); 26 }
如果需要导出的页面是需要Form认证才能访问,则需要传入登录所需的信息,以下是cmd.exe中的示例(命令说明见各行的注释):
1. C:\Program Files (x86)\wkhtmltopdf>wkhtmltopdf.exe
2. --post ctl00$txtLoginAccount xxxxx@163.com //--post 表示Post方式提交数据,ctl00$txtLoginAccount 为登录页面输入登录帐号的控件的name名称, xxxxx@163.com 为我输入的帐号
3. --post ctl00$txtLoginPassword 123123 //同代码行2,依次表示登录页面输入密码的控件name名称,我输入的密码
4. --post ctl00$ContentPlaceHolder1$LoginOrRegisterUCL1$txtval dag2 //同代码行2,依次表示登录页面输入验证码控件name名称,dag2 为我输入的4位的验证码,如果还需要其它的登录数据,按此方式传入即可
5. --ignore-load-errors //官方的说法是,有时候登录出错加上这个命令就可以通过。
6. "http://www.xxxx.com/web/MyJobs/ViewApplicantInfoPage.aspx?resumeId=170&jobid=2&type=1&applicati
onId=119&userId=46&retUrl=http%3a%2f%2flocalhost%3a52226%2fweb%2fMyJobs%2fMyJobs
MainPage.aspx" //要导出的需要form认证通过的页面。
7. c:\pdf\222.pdf //导出文件路径,注意c:\pdf这个文件夹需要有写入权限。
Loading pages (1/5)
Resolving links (2/5)
Counting pages (3/5)
Printing pages (5/5)
Done
如果需要在ASP.net页面中实现上述功能,见以下代码,代码来源于以下地址:http://stackoverflow.com/questions/7019603/wkhtmltopdf-and-forms-based-authentication
ProcessStartInfo psi = new ProcessStartInfo(); psi.FileName = "wkhtmltopdf.exe"; string cookieArgs = ""; var cookies = HttpContext.Current.Request.Cookies; if (cookies != null) { var sb = new System.Text.StringBuilder(); // you probably only need the ".ASPXFORMSAUTH" // and "ASP.NET_SessionId" cookies // but I pass everything just in case foreach (string key in cookies.AllKeys) { string value = cookies[key].Value; sb.AppendFormat("--cookie {0} {1} ", key, value); } cookieArgs = sb.ToString(); } psi.Arguments = urlToPrint + " -q " + cookieArgs + " -"; Process.Start(psi);
Wkhtmltopdf相关资料(我的网盘):http://pan.baidu.com/s/1gdeJloJ
--------------------------------------------------
-猫不在口袋里不要谈猫.