在程序中使用TWebbrowser控件或者Indy中控件连接采用Ajax技术的网页,获得的网页源码中并不会有客户端更新的内容。在IE浏览器中的查看源文件同理也是看不到Ajax更新的内容。通过插件可以看到Ajax更新后的内容。问题是在程序中怎样来获得完整的网页内容?

如果有Ajax更新,Webbrowser的DocumentComplete事件也不会被触发。

其实完整的网页内容并不是不可以获得,使用一个简单的方法就可以:

function GetHtml(const WebBrowser:TWebBrowser): string;
var
  Doc: IHTMLDocument2;
begin
  Doc := WebBrowser.Document as IHTMLDocument2;
  if Assigned(Doc) and Assigned(Doc.body) then
    Result := Doc.body.OuterHtml; //也可以用innerHTML取得其HTML文本
end;

这样获得的HTML内容中就包含了Ajax更新的内容。

现在关键是没有好的办法来判断Ajax是否已更新完毕,由于采用的是异步更新,所以在判断上比较困难。上网搜索了一下,国外好像有比较复杂解决方案的,也没有研究过究竟可行否。

做过网页内容采集软件的,不知道有没有好的办法来处理,欢迎指教。  :-)

posted on 2009-12-09 13:21  garfieldtom  阅读(2432)  评论(2编辑  收藏  举报