摘要: 一步一步教你抓数据——用.net精确提取网站数据的通用方法 [转]2008年02月23日 星期六 16:53具体实现思路:1 首先用WebClient类下载网页源码 public static string DownLoadHtml(string url) { string output = ""; Encoding encode = Encoding.Default; WebClient web... 阅读全文
posted @ 2008-08-14 15:44 叫什么好 阅读(909) 评论(0) 推荐(0) 编辑
摘要: 有时候,我们需要用到网上搜索的数据,可能这些数据并不在一个网站上。但是这些内容不能下载,也不提供web服务,这时候,我们会考虑解析HTML页面,并从中抽取我们感兴趣的数据。这个过程称作界面抓取。 基本思想是按顺序下载页面,然后循环解析HTML页面内容,发现和抽取我们需要的数据。然后存储在数据库中。这样,每次我们需要这些信息时,直接从数据库中读取。 书本上给出了SCrAPI和Hpricot 这2种和rails整合的抓取方式,缺C#方式实现的,还需要继续寻找 scrAPI 可以按照结构化形式选择和处理页面上元素,并可使用熟悉的DOM和Css结构。 阅读全文
posted @ 2008-08-14 15:36 叫什么好 阅读(1872) 评论(3) 推荐(0) 编辑
摘要: 使用Google Maps 内置的AjAX执行GXmlHttp 和 XmlHttpRequest对象,处于安全性方面的考虑,只能在地图服务所在的域中查询。 比如,地图位于http://example.com/webapp,则 GXmlHttp.request()方法只能查询位于http://example.com域内的数据,而不能查询如http://odz521.cnblogs.com 等其他域名下的数据。 阅读全文
posted @ 2008-08-14 11:03 叫什么好 阅读(813) 评论(0) 推荐(0) 编辑