文章分类 -  采集

摘要:上礼拜我在博客园发布了一篇关于网页数据分析和采集的文章,后来看过文章评论才知道原来现在已经有HtmlAgilityPack这个类库可以更方便地对HTML内容进行分析和提取。因此今天特别学习和实践了一下HtmlAgilityPack和XPath,并作下笔记。1.下载HtmlAgilityPack.dll并将其添加引用到项目中,然后在代码中声明引用。下载地址:http://www.codeplex.com/htmlagilitypack引用:using HtmlAgilityPack;2.下载获取HTML页面的步骤和我上篇文章里介绍的差不多,都是先用WebClient或者WebRequest类来下 阅读全文
posted @ 2013-04-06 15:34 冰封的心 阅读(237) 评论(0) 推荐(0) 编辑
摘要:今天回顾起来,小旋风垂直搜索平台从构思到现在,竞然差不多有两年的时间了。最初是基本C++的平台,还甚至自己在写类似于lucene的全文索引系统,也初见成果,后发现效果不稳定,效率与不及lucene,遂放弃,采用lucene内核。C++平台有一个最大的问题,就是对了个人或小团队而言,想做一个像样的界面效果太复杂。后转而学习C#,除了虚拟机的问题之外,个人认为C#对于小团队是个不二的选择。而个人相信不久的将来,微软会集成.net framework到操作系统中去的。(vista应该就已集成了,未考证~,知道的朋友告之一下~)为了记录开发过程的点点滴滴和心路历程,特开blog,一来记录开发过程遇到的 阅读全文
posted @ 2010-12-23 23:49 冰封的心 阅读(500) 评论(1) 推荐(0) 编辑
摘要:最近做东西遇到了ajax跨域(cross domain)访问的问题,最后采用了Application Proxies 方式解决,即在本域内放置一个代理文件(视本域支持的开发语言选定asp、asp.net或是其他),此代理文件将url参数(QueryString)发送到目标域对应页面获取html代码,然后输出。ajax直接访问这个代理文件以达到跨域的目的。基于asp.net的跨域访问代理文件c#代码... 阅读全文
posted @ 2009-06-29 19:49 冰封的心 阅读(380) 评论(0) 推荐(0) 编辑
摘要:最近在开发公司的OA系统,领导要求公司旗下所有网站的51拉统计数据能自动抓取到我们自己的数据库中,心想这种抓取统计数据的程序以前肯定有人写过,到百度搜了一下没有找到抓取51la的,于是乎自己动手。1、利用httpwatch找到网站入口及参数:(详情略,请百度httpwatch的使用方法)2、利用httpwebRequest将51拉查看密码Post到网站入口,登陆成功后再进入你想要进入的页面抓取页面... 阅读全文
posted @ 2009-06-29 19:45 冰封的心 阅读(257) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示