随笔分类 -  信息采集

摘要:目录:信息采集入门系列目录下面记录的是我自己整理的C#请求页面核心类,主要有如下几个方法1.HttpWebRequest Get请求获得页面html2.HttpWebRequestPost请求获得页面html3.模拟登录获得cookie内容4.模拟登录获得cookie字符串5.代理的设置6.利用we... 阅读全文
posted @ 2015-04-11 11:04 清风君 阅读(1944) 评论(5) 推荐(0) 编辑
摘要:已经做搜索一段时间了,觉得有必要记录下来,不然就没有沉淀了,这个系列准备一直延续下去,后面也会有越来越多高深点的东西等着去学习。目前准备有这些内容,后面会慢慢的添加入门篇1.C#获取网页信息核心方法(入门系列一)2.页面解析和内容提取3.SOLR的增删改查4.Nutch爬虫的使用5.自己开发的一... 阅读全文
posted @ 2015-04-11 10:57 清风君 阅读(392) 评论(0) 推荐(0) 编辑
摘要:利用C#自己读取RSS,并利用solr进行索引,并分享一下近期solr使用的一些经验。 阅读全文
posted @ 2014-11-27 20:53 清风君 阅读(1675) 评论(4) 推荐(0) 编辑
摘要:题记:一步一坑,且行且珍惜 最近接到任务,要利用nutch去抓取公司内部系统的文章,可是需要登录才能抓到。对于一个做.net,不熟悉java,不知道hadoop,很少接触linux的我,这个过程真是艰难且痛苦的,盲人摸象搬的折腾出来了,但是我对hadoop还是没了解。这个东西在网上真的很难查到... 阅读全文
posted @ 2014-08-21 21:21 清风君 阅读(2888) 评论(0) 推荐(0) 编辑