04 2016 档案
摘要:http://www.oschina.net/news/59287/apache-nutch-2-3 Apache Nutch v2.3已经发布了,建议所有使用2.X系列的用户和开发人员升级到这个版本。这个版本提供了一个基于Apache Wicket的Web管理界面,解决了143个问题,提供了Mav
阅读全文
摘要:http://www.cnblogs.com/xgcblog/archive/2011/08/10/2133974.html {"当 IDENTITY_INSERT 设置为 OFF 时,不能向表 'OrderList' 中的标识列插入显式值"} 对于这个异常可以从两个角度来处理:A:数据库执行语句
阅读全文
摘要:http://www.cnblogs.com/Leo_wl/p/3533749.html 对正则表达式很头疼,是不是?每次看到都觉得像看天书似的,别说让人自己整一个出来了。下面这个网站可以帮你生成正则表达式,而且还可以根据不同的语言生成不同的代码示例,很强大。 http://www.txt2re.c
阅读全文
摘要:http://www.cnblogs.com/zjfree/archive/2011/03/10/1980325.html C#获取指定网页HTML原代码可使用 WebClient WebRequest HttpWebRequest 三种方式来实现。 当然也可使用webBrowse!在此就不研究we
阅读全文
摘要:http://www.jb51.net/article/9499.htm 通过程序自动的读取其它网站网页显示的信息,类似于爬虫程序。比方说我们有一个系统,要提取BaiDu网站上歌曲搜索排名。分析系统在根据得到的数据进行数据分析。为业务提供参考数据。 为了完成以上的需求,我们就需要模拟浏览器浏览网页,
阅读全文
摘要:http://www.cnblogs.com/wxxian001/archive/2011/09/07/2169519.html 刚刚完成一个简单的网络爬虫,因为在做的时候在网上像无头苍蝇一样找资料。发现了很多的资料,不过真正能达到我需要,有用的资料--代码很难找。所以我想发这篇文章让一些要做这个功
阅读全文
摘要:http://blog.csdn.net/yaoxtao/article/details/50540485 优秀大数据GitHub项目一览 VMware CEO Pat Gelsinger曾说: 数据科学是未来,大数据分析则是打开未来之门的钥匙 企业正在迅速用新技术武装自己以便从大数据项目中获益。各
阅读全文
摘要:http://www.dataguru.cn/thread-260221-1-1.html 今天看了很多帖子,对气象数据集的数据下载都不是很清晰,我特地整理了一个。 老师提供的ftp://ftp3.ncdc.noaa.gov/pub/data/noaa已经转到ftp://ftp.ncdc.noaa.
阅读全文
摘要:http://www.sinxin.com.cn/offer/1163953885.html 一个完善的食品安全追溯系统应该至少包含以下四个部分,即标志系统、数据存储系统、数据采集和传递系统、信息查询系统。目前,各国应用了以下技术对农产品进行标志:条形码技术、RFID 技术、DNA 识别技术以及虹膜
阅读全文
摘要:http://www.micmiu.com/opensource/nutch/nutch2x-crawl-first-website/?utm_source=tuicool&utm_medium=referral 下面演示的过程是基于目前 Nutch 2.2.1 自己编译配置的版本。 在编译后 bi
阅读全文
摘要:http://blog.csdn.net/jimanyu/article/details/5619949 一:配置Nutch: 1、解压缩的nutch后,以抓取http://www.163.com/为例, 新建一个文件urls,在文件中输入http://www.163.com/保存,这个文件可以放在
阅读全文