鲍礼彬

深度学习、机器学习、Hadoop、Spark

博客园 首页 新随笔 联系 订阅 管理

2014年10月4日 #

摘要: Mahout简介一、mahout是什么Apache Mahout是ApacheSoftware Foundation (ASF)旗下的一个开源项目,提供了一些经典的机器学习的算法,皆在帮助开发人员更加方便快捷地创建智能应用程序。目前已经有了三个公共发型版本,通过ApacheMahout库,Mahou... 阅读全文
posted @ 2014-10-04 10:35 鲍礼彬 阅读(610) 评论(0) 推荐(0) 编辑

2014年10月3日 #

摘要: Hive简介1、hive基本概念hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的Map... 阅读全文
posted @ 2014-10-03 11:12 鲍礼彬 阅读(431) 评论(0) 推荐(0) 编辑

摘要: Nutch1.2的安装与使用1、nutch1.2下载 下载地址 http://archive.apache.org/dist/nutch/2、nutch1.2目录bin:用于命令行运行的文件;conf:Nutch的配置文件;lib:一些运行所需要的jar文件;plugins:存放相应的插件;src:... 阅读全文
posted @ 2014-10-03 11:11 鲍礼彬 阅读(512) 评论(0) 推荐(0) 编辑

摘要: 人物介绍姓名:DougCutting个人名望:开发出开源全文检索引擎工具包Lucene。个人简介/主要荣誉:除了 Lucene,还开发了著名的网络爬虫工具 Nutch,分布式系统基础架构Hadoop,这些大师级作品都是开源的。目前任职 Apache 软件基金会主席。网络上对 Doug Cutting... 阅读全文
posted @ 2014-10-03 11:10 鲍礼彬 阅读(264) 评论(0) 推荐(0) 编辑

摘要: hadoop一代集群运行代码案例集群 一个 master,两个slave,IP分别是192.168.1.2、192.168.1.3、192.168.1.4 hadoop版本是1.2.1一、启动hadoop 进入hadoop的bin目录二、建立数据文件,并上传至hdfs1、 在文件目录为/home/h... 阅读全文
posted @ 2014-10-03 07:38 鲍礼彬 阅读(541) 评论(0) 推荐(0) 编辑

摘要: Hadoop-1.2.1伪分布下 hive-0.10.0内嵌模式安装1、下载hive-0.10.0 网址是:http://archive.apache.org/dist/hive/hive-0.10.0/ 下载的安装包为:hive-0.10.0.tar.gz 2012-12-18 23:21 35M... 阅读全文
posted @ 2014-10-03 07:36 鲍礼彬 阅读(388) 评论(0) 推荐(0) 编辑

摘要: 数据挖掘简介一、什么是数据挖掘虽然有些数据挖掘技术非常新颖,但是数据挖掘本身并非一项新的技术:自从第一台计算机发明以来,人们就一直在计算机上分析数据,而且在此之前的数个世纪里,人们一直在没有计算机的情况下分析数据。多年来,数据挖掘有许多不同的名称,诸如知识发现、商业智能、预测建模及预测分析等等。数据... 阅读全文
posted @ 2014-10-03 07:32 鲍礼彬 阅读(552) 评论(0) 推荐(0) 编辑

2014年9月19日 #

摘要: nutch相关目录说明 阅读全文
posted @ 2014-09-19 19:26 鲍礼彬 阅读(141) 评论(0) 推荐(0) 编辑

2014年9月18日 #

摘要: 马士兵 spring 视频笔记 阅读全文
posted @ 2014-09-18 20:10 鲍礼彬 阅读(467) 评论(0) 推荐(0) 编辑

2014年9月17日 #

摘要: 马士兵hibernate(原始笔记) 阅读全文
posted @ 2014-09-17 23:17 鲍礼彬 阅读(209) 评论(0) 推荐(0) 编辑