上一页 1 2 3 4 5 6 ··· 12 下一页
摘要: 因为Spark与Hadoop是关联的,所以在安装Spark前应该根据已安装的Hadoop版本来选择待安装的Sqark版本,要不然就会报“Server IPC version X cannot communicate with client version Y”的错误。 我安装的Hadoop版本为Ha... 阅读全文
posted @ 2015-07-18 20:45 tinylcy 阅读(523) 评论(0) 推荐(0) 编辑
摘要: 在执行Hadoop命令的时候会出现这样的警告:解决办法:在profile文件中添加:export JAVA_LIBRARY_PATH=${HADOOP_HOME}/lib/native这是在调用Hadoop里的库。具体可以参考www.cnblogs.com/gpcuster/archive/2011... 阅读全文
posted @ 2015-07-18 13:49 tinylcy 阅读(469) 评论(0) 推荐(0) 编辑
摘要: 昨天需要将Excel中的内容读取至MySQL中,我利用POI来实现这一需求,POI可以从这里下载。同时,如果要操作Excel2007,必须还要加入xmlbeans-2.3.0.jar。这是我要读取的Excel表的内容:注意表中数据存在日期、空格。定义一个Project类:package readex... 阅读全文
posted @ 2015-07-17 13:55 tinylcy 阅读(691) 评论(0) 推荐(0) 编辑
摘要: 可以在Hadoop作业中插桩计数器来分析其整体运作。在程序中定义不同的计数器,分别累计特定事件的发生次数。对于来自同一个作业所有任务的相同计数器,Hadoop会自动对它们进行求和, 以反映整个作业的情况。这些计数器的数值会在JobTracker的Web用户界面中与Hadoop的内部计数器一起显示... 阅读全文
posted @ 2015-07-15 18:06 tinylcy 阅读(816) 评论(0) 推荐(0) 编辑
摘要: 毕设做到后半部分,需要实现将用户在一段时间(比如1天)内产生的新数据导入HDFS的功能,这样数据仓库中的数据才能和数据库中的数据同步,以及将新产生的推荐结果重新写回数据库,这样的话就与实际应用一致了在新建了一个PyDev项目后,需要如下操作(拣最主要的写):模块的环境变量:# -*- coding:... 阅读全文
posted @ 2015-04-26 14:55 tinylcy 阅读(560) 评论(0) 推荐(0) 编辑
摘要: 在用Mahout做推荐引擎,用到数据库连接池,在eclipse下,遇到配置问题,其实很简单,但花了不少时间,做个笔记配置连接池将以下内容保存(相应位置做相应修改)为context.xml(自己新建),放在web项目下的META-INF文件夹下: name 指定Resource的JND... 阅读全文
posted @ 2015-04-20 11:54 tinylcy 阅读(822) 评论(0) 推荐(0) 编辑
摘要: 目的:向MySql数据库导入.txt文件,通过load命令来实现输入如下命令,报错:修改命令,依旧报错:可能原因(from mysql reference manual): If LOAD DATA LOCALis disabled, either in the server or the clie... 阅读全文
posted @ 2015-04-06 15:56 tinylcy 阅读(5552) 评论(0) 推荐(0) 编辑
摘要: 刚才遇到一个问题:从本地文件系统上传一个文件夹至HDFS作为Hadoop程序的输入数据,但是程序报错,原因是Ubuntu针对每个.txt文件生成了.txt~备份文件,所以我要把这些备份文件批量删除然后再上传进入文件夹所在目录,然后执行命令:hadoop@myUbuntu:/usr/local/had... 阅读全文
posted @ 2015-04-01 11:42 tinylcy 阅读(3640) 评论(0) 推荐(0) 编辑
摘要: 写Hadoop程序的时候在Mapper里遇到这个需求,上网查了下,做个记录:public static class MapClass extends MapReduceBase implements Mapper { @Override public... 阅读全文
posted @ 2015-04-01 10:28 tinylcy 阅读(521) 评论(0) 推荐(0) 编辑
摘要: Mahout是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。 Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。下载Maho... 阅读全文
posted @ 2015-03-29 16:28 tinylcy 阅读(250) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 12 下一页