tinylcy

2015年7月18日

摘要：因为Spark与Hadoop是关联的，所以在安装Spark前应该根据已安装的Hadoop版本来选择待安装的Sqark版本，要不然就会报“Server IPC version X cannot communicate with client version Y”的错误。我安装的Hadoop版本为Ha... 阅读全文

posted @ 2015-07-18 20:45 tinylcy 阅读(540) 评论(0) 推荐(0)

WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform...解决办法

摘要：在执行Hadoop命令的时候会出现这样的警告：解决办法：在profile文件中添加：export JAVA_LIBRARY_PATH=${HADOOP_HOME}/lib/native这是在调用Hadoop里的库。具体可以参考www.cnblogs.com/gpcuster/archive/2011... 阅读全文

posted @ 2015-07-18 13:49 tinylcy 阅读(482) 评论(0) 推荐(0)

2015年7月17日

利用POI读取Excel文件并写入MySQL

摘要：昨天需要将Excel中的内容读取至MySQL中，我利用POI来实现这一需求，POI可以从这里下载。同时，如果要操作Excel2007，必须还要加入xmlbeans-2.3.0.jar。这是我要读取的Excel表的内容：注意表中数据存在日期、空格。定义一个Project类：package readex... 阅读全文

posted @ 2015-07-17 13:55 tinylcy 阅读(711) 评论(0) 推荐(0)

2015年7月15日

Hadoop生产集群的监视——计数器

摘要：可以在Hadoop作业中插桩计数器来分析其整体运作。在程序中定义不同的计数器，分别累计特定事件的发生次数。对于来自同一个作业所有任务的相同计数器，Hadoop会自动对它们进行求和，以反映整个作业的情况。这些计数器的数值会在JobTracker的Web用户界面中与Hadoop的内部计数器一起显示... 阅读全文

posted @ 2015-07-15 18:06 tinylcy 阅读(836) 评论(0) 推荐(0)

2015年4月26日

推荐引擎数据导入导出模块的实现

摘要：毕设做到后半部分，需要实现将用户在一段时间(比如1天)内产生的新数据导入HDFS的功能，这样数据仓库中的数据才能和数据库中的数据同步，以及将新产生的推荐结果重新写回数据库，这样的话就与实际应用一致了在新建了一个PyDev项目后，需要如下操作(拣最主要的写)：模块的环境变量：# -*- coding:... 阅读全文

posted @ 2015-04-26 14:55 tinylcy 阅读(576) 评论(0) 推荐(0)

2015年4月20日

Tomcat7配置DataSource数据源

摘要：在用Mahout做推荐引擎，用到数据库连接池，在eclipse下，遇到配置问题，其实很简单，但花了不少时间，做个笔记配置连接池将以下内容保存(相应位置做相应修改)为context.xml(自己新建)，放在web项目下的META-INF文件夹下： name 指定Resource的JND... 阅读全文

posted @ 2015-04-20 11:54 tinylcy 阅读(830) 评论(0) 推荐(0)

2015年4月6日

MySQL ERROR : The used command is not allowed with this MySQL version 解决办法

摘要：目的：向MySql数据库导入.txt文件，通过load命令来实现输入如下命令，报错：修改命令，依旧报错：可能原因（from mysql reference manual）： If LOAD DATA LOCALis disabled, either in the server or the clie... 阅读全文

posted @ 2015-04-06 15:56 tinylcy 阅读(5616) 评论(0) 推荐(0)

2015年4月1日

Linux批量删除指定后缀的文件

摘要：刚才遇到一个问题：从本地文件系统上传一个文件夹至HDFS作为Hadoop程序的输入数据，但是程序报错，原因是Ubuntu针对每个.txt文件生成了.txt~备份文件，所以我要把这些备份文件批量删除然后再上传进入文件夹所在目录，然后执行命令：hadoop@myUbuntu:/usr/local/had... 阅读全文

posted @ 2015-04-01 11:42 tinylcy 阅读(3666) 评论(0) 推荐(0)

Hadoop 获取Input File的文件名

摘要：写Hadoop程序的时候在Mapper里遇到这个需求，上网查了下，做个记录：public static class MapClass extends MapReduceBase implements Mapper { @Override public... 阅读全文

posted @ 2015-04-01 10:28 tinylcy 阅读(539) 评论(0) 推荐(0)

2015年3月29日

Mahout的安装与配置

摘要： Mahout是一个很强大的数据挖掘工具，是一个分布式机器学习算法的集合，包括：被称为Taste的分布式协同过滤的实现、分类、聚类等。 Mahout最大的优点就是基于hadoop实现，把很多以前运行于单机上的算法，转化为了MapReduce模式，这样大大提升了算法可处理的数据量和处理性能。下载Maho... 阅读全文

posted @ 2015-03-29 16:28 tinylcy 阅读(266) 评论(0) 推荐(0)

公告