我是一个粉刷匠^~^

2019年1月20日

摘要： 1.Impala hadoop的sql平台、支持hbase/hdfs、支持超大数据、支持多并发、sql支持好、对内存依赖比较严重。需要自己优化，并且有的语句超过内存会报错。 2.Spark 各种格式、各种计算（机器学习、图形计算）、可sql、可代码处理、支持scala/java/python语言开发阅读全文

posted @ 2019-01-20 10:19 我是一个粉刷匠^~^ 阅读(189) 评论(0) 推荐(0)

2018年11月18日

mapreduce排序

摘要：源代码：排序结果：阅读全文

posted @ 2018-11-18 17:03 我是一个粉刷匠^~^ 阅读(226) 评论(0) 推荐(0)

mapreduce求平均数

摘要： 1. 现有某电商关于商品点击情况的数据文件，表名为goods_click，包含两个字段（商品分类，商品点击次数），分隔符“ ”，由于数据很大，所以为了方便统计我们只截取它的一部分数据，内容如下 52127 5 52120 93 52092 93 52132 38 52006 462 52109 28 阅读全文

posted @ 2018-11-18 15:51 我是一个粉刷匠^~^ 阅读(1033) 评论(0) 推荐(0)

mapreduce去重

摘要：现有一个某电商网站的数据文件，名为buyer_favorite1，记录了用户收藏的商品以及收藏的日期，文件buyer_favorite1中包含（用户id，商品id，收藏日期）三个字段，数据内容以“\t”分割，由于数据很大，所以为了方便统计我们只截取它的一部分数据，内容如下：买家id 商品id 收藏阅读全文

posted @ 2018-11-18 15:40 我是一个粉刷匠^~^ 阅读(422) 评论(0) 推荐(0)

mapreduce统计总数

摘要：现有某电商网站用户对商品的收藏数据，记录了用户收藏的商品id以及收藏日期，名为buyer_favorite1。 buyer_favorite1包含：买家id，商品id，收藏日期这三个字段，数据以“\t”分割，样本数据及格式如下：买家id 商品id 收藏日期 10181 1000481 2010-0 阅读全文

posted @ 2018-11-18 15:33 我是一个粉刷匠^~^ 阅读(2372) 评论(0) 推荐(1)

2018年11月8日

hadoop用put上传文件时报错

摘要：用命令-put上传文件报错0 datanode(s) running 原因是进行了多次格式化解决办法：停止集群删除在hdfs中配置的data目录（即在core-site.xml中配置的hadoop.tmp.dir对应文件件）下面的所有数据; 重新格式化namenode(切换到hadoop目录阅读全文

posted @ 2018-11-08 22:10 我是一个粉刷匠^~^ 阅读(1201) 评论(0) 推荐(0)

2018年11月3日

使用hive数据仓库中遇到的问题

摘要： 1. 原因：hive版本过高。我用的是3.1.1最高版本，所以报此错。阅读全文

posted @ 2018-11-03 11:13 我是一个粉刷匠^~^ 阅读(446) 评论(0) 推荐(0)

2018年10月20日

配置MapReduce程序运行环境

摘要：已安装eclipse,hadoop 查看教程dblab.xmu.edu.cn/blog/hadoop-build-project-using-eclipse/ 阅读全文

posted @ 2018-10-20 16:53 我是一个粉刷匠^~^ 阅读(324) 评论(0) 推荐(0)

安装eclipse for ee

摘要：去官网下载最新版本版本的linux版本的eclipse for ee,下载到Downloads文件夹。解压文件夹运行eclipse 设置eclipse的界面快捷方式创建文件在文件中输入：然后在/usr/share/applications文件夹里出现图标：将它拖到桌面上给eclipse 阅读全文

posted @ 2018-10-20 15:41 我是一个粉刷匠^~^ 阅读(601) 评论(0) 推荐(0)

更新jdk

摘要： 1.从官网下载jdk-8u191-linux-x64.tar.gz，然后放在ubuntu里的Downloads文件夹里。然后解压到/usr/lib/jvm文件夹中。 2.修改环境变量修改jdk路径 3.设置系统默认jdk 版本执行成功：阅读全文

posted @ 2018-10-20 00:20 我是一个粉刷匠^~^ 阅读(770) 评论(0) 推荐(0)

呵呵^~^

公告