上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 19 下一页
摘要: 1.Impala hadoop的sql平台、支持hbase/hdfs、支持超大数据、支持多并发、sql支持好、对内存依赖比较严重。需要自己优化,并且有的语句超过内存会报错。 2.Spark 各种格式、各种计算(机器学习、图形计算)、可sql、可代码处理、支持scala/java/python语言开发 阅读全文
posted @ 2019-01-20 10:19 我是一个粉刷匠^~^ 阅读(178) 评论(0) 推荐(0) 编辑
摘要: 源代码: 排序结果: 阅读全文
posted @ 2018-11-18 17:03 我是一个粉刷匠^~^ 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 1. 现有某电商关于商品点击情况的数据文件,表名为goods_click,包含两个字段(商品分类,商品点击次数),分隔符“ ”,由于数据很大,所以为了方便统计我们只截取它的一部分数据,内容如下 52127 5 52120 93 52092 93 52132 38 52006 462 52109 28 阅读全文
posted @ 2018-11-18 15:51 我是一个粉刷匠^~^ 阅读(1013) 评论(0) 推荐(0) 编辑
摘要: 现有一个某电商网站的数据文件,名为buyer_favorite1,记录了用户收藏的商品以及收藏的日期,文件buyer_favorite1中包含(用户id,商品id,收藏日期)三个字段,数据内容以“\t”分割,由于数据很大,所以为了方便统计我们只截取它的一部分数据,内容如下: 买家id 商品id 收藏 阅读全文
posted @ 2018-11-18 15:40 我是一个粉刷匠^~^ 阅读(398) 评论(0) 推荐(0) 编辑
摘要: 现有某电商网站用户对商品的收藏数据,记录了用户收藏的商品id以及收藏日期,名为buyer_favorite1。 buyer_favorite1包含:买家id,商品id,收藏日期这三个字段,数据以“\t”分割,样本数据及格式如下: 买家id 商品id 收藏日期 10181 1000481 2010-0 阅读全文
posted @ 2018-11-18 15:33 我是一个粉刷匠^~^ 阅读(2342) 评论(0) 推荐(1) 编辑
摘要: 用命令-put上传文件 报错0 datanode(s) running 原因是进行了多次格式化 解决办法: 停止集群 删除在hdfs中配置的data目录(即在core-site.xml中配置的hadoop.tmp.dir对应文件件)下面的所有数据; 重新格式化namenode(切换到hadoop目录 阅读全文
posted @ 2018-11-08 22:10 我是一个粉刷匠^~^ 阅读(1166) 评论(0) 推荐(0) 编辑
摘要: 1. 原因:hive版本过高。我用的是3.1.1最高版本,所以报此错。 阅读全文
posted @ 2018-11-03 11:13 我是一个粉刷匠^~^ 阅读(437) 评论(0) 推荐(0) 编辑
摘要: 已安装eclipse,hadoop 查看教程dblab.xmu.edu.cn/blog/hadoop-build-project-using-eclipse/ 阅读全文
posted @ 2018-10-20 16:53 我是一个粉刷匠^~^ 阅读(319) 评论(0) 推荐(0) 编辑
摘要: 去官网下载最新版本版本的linux版本的eclipse for ee,下载到Downloads文件夹。 解压文件夹 运行eclipse 设置eclipse的界面快捷方式 创建文件 在文件中输入: 然后在/usr/share/applications文件夹里出现图标: 将它拖到桌面上 给eclipse 阅读全文
posted @ 2018-10-20 15:41 我是一个粉刷匠^~^ 阅读(588) 评论(0) 推荐(0) 编辑
摘要: 1.从官网下载jdk-8u191-linux-x64.tar.gz,然后放在ubuntu里的Downloads文件夹里。然后解压到/usr/lib/jvm文件夹中。 2.修改环境变量 修改jdk路径 3.设置系统默认jdk 版本 执行 成功: 阅读全文
posted @ 2018-10-20 00:20 我是一个粉刷匠^~^ 阅读(753) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 19 下一页