摘要:
1.Impala hadoop的sql平台、支持hbase/hdfs、支持超大数据、支持多并发、sql支持好、对内存依赖比较严重。需要自己优化,并且有的语句超过内存会报错。 2.Spark 各种格式、各种计算(机器学习、图形计算)、可sql、可代码处理、支持scala/java/python语言开发 阅读全文
摘要:
源代码: 排序结果: 阅读全文
摘要:
1. 现有某电商关于商品点击情况的数据文件,表名为goods_click,包含两个字段(商品分类,商品点击次数),分隔符“ ”,由于数据很大,所以为了方便统计我们只截取它的一部分数据,内容如下 52127 5 52120 93 52092 93 52132 38 52006 462 52109 28 阅读全文
摘要:
现有一个某电商网站的数据文件,名为buyer_favorite1,记录了用户收藏的商品以及收藏的日期,文件buyer_favorite1中包含(用户id,商品id,收藏日期)三个字段,数据内容以“\t”分割,由于数据很大,所以为了方便统计我们只截取它的一部分数据,内容如下: 买家id 商品id 收藏 阅读全文
摘要:
现有某电商网站用户对商品的收藏数据,记录了用户收藏的商品id以及收藏日期,名为buyer_favorite1。 buyer_favorite1包含:买家id,商品id,收藏日期这三个字段,数据以“\t”分割,样本数据及格式如下: 买家id 商品id 收藏日期 10181 1000481 2010-0 阅读全文
摘要:
用命令-put上传文件 报错0 datanode(s) running 原因是进行了多次格式化 解决办法: 停止集群 删除在hdfs中配置的data目录(即在core-site.xml中配置的hadoop.tmp.dir对应文件件)下面的所有数据; 重新格式化namenode(切换到hadoop目录 阅读全文
摘要:
1. 原因:hive版本过高。我用的是3.1.1最高版本,所以报此错。 阅读全文
摘要:
已安装eclipse,hadoop 查看教程dblab.xmu.edu.cn/blog/hadoop-build-project-using-eclipse/ 阅读全文
摘要:
去官网下载最新版本版本的linux版本的eclipse for ee,下载到Downloads文件夹。 解压文件夹 运行eclipse 设置eclipse的界面快捷方式 创建文件 在文件中输入: 然后在/usr/share/applications文件夹里出现图标: 将它拖到桌面上 给eclipse 阅读全文
摘要:
1.从官网下载jdk-8u191-linux-x64.tar.gz,然后放在ubuntu里的Downloads文件夹里。然后解压到/usr/lib/jvm文件夹中。 2.修改环境变量 修改jdk路径 3.设置系统默认jdk 版本 执行 成功: 阅读全文