上一页 1 2 3 4 5 6 7 8 9 ··· 21 下一页
摘要: filter是一个transformation 类的算子:过滤符合条件的记录数,true保留,false过滤掉。 查看idea提示:输入和数据有关系,本次输入的是一个元组(String,Int),输出是一个Boolean类型的变量 需求:就元组的第一个字符包含"Caused"的过滤输出 方式一: v 阅读全文
posted @ 2020-12-31 13:50 bioamin 阅读(516) 评论(0) 推荐(0) 编辑
摘要: foreach 是一个action算子,不会触发shuffle 读取数据后,查看idea提示,foreach算子要求输入一个函数,这个函数的输入和数据相关(本次是String类型的变量),返回值为空。 需求:读取数据,利用foreach算子,输入一个函数,输出时在每个数据的首部加一个字符串head。 阅读全文
posted @ 2020-12-31 11:43 bioamin 阅读(1460) 评论(0) 推荐(0) 编辑
摘要: import scala.io.Source val data:String=args(0) Source.fromFile(data).foreach{print} 完整代码如下: package com.cslc import scala.io.Source object Day01 { def 阅读全文
posted @ 2020-12-31 11:00 bioamin 阅读(202) 评论(0) 推荐(0) 编辑
摘要: kylin构建报错,日志如下: java.lang.RuntimeException: cannot get HiveTableMeta at org.apache.kylin.source.hive.HiveTable.<init>(HiveTable.java:50) at org.apache 阅读全文
posted @ 2020-12-30 19:17 bioamin 阅读(718) 评论(0) 推荐(0) 编辑
摘要: 一、为什么要做数据质量: 在大数据ETL过程中,如何保障数据质量,减少用户投诉?做数据质量! 二、什么时候做数据质量: 数据发生跨平台转移,包括但不限于:1、ftp数据到hive;2、oracle数据到hive;3、mysql数据到hive;4、hive到click house; 三、常见的错误类型 阅读全文
posted @ 2020-12-30 17:08 bioamin 阅读(615) 评论(0) 推荐(0) 编辑
摘要: spark的groupByKey算子结果按key进行分组,生成了一组CompactBuffer结构的数据。CompactBuffer并不是scala里定义的数据结构,而是spark里的数据结构,它继承自一个迭代器和序列,所以它的返回值是一个很容易进行循环遍历的集合 val spark = Spark 阅读全文
posted @ 2020-12-29 13:32 bioamin 阅读(817) 评论(0) 推荐(0) 编辑
摘要: 环境 : cdh5.15 parcels部署 登陆对应节点,查看对应的日志 tail -10000f /var/run/cloudera-scm-agent/process/ccdeploy_hadoop-conf_etchadoopconf.cloudera.hdfs_62604495017836 阅读全文
posted @ 2020-12-09 11:50 bioamin 阅读(1012) 评论(0) 推荐(0) 编辑
摘要: 其实只需要进行下面几步就能把本地项目上传到Github 1、在本地创建一个版本库(即文件夹),通过git init把它变成Git仓库; 2、把项目复制到这个文件夹里面,再通过git add .把项目添加到仓库; 3、再通过git commit -m "注释内容"把项目提交到仓库; 4、在Github 阅读全文
posted @ 2020-10-28 17:03 bioamin 阅读(53) 评论(0) 推荐(0) 编辑
摘要: function if_query_date_true(){ if echo $1 | grep -Eq "[0-9]{4}-[0-9]{2}-[0-9]{2}" && date -d $1 +%Y%m%d > /dev/null 2>&1 ; then echo "success"; else e 阅读全文
posted @ 2020-09-02 10:40 bioamin 阅读(1171) 评论(0) 推荐(0) 编辑
摘要: 方法1: 用root以ssh登录到linux,打开终端输入以下命令: cd $ORACLE_HOME #进入到oracle的安装目录 dbstart #重启服务器 lsnrctl start #重启监听器 cd $ORACLE_HOME #进入到oracle的安装目录 dbstart #重启服务器 阅读全文
posted @ 2020-08-19 15:05 bioamin 阅读(5024) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 21 下一页