摘要:
1. 一般常用的有5种(textfile, sequencefile, rcfile, orc, parquet),默认的存储格式是textfile。 2. 5种存储格式的区别 存储格式文件存储编码格式建表指定 textfile 将表中的数据在hdfs上以正常文本的格式存储,下载后可以直接查看。 s 阅读全文
摘要:
当多个开发人员同时更改一个文件时,就有可能会遇到冲突。 1. 检测冲突 git fetch upstream之后,git merge upstream/master会检查是否存在冲突,如果存在,会提示哪些文件存在CONFLICT 2.解决冲突 打开冲突的文件,可能会有 或者>>>>>>>的行,删掉。 阅读全文
摘要:
一、fork远程仓库,将会在你的GitHub账号中创建一个副本 1. 找到你想要的github仓库,点击Fork按钮 2. 选择相应的Owner和想要clone的上游原始仓库的repo name, 点击Create fork 3. fork创建成功(大概几秒钟就好了) 二、fork仓库同步上游仓库 阅读全文
摘要:
一、新建项目前配置JDK 1.File-->Project Structure 2.SDKs-->点击+号,在弹出框选择JDK的安装路径。 二、新建项目配置JDK 1.File-->New-->Project 2.填写Name,Location, 选择Language对应的JDK即可。 三、项目切换 阅读全文
摘要:
1.IDEA clone远程仓库到本地, 复制远程仓库地址, 点击Code-->copy 2.创建一个版本控制项目 3. 将远程仓库地址粘贴到URL框中,Directory是本地仓库地址,点击clone。 4. 输入用户名和密码。密码是访问此github api的token, 需要登录github- 阅读全文
摘要:
We can change replica from 3 to 2 after the data is deprecated, to save storage. 1.在hadoop的hdfs中,查看文件或者目录的hdfs副本数量,可以使用如下命令 hdfs dfs -stat '%r' /path/ 阅读全文
摘要:
SELECT *FROM Table_NameWHERE (LAST_MODIFIED_DATE >= TO_DATE('${FROM_EXTRACT_VALUE}','YYYY-MM-DD HH24:MI:SS') AND LAST_MODIFIED_DATE < TO_DATE('${TO_EX 阅读全文
摘要:
在Spark中执行refresh table语句时,它会刷新表的元数据信息,使得Spark能够重新加载表的最新数据。通常情况下,你可以在以下情况下执行refresh table语句:1.在表的数据发生变化后,你希望Spark能够立即感知到这些变化并使用最新的数据。2.在表的元数据信息发生变化后,比如 阅读全文