摘要:
EX. 业务原因: hbase 的 region 是将范围内的rowkey 放一起 但是如果某一段时期数据量大 , 就会造成region(分区) 数据的分布不均 , ,所以需要加盐 ,加哪里 ,放最前面 解释:我这里是1000个分区 有问题的地方: 我用 1-100连续的数, 去求hashcode( 阅读全文
摘要:
K:有什么用? 内存不足可以用. 1.上代码 我是1-10分为3个分区 , 并取出下标号为0 的分区的数据 ,然后Type ,要想获得自己想要的分区 , 执行 这里返回的是新 RDD , 并且支持 map等操作 , 但是你只能操作一个分区了 . 在某些内存不够用的情况下 , 可以采用这种分阶段操作的 阅读全文
摘要:
PX: 这些都是在scala环境下的 , 非Java Spark map 转化 1行转1行 , 但可以比如拆分 , 截取 阅读全文
摘要:
1.环境准备. 需要 python3.6 最好是安装anaconda 用anaconda navigator 安装这个 , 当然 , 纯 python环境下也能安装这个包 2. 插入hive 换个思路 , 直接插入到hive的表的仓库中 , 也就是hdfs上存储hive文件的地方 from hdfs 阅读全文
摘要:
1.查看Linux正在使用的网卡名称 . Shell 下面执行awk 'BEGIN {max = 0} {if ($2+0 > max+0) {max=$2 ;content=$0} } END {print $1}' /proc/net/dev ens33: 附: watch cat /proc/ 阅读全文
摘要:
1.Linux 修改静态 ,IP ,网关 , DNS 先 watch cat /proc/net/dev ,能看到你到底使用的哪张 , byte大的最左边那个就是你需要改的 . 记得替换成自己的网卡 .shell执行就好了 cd /etc/sysconfig/network-scripts/ vim 阅读全文
摘要:
具体代码在这里 , 我先解释下 https://www.west.cn/docs/52092.html First: 创建一个 test.conf 的文件 , 里面有 key-value , 有" " 或者无引号的 . 这是脚本 . 有一个函数 , 另外在脚本里面直接调用了函数 set_key_va 阅读全文
摘要:
1. 在进入 root 模式下 , 想要快速修改 主机hostname 快速修改 本机 hostname 映射 ,需要 root ,或者你 sudo echo 'abby001' > /etc/hostname ( > 这个是用来直接写了覆盖,由于hostname只需要一个) 2.使用 脚本 实现对 阅读全文
摘要:
// python 文件上传到 HDFS 1.安装 anaconda ,打开 Navigator . python 怎么用conda 创造的环境不多叙述 这里安装好之后 , 其实 Pycharm里面就能用了 代码很简单 新建文件 upload001.py from hdfs.client impor 阅读全文
摘要:
所有都是在centos 7 . centos6 是没有systemd 服务的 .注意了 1.除了 设置静态IP 关闭防火墙 互免rsa 2.开启ntp 时间服务 , 让集群时间同步 . 这一步很重要 先卸载ntpd ,再安装 , 配置如下 . https://www.cnblogs.com/harr 阅读全文