摘要: 碰到这样一个事:我们往hbase里面导数据, 补了快一年的数据了,结果发现某个列的数据有几个月是有问题的,不能用,所以需要将这个列的有问题的几个月数据全部干掉, 查了hbase的命令,发现没有这种根据rowkey范围直接删除某个列的命令. 所以只能自己写了: 可以采用客户端编程的方式,也可以采用hb 阅读全文
posted @ 2018-11-04 16:48 无西lc 阅读(5694) 评论(4) 推荐(1) 编辑
摘要: 我们数据部门有这样一个规范:那就是提交作业的时候会给作业起一个名字,方便在yarn界面进行搜索, 比如mapreduce,hive on mr都可以通过mapreduce.job.name参数进行指定,spark在提交的时候也可以通过--name参数进行指定该应用的名字,这样在作业量很多的情况下,我 阅读全文
posted @ 2018-07-23 18:39 无西lc 阅读(1772) 评论(0) 推荐(0) 编辑
摘要: 接了一个新需求:需要做数据仓库的血缘关系。正所谓兵来将挡水来土掩,那咱就动手吧。 血缘关系是数据治理的一块,其实有专门的第三方数据治理框架,但考虑到目前的线上环境已经趋于稳定,引入新的框架无疑是劳民伤财,伤筋动骨,所以就想以最小的代价把这个事情给做了。目前我们考虑做的血缘关系呢只是做输入表和输出表, 阅读全文
posted @ 2018-07-17 21:41 无西lc 阅读(11530) 评论(2) 推荐(1) 编辑
摘要: spark ml中有许多好用的transformer,很方便用来做特征的处理,比如Tokenizer, StopWordsRemover等,具体可参看文档:http://spark.apache.org/docs/2.1.0/ml-features.html . 但是呢,这些都是一些特定的操作,组内 阅读全文
posted @ 2018-07-11 10:18 无西lc 阅读(526) 评论(0) 推荐(0) 编辑
摘要: 关于机器学习,自己也是半路出家,没啥基础, 不过知识也是一点一点积累起来的。tf-idf是在处理文本中很常用的一个公式, 下面记录一下自己对它的理解: tf :计算某个词在某个文档中的词频(即某个词在它所在的行中出现的次数,在spark ml的表示中,一行代表一个文档)。 idf: 逆向文档频率, 阅读全文
posted @ 2018-07-10 18:22 无西lc 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 交代一下背景: 1. 由于机器过保,需要进行机器的置换,所以就有了这么个事情; 2. namenode是普通的ha模式,没有配置federation; 3. 需要尽最大的可能不影响生产环境中Hadoop集群的服务 4. 我们的集群都是通过hostname进行的配置,不是通过具体的ip进行的配置。推荐 阅读全文
posted @ 2018-07-02 21:20 无西lc 阅读(441) 评论(0) 推荐(0) 编辑
摘要: 首先交代一下背景: 先前公司采用的spark版本是1.6.1, spark1.6之后有一个新的特性:Dynamic Allocation,也就是动态的executor,会根据task的情况自动增加或者 减少executor的个数,这样就能够在一定程度上避免资源的浪费。但很遗憾,先前公司使用spark 阅读全文
posted @ 2018-06-25 19:53 无西lc 阅读(487) 评论(0) 推荐(0) 编辑
摘要: 事情的初衷是这样的:线上有一个小的zk集群,三台机器。其中有一台机器过了保期,需要置换。所以需要用一台新的机器来替换掉其中的一个zk节点,但是为了不影响 线上的服务,所以不能停zk集群。 这里不将具体的hostname和ip写出来,姑且将原来的三台机器定义为 a、b和c, 现在b过保,用新机器d来替 阅读全文
posted @ 2018-06-25 16:55 无西lc 阅读(856) 评论(0) 推荐(0) 编辑
摘要: 由于目前的生产环境 namenode ha都只是配置了一块磁盘,如果磁盘坏了,估计就game over了。所以想着怎样做namenode的元数据容错。后来查阅hdfs的相关配置,发现一个恰好可以解决该问题的配置: <property> <name>dfs.namenode.name.dir</nam 阅读全文
posted @ 2018-06-23 22:35 无西lc 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 由于目前spark的历史服务所在的机器内存不太够,导致spark的hisstory server经常卡死。所以决定将该服务迁移到一台内存稍微多点的机器上,并将historyserver内存由原来的3g调整为8g,下面开始记录一下本次操作过程的步骤,方便以后进行查阅. 我们的生产环境采用的是spark 阅读全文
posted @ 2018-06-23 22:15 无西lc 阅读(345) 评论(0) 推荐(0) 编辑