随笔分类 - data analysis
摘要:借助于hdfs(具体可参考 搭建hadoop),再搭建hbase就十分方便 hbase需要hdfs,zookeeper。所以自建一个zk server 环境: master:主机名/ip都是master d1-d3:主机名/ip分别是d1-d3,统称为ds zk在d1上 以下操作均在master上完
阅读全文
摘要:准备4台机器,一台做namenode和jobtracker,假设它主机名和ip都是master。三台机器做datanode,主机名和ip分别是d1-d3,统称为ds。网络互通。 首先准备ssh。因为hdfs是分布式文件系统,并且node之间会有各种操作,所以需要打通ssh。方法是在所有机器上生成ke
阅读全文
摘要:以下纯属个人意见 spark作为一种实时或历史数据计算方案,有如下几个特点: 当然也有缺点: 写spark job的原则:
阅读全文
摘要:承接上篇pyspark,这里再给一个我写的scala的例子。这个的目的是从埋点事件里统计需要的几个事件并分区域累计,kafka stream实时计算 要说一下,版本特别重要,一个是spark版本(<2, 2.0, >2.0),一个是scala版本(主要是<2.11和2.11),注意匹配 pom.xm
阅读全文
摘要:这是年初写的一个job,用于对api非法访问(大量403)进行统计,并有其他后续手段。写的比较通俗易懂,做个sample记录下 数据源是kafka stream,实时计算。规则是mysql配置的,简单说就是1分钟内超过多少次403就记录下来 python写spark需要在spark服务器上用pysp
阅读全文
摘要:redshift默认utf8编码。但有时会遇到无法解码的invalid char,报错停下来。在数据侧的解决方案是加上ACCEPTINVCHARS选项 这样会把无效字符替换为?,如"hell?o"而不报错
阅读全文
摘要:昨天做数据分析遇到个有趣的问题。下面是我把实际问题虚构下的场景: 我们是古代农场主,有一群奴隶给我们种地。我们想统计出表现较好的奴隶并给他们自由。要从2个方面考量,劳动时间和劳动产量,并且希望劳动产量更重要一些。 原来的统计方式是: 0.3和0.7是权重。 但这样会有一个问题,就是熵的影响。因为时间
阅读全文