1、列出集群中的topic 2、创建topic replication-factor为副本因子数量, partitions为分区数量 注意:kafka-logs目录会产生topic的消息文件,为什么要生产此消息文件呢?就是当一台机器挂了后,其他机器会基于本机的此topic信息继续对外提供服务。 3、 Read More
一、使用并行计算加倍提升性能1、数据并行 VS 任务并行实现数据并行的算法scoket 并行性注意并行计算时间并不与执行任务的计算资源数目成正比(计算机核心),amdahl定律:并行代码的速度受限于串行执行的部分,包括并行性带来的开销在非windows系统中,parallel支持分叉集群(交叉法), Read More
接着上一篇 一、减少内存使用的简单方法1、重用对象而不多占用内存 y <- x 是指新变量y指向包含X的那个内存块,只有当y被修改时才会复制到新的内存块,一般来说只要向量没有被其他对象引用,就可以正常修改,以避免复制向量带来的CPU和RAM开销。按照程序属于来说,R是按值传递,应该避免使用sort Read More
这段时间学习了<R高性能编程>这本书,基于这段时间做的项目实践,总结了一些自己的体会,和大家分享 一、为什么R程序有时候会很慢?1、计算性能的三个限制条件 cpu ram io R代码本身2、R是运行时解释的 在运行时解释并执行R代码3、R是单线程的 CPU的强大核心并没卵用,R只会只用一个4、R需 Read More
在windows环境下 用RMySQL 写入数据库中文数据为空 或者乱码问题。 找了下资料 一般情况是 用 insert 语句插入,结合现有业务有点麻烦,放弃了。 还有一种方式换平台,由于经常在windows下进行开发测试所以放弃。 解决办法如下: 把需要写入的数据油 GBK 改为 UTF-8 ,测 Read More
上一篇讲述了data.table数据分析的一些基本方法,但是最近在用作数据分析时,发现在面对一些复杂场景时,这些基本的用法已经不能满足业务需求了,所以此篇就介绍data.table更进一步的用法。 先构建一个数据集,用于测试 设置key还有另外一个函数setkeyv 先去掉现有key by=.EAC Read More
这两天看书,发现了和数据仓库相关的还有一个叫ODS的概念,它是企业级的全局数据库,用于提供集成的,企业级一致的数据,包含如何从各个子系统中向ODS抽取数据以及面向主题的角度存储数据。 它和数据仓库的主要区别: 数据仓库是面向主题的、集成的、随时间变化的、非易失的、用于进行战略型决策的数据集合。 OD Read More
用ff 包读取一个csv 文件 ff通过next.row指定的参数一块一块的读取一个大数据量的csv文件,它读取切割块并写入二进制文件,并将文件的指针存储在内存中,然后重复的执行此步骤直到csv文件离开没有块。 ff 包 给我们提供了 ffbase 的包 以供我们实现一些 排序,关联,聚合,分割和切 Read More
平时都是几百万的数据量,这段时间公司中了个大标,有上亿的数据量。 现在情况是数据已经在数据库里面了,需要用R分析,但是完全加载不进来内存。 面对现在这种情况,R提供了ff, ffbase , ETLUtils 的解决方案。 它可以很简单的加载,转换数据库的数据进入R内存,ETLUtils 包现在已经 Read More
原文地址:http://www.cnblogs.com/qiaoyihang/p/7348385.html 下面有两张表 数学试卷成绩 表1 学号 省份 批次 学校 试卷成绩 数学试卷小题成绩 表2 学号 小题号 分值 成绩 下面是星型模型: 维度:省份,批次,学校 指标:标准差,信度(比较有代表性 Read More