George_sz - 博客园

2018年1月4日

1、列出集群中的topic 2、创建topic replication-factor为副本因子数量， partitions为分区数量注意：kafka-logs目录会产生topic的消息文件，为什么要生产此消息文件呢？就是当一台机器挂了后，其他机器会基于本机的此topic信息继续对外提供服务。 3、 Read More

posted @ 2018-01-04 10:31 George_sz Views(354) Comments(0) Diggs(0) Edit

2017年11月18日

R语言高性能编程（三）

一、使用并行计算加倍提升性能1、数据并行 VS 任务并行实现数据并行的算法scoket 并行性注意并行计算时间并不与执行任务的计算资源数目成正比(计算机核心)，amdahl定律：并行代码的速度受限于串行执行的部分，包括并行性带来的开销在非windows系统中，parallel支持分叉集群(交叉法)， Read More

posted @ 2017-11-18 20:21 George_sz Views(1214) Comments(2) Diggs(0) Edit

2017年11月17日

R语言高性能编程（二）

接着上一篇一、减少内存使用的简单方法1、重用对象而不多占用内存 y <- x 是指新变量y指向包含X的那个内存块，只有当y被修改时才会复制到新的内存块，一般来说只要向量没有被其他对象引用，就可以正常修改，以避免复制向量带来的CPU和RAM开销。按照程序属于来说，R是按值传递，应该避免使用sort Read More

posted @ 2017-11-17 18:41 George_sz Views(708) Comments(0) Diggs(0) Edit

2017年11月3日

R语言高性能编程，优化（一）

这段时间学习了<R高性能编程>这本书，基于这段时间做的项目实践，总结了一些自己的体会，和大家分享一、为什么R程序有时候会很慢？1、计算性能的三个限制条件 cpu ram io R代码本身2、R是运行时解释的在运行时解释并执行R代码3、R是单线程的 CPU的强大核心并没卵用，R只会只用一个4、R需 Read More

posted @ 2017-11-03 17:10 George_sz Views(6194) Comments(0) Diggs(0) Edit

2017年10月23日

R语言 dbWriteTable 写入数据库为空和乱码问题

在windows环境下用RMySQL 写入数据库中文数据为空或者乱码问题。找了下资料一般情况是用 insert 语句插入，结合现有业务有点麻烦，放弃了。还有一种方式换平台，由于经常在windows下进行开发测试所以放弃。解决办法如下：把需要写入的数据油 GBK 改为 UTF-8 ，测 Read More

posted @ 2017-10-23 10:25 George_sz Views(1722) Comments(1) Diggs(0) Edit

2017年10月22日

data.table进阶

上一篇讲述了data.table数据分析的一些基本方法，但是最近在用作数据分析时，发现在面对一些复杂场景时，这些基本的用法已经不能满足业务需求了，所以此篇就介绍data.table更进一步的用法。先构建一个数据集，用于测试设置key还有另外一个函数setkeyv 先去掉现有key by=.EAC Read More

posted @ 2017-10-22 23:23 George_sz Views(801) Comments(0) Diggs(0) Edit

2017年10月4日

简述ODS,和数据仓库做简单的比较

这两天看书，发现了和数据仓库相关的还有一个叫ODS的概念，它是企业级的全局数据库，用于提供集成的，企业级一致的数据，包含如何从各个子系统中向ODS抽取数据以及面向主题的角度存储数据。它和数据仓库的主要区别：数据仓库是面向主题的、集成的、随时间变化的、非易失的、用于进行战略型决策的数据集合。 OD Read More

posted @ 2017-10-04 12:34 George_sz Views(2760) Comments(0) Diggs(0) Edit

2017年9月11日

深入ff and ffbase

用ff 包读取一个csv 文件 ff通过next.row指定的参数一块一块的读取一个大数据量的csv文件，它读取切割块并写入二进制文件，并将文件的指针存储在内存中，然后重复的执行此步骤直到csv文件离开没有块。 ff 包给我们提供了 ffbase 的包以供我们实现一些排序，关联，聚合，分割和切 Read More

posted @ 2017-09-11 16:43 George_sz Views(959) Comments(0) Diggs(0) Edit

2017年8月15日

R语言操作mysql上亿数据量(ff包ffbase包和ETLUtils包)

平时都是几百万的数据量，这段时间公司中了个大标，有上亿的数据量。现在情况是数据已经在数据库里面了，需要用R分析，但是完全加载不进来内存。面对现在这种情况，R提供了ff， ffbase ， ETLUtils 的解决方案。它可以很简单的加载，转换数据库的数据进入R内存，ETLUtils 包现在已经 Read More

posted @ 2017-08-15 17:48 George_sz Views(2526) Comments(0) Diggs(0) Edit

2017年8月11日

基于mondrain 的原理纠正特殊指标值

原文地址：http://www.cnblogs.com/qiaoyihang/p/7348385.html 下面有两张表数学试卷成绩表1 学号省份批次学校试卷成绩数学试卷小题成绩表2 学号小题号分值成绩下面是星型模型: 维度:省份，批次，学校指标:标准差，信度(比较有代表性 Read More

posted @ 2017-08-11 23:22 George_sz Views(418) Comments(0) Diggs(0) Edit

学而不思则罔，思而不学则殆

一个人的奋斗......

公告