摘要:
使用 NumPy 让你的 Python 科学计算更高效 它不仅是 Python 中使用最多的第三方库,而且还是 SciPy、Pandas 等数据科学的基础库 它所提供的数据结构比 Python 自身的“更高级、更高效” 为什么要用 NumPy 数组结构而不是 Python 本身的列表 list? 这 阅读全文
摘要:
精细化运营将是长久的主题 有数据,有数据分析能力才能让用户得到更好的体验 用户画像的准则 用户唯一标识是整个用户画像的核心 它把“从用户开始使用 APP 到下单到售后整个所有的用户行为”进行串联 设计唯一标识可以从这些项中选择:用户名、注册手机号、联系人手机号、邮箱、设备号、CookieID 等 其 阅读全文
摘要:
Kafka 版本命名 Scala 2.11 - kafka_2.11-2.1.1 前面的版本号是编译 Kafka 源代码的 Scala 编译器版本。Kafka 服务器端的代码完全由 Scala 语言编写,Scala 同时支持面向对象编程和函数式编程 真正的 Kafka 版本号实际上是 2.1.1 前 阅读全文
摘要:
Apache Storm、Apache Spark Streaming 亦或是 Apache Flink,它们在大规模流处理领域可都是响当当的名字 Kafka Streams 组件,正是它提供了 Kafka 实时处理流数据的能力。但是其实还有一个重要的组件我没有提及,那就是 Kafka Connec 阅读全文
摘要:
Apriori 算法 他通过分析购物篮中的商品集合,找出商品之间的关联关系 利用这种隐性关联关系,商家就可以强化这类购买行为,从而提升销售额 商业智能 BI、数据仓库 DW、数据挖掘 DM 三者之间的关系 数据仓库是个金矿,数据挖掘是炼金术,而商业报告则是黄金 数据仓库可以说是数据库的升级概念。不过 阅读全文
摘要:
从自上而下的角度去理解 Kafka 竟然发现了很多之前学习过程中忽略掉的东西 更特别地是,我发现这种学习方法能够帮助我维持较长时间的学习兴趣,不会阶段性地产生厌烦情绪 Apache Kafka 是消息引擎系统,也是一个分布式流处理平台 LinkedIn 最开始有强烈的数据强实时处理方面的需求,其内部 阅读全文
摘要:
Kafka 属于分布式的消息引擎系统 它的主要功能是提供一套完备的消息发布与订阅解决方案 在 Kafka 中,发布订阅的对象是主题(Topic),你可以为每个业务、每个应用甚至是每类数据都创建专属的主题 我们把生产者和消费者统称为客户端(Clients) 向主题发布消息的客户端应用程序称为生产者(P 阅读全文
摘要:
Apache Kafka 是一款开源的消息引擎系统 “消息队列”“消息中间件”的提法想必你一定是有所耳闻的 这类系统引以为豪的消息传递属性,就像引擎一样,具备某种能量转换传输的能力 消息引擎系统的功能 消息引擎传输的对象是消息; 如何传输消息属于消息引擎设计机制的一部分 既然消息引擎是用于在不同系统 阅读全文
摘要:
数据密集型 由于大数据业务系统都是为公司业务服务的,所以通常来说它们仅仅是执行一些常规的业务逻辑,因此它们不能算是计算密集型应用,相反更应该是数据密集型的 对于数据密集型应用来说,如何应对数据量激增、数据复杂度增加以及数据变化速率变快,是彰显大数据工程师、架构师功力的最有效表征。 就拿数据量激增来说 阅读全文
摘要:
数据集成就是将多个数据源合并存放在一个数据存储中(如数据仓库),从而方便后续的数据挖掘工作 大数据项目中 80% 的工作都和数据集成有关,这里的数据集成有更广泛的意义,包括了数据清洗、数据抽取、数据集成和数据变换等操作 这是因为数据挖掘前,我们需要的数据往往分布在不同的数据源中,需要考虑字段表达是否 阅读全文