怡情养性长智

2020年4月29日

摘要：使用 NumPy 让你的 Python 科学计算更高效它不仅是 Python 中使用最多的第三方库，而且还是 SciPy、Pandas 等数据科学的基础库它所提供的数据结构比 Python 自身的“更高级、更高效” 为什么要用 NumPy 数组结构而不是 Python 本身的列表 list？这阅读全文

posted @ 2020-04-29 18:01 怡情养性长智阅读(239) 评论(0) 推荐(0)

2020年4月28日

数据分析实战——07 | 用户画像：标签化就是数据的抽象能力

摘要：精细化运营将是长久的主题有数据，有数据分析能力才能让用户得到更好的体验用户画像的准则用户唯一标识是整个用户画像的核心它把“从用户开始使用 APP 到下单到售后整个所有的用户行为”进行串联设计唯一标识可以从这些项中选择：用户名、注册手机号、联系人手机号、邮箱、设备号、CookieID 等其阅读全文

posted @ 2020-04-28 15:20 怡情养性长智阅读(605) 评论(0) 推荐(0)

Kafka核心技术与实战——05 | 聊聊Kafka的版本号

摘要： Kafka 版本命名 Scala 2.11 - kafka_2.11-2.1.1 前面的版本号是编译 Kafka 源代码的 Scala 编译器版本。Kafka 服务器端的代码完全由 Scala 语言编写，Scala 同时支持面向对象编程和函数式编程真正的 Kafka 版本号实际上是 2.1.1 前阅读全文

posted @ 2020-04-28 10:47 怡情养性长智阅读(368) 评论(0) 推荐(0)

Kafka核心技术与实战——04 | 我应该选择哪种Kafka？

摘要： Apache Storm、Apache Spark Streaming 亦或是 Apache Flink，它们在大规模流处理领域可都是响当当的名字 Kafka Streams 组件，正是它提供了 Kafka 实时处理流数据的能力。但是其实还有一个重要的组件我没有提及，那就是 Kafka Connec 阅读全文

posted @ 2020-04-28 10:44 怡情养性长智阅读(283) 评论(0) 推荐(0)

2020年4月27日

数据分析实战——06 | 学数据分析要掌握哪些基本概念？

摘要： Apriori 算法他通过分析购物篮中的商品集合，找出商品之间的关联关系利用这种隐性关联关系，商家就可以强化这类购买行为，从而提升销售额商业智能 BI、数据仓库 DW、数据挖掘 DM 三者之间的关系数据仓库是个金矿，数据挖掘是炼金术，而商业报告则是黄金数据仓库可以说是数据库的升级概念。不过阅读全文

posted @ 2020-04-27 14:36 怡情养性长智阅读(220) 评论(0) 推荐(0)

Kafka核心技术与实战——03 | Kafka只是消息引擎系统吗？

摘要：从自上而下的角度去理解 Kafka 竟然发现了很多之前学习过程中忽略掉的东西更特别地是，我发现这种学习方法能够帮助我维持较长时间的学习兴趣，不会阶段性地产生厌烦情绪 Apache Kafka 是消息引擎系统，也是一个分布式流处理平台 LinkedIn 最开始有强烈的数据强实时处理方面的需求，其内部阅读全文

posted @ 2020-04-27 11:49 怡情养性长智阅读(200) 评论(0) 推荐(0)

Kafka核心技术与实战——02 | 一篇文章带你快速搞定Kafka术语

摘要： Kafka 属于分布式的消息引擎系统它的主要功能是提供一套完备的消息发布与订阅解决方案在 Kafka 中，发布订阅的对象是主题（Topic），你可以为每个业务、每个应用甚至是每类数据都创建专属的主题我们把生产者和消费者统称为客户端（Clients）向主题发布消息的客户端应用程序称为生产者（P 阅读全文

posted @ 2020-04-27 11:48 怡情养性长智阅读(229) 评论(0) 推荐(0)

Kafka核心技术与实战——01 | 消息引擎系统ABC

摘要： Apache Kafka 是一款开源的消息引擎系统 “消息队列”“消息中间件”的提法想必你一定是有所耳闻的这类系统引以为豪的消息传递属性，就像引擎一样，具备某种能量转换传输的能力消息引擎系统的功能消息引擎传输的对象是消息；如何传输消息属于消息引擎设计机制的一部分既然消息引擎是用于在不同系统阅读全文

posted @ 2020-04-27 11:47 怡情养性长智阅读(302) 评论(0) 推荐(0)

Kafka核心技术与实战——开篇词 | 为什么要学习Kafka？

摘要：数据密集型由于大数据业务系统都是为公司业务服务的，所以通常来说它们仅仅是执行一些常规的业务逻辑，因此它们不能算是计算密集型应用，相反更应该是数据密集型的对于数据密集型应用来说，如何应对数据量激增、数据复杂度增加以及数据变化速率变快，是彰显大数据工程师、架构师功力的最有效表征。就拿数据量激增来说阅读全文

posted @ 2020-04-27 11:46 怡情养性长智阅读(299) 评论(0) 推荐(0)

2020年4月25日

数据分析实战——12 | 数据集成

摘要：数据集成就是将多个数据源合并存放在一个数据存储中（如数据仓库），从而方便后续的数据挖掘工作大数据项目中 80% 的工作都和数据集成有关，这里的数据集成有更广泛的意义，包括了数据清洗、数据抽取、数据集成和数据变换等操作这是因为数据挖掘前，我们需要的数据往往分布在不同的数据源中，需要考虑字段表达是否阅读全文

posted @ 2020-04-25 10:30 怡情养性长智阅读(493) 评论(0) 推荐(0)

minimalist

洞悉技术的本质，享受科技的乐趣

公告