AnalyticDBMySQLSpark

2023年7月9日

摘要： # 1. 客户介绍上海兰姆达数据科技有限公司（简称“兰姆达数据”）是一家提供卓越的数据科学软件产品和解决方案的初创高科技公司。兰姆达核心团队专注于大数据，机器学习算法和精准营销SaaS平台。公司提供的数据科学平台主要包括：自动化机器学习平台SuperML和自助式BI工具SuperBI。在行业解决阅读全文

posted @ 2023-07-09 16:07 AnalyticDBMySQLSpark 阅读(154) 评论(0) 推荐(0)

2020年3月19日

初创电商公司Drop的数据湖实践

摘要：欢迎关注微信公众号：ApacheHudi 1. 引入 Drop是一个智能的奖励平台，旨在通过奖励会员在他们喜爱的品牌购物时获得的Drop积分来提升会员的生活，同时帮助他们发现与他们生活方式产生共鸣的新品牌。实现这一体验的核心是Drop致力于在整个公司内推广以数据为基础的文化，Drop的数据用于多种形阅读全文

posted @ 2020-03-19 23:22 AnalyticDBMySQLSpark 阅读(820) 评论(0) 推荐(1)

2020年2月3日

什么是LakeHouse?

摘要： 1. 引入在Databricks的过去几年中，我们看到了一种新的数据管理范式，该范式出现在许多客户和案例中：LakeHouse。在这篇文章中，我们将描述这种新范式及其相对于先前方案的优势。 "数据仓库" 技术自1980诞生以来一直在发展，其在决策支持和商业智能应用方面拥有 "悠久的历史" ，而MP 阅读全文

posted @ 2020-02-03 21:42 AnalyticDBMySQLSpark 阅读(2335) 评论(0) 推荐(0)

2020年2月1日

Apache Hudi 0.5.1版本重磅发布

摘要：历经大约3个月时间，Apache Hudi 社区终于发布了0.5.1版本，这是Apache Hudi发布的第二个Apache版本，该版本中一些关键点如下版本升级将Spark版本从2.1.0升级到2.4.4 将Avro版本从1.7.7升级到1.8.2 将Parquet版本从1.8.1升级到1.10 阅读全文

posted @ 2020-02-01 00:51 AnalyticDBMySQLSpark 阅读(490) 评论(0) 推荐(1)

2020年1月16日

Apache Hudi使用问题汇总（一）

摘要： 1.如何写入Hudi数据集通常，你会从源获取部分更新/插入，然后对Hudi数据集执行写入操作。如果从其他标准来源（如Kafka或tailf DFS）中提取数据，那么 "DeltaStreamer" 将会非常有用，其提供了一种简单的自我管理解决方案，可将数据写入Hudi。你还可以自己编写代码，使用阅读全文

posted @ 2020-01-16 15:38 AnalyticDBMySQLSpark 阅读(2354) 评论(0) 推荐(0)

2020年1月4日

ApacheHudi常见问题汇总

摘要：欢迎关注公众号：ApacheHudi 1. ApacheHudi对个人和组织何时有用如果你希望将数据快速提取到HDFS或云存储中，Hudi可以提供帮助。另外，如果你的ETL /hive/spark作业很慢或占用大量资源，那么Hudi可以通过提供一种增量式读取和写入数据的方法来提供帮助。作为一个组阅读全文

posted @ 2020-01-04 19:30 AnalyticDBMySQLSpark 阅读(1684) 评论(0) 推荐(0)

2019年12月16日

写入Apache Hudi数据集

摘要：这一节我们将介绍使用 "DeltaStreamer" 工具从外部源甚至其他Hudi数据集摄取新更改的方法，以及通过使用 "Hudi数据源" 的upserts加快大型Spark作业的方法。对于此类数据集，我们可以使用各种查询引擎 "查询" 它们。写操作在此之前，了解Hudi数据源及delta 阅读全文

posted @ 2019-12-16 20:13 AnalyticDBMySQLSpark 阅读(3756) 评论(0) 推荐(1)

2019年12月10日

Hudi基本概念

摘要： Apache Hudi(发音为“Hoodie”)在DFS的数据集上提供以下流原语插入更新 (如何改变数据集?) 增量拉取 (如何获取变更的数据?) 在本节中，我们将讨论重要的概念和术语，这些概念和术语有助于理解并有效使用这些原语。时间轴在它的核心，Hudi维护一条包含在不同的时间所有对数据集阅读全文

posted @ 2019-12-10 09:55 AnalyticDBMySQLSpark 阅读(18256) 评论(0) 推荐(2)

2019年11月26日

生产者-消费者模型在Hudi中的应用

摘要：介绍模型用于解耦生产者与消费者，平衡两者之间的能力不平衡，该模型广泛应用于各个系统中，Hudi也使用了该模型控制对记录的处理，即记录会被生产者生产至队列中，然后由消费者从队列中消费，更具体一点，对于更新操作，生产者会将文件中老的记录放入队列中等待消费者消费，消费后交由处理；对于插入操作，生产者会阅读全文

posted @ 2019-11-26 19:14 AnalyticDBMySQLSpark 阅读(632) 评论(0) 推荐(0)

2019年11月25日

BloomFilter在Hudi中的应用

摘要： Bloom Filter在Hudi中的应用介绍 Bloom Filter可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，主要缺点是存在一定的误判率：当其判断元素存在时，实际上元素可能并不存在。而当判定不存在时，则元素一定不存在，Bloom Filter在对精阅读全文

posted @ 2019-11-25 19:36 AnalyticDBMySQLSpark 阅读(826) 评论(0) 推荐(1)

ApacheHudi

公告