Fork me on GitHub

09 2021 档案

摘要:情感分析系统 情感分析任务 情感分析是一个经典的文本分析任务,在工业界有着非常广泛的应用。从任务的角度来讲,它的输入为一段文本,输出为某一个特定的情感分类如正面、负面或者中性。 任务本身属于文本分类任务,所 以需要使用分类算法。 情感分析的一个经典的应用场景为舆情监控。比如一个公司推出了一款产品,然 阅读全文
posted @ 2021-09-27 22:13 kris12 阅读(1212) 评论(0) 推荐(0) 编辑
摘要:朴素贝叶斯模型 1. 理解朴素贝叶斯 贝叶斯公式是一种基于条件概率的分类算法,如果我们已经知道 A 和 B 的发生概率,并且知道了 B 发生情况下 A 发生的概率,可以用贝叶斯公式计算 A 发生的情况下 B 发生的概率。事实上,我们可以 根据 A 的情况,即输入数据,判断 B 的概率,即 B 的可能 阅读全文
posted @ 2021-09-27 21:44 kris12 阅读(641) 评论(0) 推荐(0) 编辑
摘要:数据湖如何助力企业大数据中台架构的升级 1.大数据平台架构 数据处理的流程: 采集-->清洗-->存储 --> 计算-->分析-->应用 HDFS架构 MapReduce的核心思想 Hive的架构 大数据平台整体架构 2.从数据库到数据仓库的演进过程 离线数据仓库 实时数据仓库 数据仓库特点 集成性 阅读全文
posted @ 2021-09-26 21:38 kris12 阅读(1322) 评论(0) 推荐(0) 编辑
摘要:1. Hudi核心概念 Hudi核心组件结构 通过Hudi客户端把数据写入Hudi, 写入的时候有两种方式: COW(copy on write)写时复制-java中的读写分离 MOR(merge on read)读时合并 (读数据的时候先合并,写数据时写到par文件中,有新增的写到预写日志log中 阅读全文
posted @ 2021-09-26 21:36 kris12 阅读(1357) 评论(0) 推荐(0) 编辑
摘要:1. Iceberg构建数据湖 核心思想 在时间轴上跟踪表的所有变化; 快照表示表数据文件的一个完整集合; 每次更新操作会生成一个新的快照; 特性 ① 优化数据入库流程 Iceberg提供ACID事务能力,上游数据写入即可见,不影响当前数据处理任务,这大大简化了ETL; Iceberg提供upser 阅读全文
posted @ 2021-09-26 21:36 kris12 阅读(1878) 评论(0) 推荐(0) 编辑

levels of contents
点击右上角即可分享
微信分享提示