2024年12月12日

Parquet文件格式

摘要: 随着大模型AI的进一步发展,我们需要存储和处理的数据量呈指数级增长,寻找存储各种数据风格的最佳方式依然是最大的挑战之一。 相信现在几乎已经没有人还会认为关系数据库是依然是唯一数据存储处理方式。 比如说抖音的视频和直播等信息,其原始数据通常是无法实现以传统(关系)数据库方式存储的,或者以传统方式存储它 阅读全文

posted @ 2024-12-12 16:45 ExplorerMan 阅读(9) 评论(0) 推荐(0) 编辑

Hive中高频常用的函数和语法

摘要: Hive中高频常用的函数和语法梳理及业务场景示例聚合函数collect_list - 收集列值到一个数组collect_list函数用于将指定列的值收集到一个数组中,并返回该数组作为结果。它通常在GROUP BY子句中使用,以将相同键的值收集到一个数组中进行聚合操作 以下是collect_list函 阅读全文

posted @ 2024-12-12 16:39 ExplorerMan 阅读(40) 评论(0) 推荐(0) 编辑

Hive判空函数 COALESCE 和 NVL 使用示例

摘要: Hive判空函数 COALESCE 和 NVL 使用示例 1. 在Hive中, COALESCE 和 NVL 函数都是用于处理NULL值的函数,以下是它们的用途总结:COALESCE: COALESCE 函数用于返回参数列表中第一个非NULL的数值或表达式。语法: COALESCE(value1, 阅读全文

posted @ 2024-12-12 16:37 ExplorerMan 阅读(15) 评论(0) 推荐(0) 编辑

2024年12月11日

用户画像--《美团机器学习实践》笔记

摘要: 原文:https://cloud.tencent.com/developer/article/2212164 最近学习了用户画像方面的内容,本文主要是学习《美团机器学习实践》的读书笔记。 什么是用户画像? 用户模型和用户画像的区别。用户模型是指真实用户的虚拟代表,在真实数据的基础上抽象处理的一个用户 阅读全文

posted @ 2024-12-11 16:35 ExplorerMan 阅读(14) 评论(0) 推荐(0) 编辑

一文从0到1掌握用户画像知识体系

摘要: 编辑导语:如今在这个大数据的时代,系统会对数据进行分析达到精准营销的目的,最常见的就是淘宝时给你推荐的都是你喜欢的,或者你曾经查找过类似的商品;本文作者详细分析了掌握用户画像知识体系,我们一起来看一下。 原文:https://www.woshipm.com/pd/4268665.html 前段时间上 阅读全文

posted @ 2024-12-11 16:34 ExplorerMan 阅读(44) 评论(0) 推荐(0) 编辑

2024年12月2日

【教程】LogicFlow流程图界的神器

摘要: LogicFlow 是由滴滴体验平台技术研发的一款流程图编辑框架,提供了一系列流程图交互、编辑所必需的功能和简单灵活的节点自定义、插件等拓展机制,方便我们快速在业务系统内满足类流程图的需求。目前,LogicFlow 已经支持了客服业务下 IVR、工单流转、智能机器人等多个运营系统,在各系统不同的流程 阅读全文

posted @ 2024-12-02 14:32 ExplorerMan 阅读(152) 评论(0) 推荐(0) 编辑

2024年11月28日

(转)数仓建模—ID Mapping

摘要: https://mp.weixin.qq.com/s/c9PI9Aj8IU023ktQXZgBDA?spm=a2c6h.12873639.article-detail.5.572763120dqNXJ 早晨起床的时候,发现自己尿分叉,我没有多想,简单洗洗就匆忙出门。路过早餐店,我看到师傅熟练的拉扯一 阅读全文

posted @ 2024-11-28 16:53 ExplorerMan 阅读(5) 评论(0) 推荐(0) 编辑

2024年11月20日

AutoML(Automated Machine Learning) 自动化机器学习

摘要: AutoML(Automated Machine Learning),即自动化机器学习,是指利用机器学习算法和技术来自动化机器学习的各个阶段,包括数据预处理、特征工程、模型选择、超参数调优和模型部署等过程。以下是对AutoML的详细解释: 一、AutoML的定义与目的 AutoML旨在降低机器学习的 阅读全文

posted @ 2024-11-20 19:12 ExplorerMan 阅读(39) 评论(0) 推荐(0) 编辑

2024年11月13日

ES调优建议

摘要: 查询模块 保证ES节点有充足的内存 ES默认分配节点一半的内存给JVM(最多会分配30GB),剩余的内存用于向量索引和pagecache,节点内存不足会导致频繁触发向量索引的驱逐和加载,导致查询延迟较高。 因此需要确保数据节点有足够的内存,使向量索引常驻内存。可以通过以下方式获取节点向量数据的内存使 阅读全文

posted @ 2024-11-13 11:42 ExplorerMan 阅读(16) 评论(0) 推荐(0) 编辑

elasticsearch 的索引过程分析和segment的数据结构

摘要: 一、预备知识1.1、索引不可变看到这篇文章相信大家都知道es是倒排索引,在es的索引过程中为了满足一下特点,落盘的es索引是不可变的。 1 不需要锁。如果从来不需要更新一个索引,就不必担心多个程序同时尝试修改。 2 一旦索引被读入文件系统的缓存(内存),它就一直在那儿,因为不会改变。只要文件系统缓存 阅读全文

posted @ 2024-11-13 11:41 ExplorerMan 阅读(31) 评论(0) 推荐(0) 编辑

导航