刷新
微调完怎么判断好不好?大模型效果评估入门指南(附代码)

博主头像 微调完怎么判断好不好?大模型效果评估入门指南(附代码) (一)引言:微调评估不是“算个数”,是模型落地的关键一步 大家好,我是七七!每天都能看到一堆新手提问,核心就一个:“博主,我把7B模型微调完了,准确率82%,这效果算合格吗?”“生成任务怎么判断模型调得好不好,总不能凭感觉吧?” 其实这也是我刚 ...

TsFile 开源文件格式:AI 时代工业时序数据集新选择,让数据资产“活”起来

博主头像 在工业数字化浪潮与 AI 大模型加速演进的双重驱动下,时序数据正从后台数据记录,转变为企业最具战略价值的核心资产之一。 从智能电表的周期性用电数据,到工程机械的实时振动信号,再到新能源设备的运行参数,这些按时间维度持续产生的数据,既构成了工业智能升级的基础,也带来了存储、管理与 AI 适配上的全新挑 ...

掌握相关性分析:读懂数据间的“悄悄话”

博主头像 在数据分析的江湖里,我们经常会听到老板或业务方抛出这样的问题: “现在的年轻人越晚睡,买护肤品是不是越疯狂?” “我们APP的各种优惠券,真的能提升用户的留存率吗?” “天气越热,这只股票是不是跌得越惨?” 面对这些问题,很多新人容易犯 “凭感觉” 的错误:“我觉得应该有关系吧……” 数据分析不相信 ...

搞懂“元数据”:给数据办一张“身份证”

博主头像 你是否经历过这样的场景: 同事发给你一个 Excel 表格,文件名叫 data_final_v2.xlsx。 你满怀期待地打开,结果发现: 表头是 cryptic 的英文缩写(如 c_amt, usr_stat); 有一列全是数字 1, 0, 1, 0,你猜不出这代表“男女”还是“是否活跃”; 你根 ...

vivo Celeborn PB级Shuffle优化处理实践

博主头像 vivo大数据平台通过引入RSS服务来满足混部集群中间结果(shuffle 数据)临时落盘需求,在综合对比后选择了Celeborn组件,并在后续的应用实践过程中不断优化完善,本文将分享vivo在Celeborn实际应用过程中对遇到问题的分析和解决方案,用于帮助读者对相似问题进行参考。 ...

K12教育数字化市场洞察与产品竞争策略

博主头像 K12教育数字化市场洞察与产品竞争策略1. 宏观市场环境与核心驱动力分析本章节旨在为产品战略的制定提供宏观视角。在当前K12教育科技市场,任何有效的产品战略都必须建立在对两大核心驱动力的深刻理解之上:一是国家顶层设计所带来的政策东风,二是后疫情时代用户行为的深刻变迁。这两股力量共同塑造了市场的基本盘 ...

spark的共享变量之广播变量和累加器

博主头像 1 核心概念:为什么需要它们? 在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上,并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量 ...

时序数据库 IoTDB 集成 SpringBoot Starter,实现时序数据库“零配置”接入

博主头像 面对工业物联网场景中高频产生的设备状态、环境指标等海量时序数据,如何在其产生后迅速完成采集、存储并服务于上层应用,是构建实时数据驱动型业务的核心挑战。 国产时序数据库 IoTDB 与快速开发框架 SpringBoot Starter 的深度集成,正是为了应对这一挑战,通过标准化的自动配置模式,将时序 ...

深入浅出理解你的“数据”

博主头像 对于想要学习数据分析的同学,如果你问我:"数据分析的第一步是什么?" 我的回答是:"理解数据本身。" 数据是我们所有分析工作的起点,本文主要探讨如何辨别我们面对的是什么样的数据,包括它的分类方法和描述维度。 1. 数据分类 数据并非千篇一律,它们有着不同的特征和属性。 正确理解数据的分类,是选择适当 ...

Flink 的 RocksDB 状态后端在 vivo 的实践

博主头像 本文简要介绍了特征拼接在实时推荐中的重要作用,并讲述了vivo实时推荐系统中特征拼接模块的架构演进过程以及采用现有的“基于RocksDB的大状态解决方案”的原因,重点叙述了该方案所遇到的一系列问题,并给出了这些问题的现象以及解决方案。 ...

时序数据库 IoTDB 集成 MyBatisPlus,告别复杂编码,简化时序数据 ORM 开发

博主头像 在物联网后台与服务模块的开发过程中,复杂编码与重复操作始终是开发团队难以绕开的挑战,不仅增加额外工作量,也抬高了系统的长期维护成本。 为有效缓解这一痛点,国产原生时序数据库 IoTDB 实现了与代码生成工具 MyBatisPlus 的深度集成,使开发者能够借助其强大的通用数据操作能力,以更简洁、更符 ...

时序数据库 Apache IoTDB 等你“打卡”!2025 OSCAR 开源产业大会完整版议程揭晓

博主头像 开源作为一种开放共享的新型生产模式,已成为数字经济创新、开放、共享和可持续发展的核心驱动力。由中国通信标准化协会牵头主办,中国信息通信研究院具体承办的 2025 OSCAR 开源产业大会将于 10 月 28 日在北京中关村国家自主创新示范区会议中心举行。 大会现场设置开源集市,以面向参会者系统展示优 ...

123···12>