大数据 - 网站分类

微调完怎么判断好不好？大模型效果评估入门指南（附代码）

微调完怎么判断好不好？大模型效果评估入门指南（附代码）（一）引言：微调评估不是“算个数”，是模型落地的关键一步大家好，我是七七！每天都能看到一堆新手提问，核心就一个：“博主，我把7B模型微调完了，准确率82%，这效果算合格吗？”“生成任务怎么判断模型调得好不好，总不能凭感觉吧？” 其实这也是我刚 ...

当数据库世界重新讨论文件格式：TsFile 与工业高质量数据集的背后逻辑

在《2025 数据库世界年度回顾》中，TsFile 等文件格式正在重新引发数据库系统的关注。最近，CMU（Carnegie Mellon University，卡耐基梅隆大学）数据库系统领域的重要代表人物 Andy Pavlo，发布了他一年一度的《2025 数据库世界年度回顾》。作为长期参与并观 ...

TsFile 开源文件格式：AI 时代工业时序数据集新选择，让数据资产“活”起来

在工业数字化浪潮与 AI 大模型加速演进的双重驱动下，时序数据正从后台数据记录，转变为企业最具战略价值的核心资产之一。从智能电表的周期性用电数据，到工程机械的实时振动信号，再到新能源设备的运行参数，这些按时间维度持续产生的数据，既构成了工业智能升级的基础，也带来了存储、管理与 AI 适配上的全新挑 ...

掌握相关性分析：读懂数据间的“悄悄话”

在数据分析的江湖里，我们经常会听到老板或业务方抛出这样的问题： “现在的年轻人越晚睡，买护肤品是不是越疯狂？” “我们APP的各种优惠券，真的能提升用户的留存率吗？” “天气越热，这只股票是不是跌得越惨？” 面对这些问题，很多新人容易犯 “凭感觉” 的错误：“我觉得应该有关系吧……” 数据分析不相信 ...

OceanBase 在滴滴大规模运维经验以及新功能落地实践

滴滴出行自2024年应用OceanBase以来，已在多个场景落地并替换RocksDB、TokuDB，包括网约车增长服务、中台核心归档库、代驾核心归档库、EP、无人车服务等。本文以网约车增长服务、归档库等核心业务为例，阐述滴滴的数据库技术经验以及新功能实践。 ...

搞懂“元数据”：给数据办一张“身份证”

你是否经历过这样的场景：同事发给你一个 Excel 表格，文件名叫 data_final_v2.xlsx。你满怀期待地打开，结果发现：表头是 cryptic 的英文缩写（如 c_amt, usr_stat）；有一列全是数字 1, 0, 1, 0，你猜不出这代表“男女”还是“是否活跃”；你根 ...

vivo Celeborn PB级Shuffle优化处理实践

vivo大数据平台通过引入RSS服务来满足混部集群中间结果（shuffle 数据）临时落盘需求,在综合对比后选择了Celeborn组件，并在后续的应用实践过程中不断优化完善，本文将分享vivo在Celeborn实际应用过程中对遇到问题的分析和解决方案，用于帮助读者对相似问题进行参考。 ...

Hadoop 实战：从Hive、Impala（Cloudera CDH、CDP）海量数据到 AI 决策的落地方法

Hadoop 实战：从Hive、Impala（Cloudera CDH、CDP）海量数据到 AI 决策的落地方法建议由CDH迁移到CMP 7.13 平台（类Cloudera CDP，如华为鲲鹏 ARM 版）可以做到无缝切换平缓迁移 Hadoop 实战：从 Hive、Impala 海量数据到 AI ...

K12教育数字化市场洞察与产品竞争策略

K12教育数字化市场洞察与产品竞争策略1. 宏观市场环境与核心驱动力分析本章节旨在为产品战略的制定提供宏观视角。在当前K12教育科技市场，任何有效的产品战略都必须建立在对两大核心驱动力的深刻理解之上：一是国家顶层设计所带来的政策东风，二是后疫情时代用户行为的深刻变迁。这两股力量共同塑造了市场的基本盘 ...

spark的共享变量之广播变量和累加器

1 核心概念：为什么需要它们？在spark程序中，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上，并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量 ...

时序数据库 IoTDB 集成 SpringBoot Starter，实现时序数据库“零配置”接入

面对工业物联网场景中高频产生的设备状态、环境指标等海量时序数据，如何在其产生后迅速完成采集、存储并服务于上层应用，是构建实时数据驱动型业务的核心挑战。国产时序数据库 IoTDB 与快速开发框架 SpringBoot Starter 的深度集成，正是为了应对这一挑战，通过标准化的自动配置模式，将时序 ...

深入浅出理解你的“数据”

对于想要学习数据分析的同学，如果你问我："数据分析的第一步是什么？" 我的回答是："理解数据本身。" 数据是我们所有分析工作的起点，本文主要探讨如何辨别我们面对的是什么样的数据，包括它的分类方法和描述维度。 1. 数据分类数据并非千篇一律，它们有着不同的特征和属性。正确理解数据的分类，是选择适当 ...

vivo国产数据库技术储备，突破大规模数据的存储与性能瓶颈

vivo 是一家以智能终端和智慧服务为核心的科技公司，其vivo互联网业务使用OceanBase后，解决了原本的MySQL在大规模数据场景下的存储与性能使用瓶颈，高并发数据更新效率提升60%，复杂查询性能提升80%，存储成本降低50%。 ...

Flink 的 RocksDB 状态后端在 vivo 的实践

本文简要介绍了特征拼接在实时推荐中的重要作用，并讲述了vivo实时推荐系统中特征拼接模块的架构演进过程以及采用现有的“基于RocksDB的大状态解决方案”的原因，重点叙述了该方案所遇到的一系列问题，并给出了这些问题的现象以及解决方案。 ...

Hive查询报错：java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.io.LongWritable

以下只是说一下解决思路供大家参考以下基于hive的内部表 Error: java.io.IOException: org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.ClassCastException: org.apache. ...

时序数据库 IoTDB 集成 MyBatisPlus，告别复杂编码，简化时序数据 ORM 开发

在物联网后台与服务模块的开发过程中，复杂编码与重复操作始终是开发团队难以绕开的挑战，不仅增加额外工作量，也抬高了系统的长期维护成本。为有效缓解这一痛点，国产原生时序数据库 IoTDB 实现了与代码生成工具 MyBatisPlus 的深度集成，使开发者能够借助其强大的通用数据操作能力，以更简洁、更符 ...

从零开始学Flink：事件驱动

本文系统讲解 Apache Flink 的事件驱动编程模型，涵盖 ProcessFunction、定时器与状态、事件时间与 Watermark、与窗口的对比以及最佳实践。 ...

Elasticsearch 麒麟V10下单机部署Elasticsearch8及Kibana

实践环境 elasticsearch-8.16.4-linux-x86_64.tar.gz https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.16.4-linux-x86_64.tar.gz kibana-8.1 ...

Perplexity AI研究助手10个提示词

1. Literature Review AutomationPrompt: “Act as a research collaborator specializing in [field]. Search the latest papers (past 12 months) on [topic], ...

时序数据库 Apache IoTDB 等你“打卡”！2025 OSCAR 开源产业大会完整版议程揭晓

开源作为一种开放共享的新型生产模式，已成为数字经济创新、开放、共享和可持续发展的核心驱动力。由中国通信标准化协会牵头主办，中国信息通信研究院具体承办的 2025 OSCAR 开源产业大会将于 10 月 28 日在北京中关村国家自主创新示范区会议中心举行。大会现场设置开源集市，以面向参会者系统展示优 ...