11 2024 档案
摘要:对未来的展望。当前对基于主动元数据的探索和实践尚处于起步阶段,未来将持续进行探索。 首先是更自动、更智能。当前的数据任务优化仍然由人工来逐一优化治理,不仅耗时,也依赖人工经验;所以需要基于主动元数据来构建任务的智能诊断与智能调优能力,提升任务的优化效率。 此外,对于前文提到的数据模型认证。当前的认证
阅读全文
摘要:对于 data fabric 架构,最先由 Gartner 提出,主要是为了解决复杂数据的管理和使用问题,并且连续几年被评为十大 IT 技术发展趋势。Data fabric 架构主要包括在互联的知识图谱上访问和表示所有类型元数据,应用知识图谱技术激活元数据,将机器学习技术运用到元数据上,去简化数据集
阅读全文
摘要:数据回填,主要基于数据的生产血缘,包括表依赖血缘、任务依赖血缘等。 该方案主要包括以下几个功能模块: 回填感知:通过查询、订阅信息、新版本发布触发自动感知分区缺失、版本变更消息,通过分区检查器、版本变更感知器确定回填日期范围; 回填编排:构建数据生产血缘,逐层解析表分区回填依赖,编排回填拓扑; 优化
阅读全文
摘要:分享另外一个基于主动元数据的治理实践——数据回填。 在离线数据开发运营中,不管是新需求迭代,还是岗位变更,都会有数据重算的需求。目前的数据补录功能尚不完善,需要手工确认等大量系统外协调工作。例如,用户需要回溯 2023 年前的数据,研发人员就需要手动检查所依赖的上游甚至更上游的数据;确认完上游数据,
阅读全文
摘要:智能推荐:几十万张模型自动推荐生命周期,自动识别数百 PB 治理空间 效果显著:推荐值接受度大于 70%,试点模型完成 100+PB 治理 开放赋能:集成大数据平台、赋能集团存储治理 该方案将分散在各处的主动元数据进行收集,对元数据进行挖掘识别,实现生命周期的智能推荐。由于使用主动元数据,采用同一套
阅读全文
摘要:目前大数据平台已经构建了完善的治理功能体系,包括治理分析能力和治理实施能力。治理实施包括治理行动、通知催办、一键回滚等功能,这些功能可以大幅提升操作的效率及治理安全。将业务治理策略通过平台化工具进行整合共建,将治理经验推广到整个京东集团,赋能整个集团的存储治理。 数据驱动、智能推荐,从分散到集约、从
阅读全文
摘要:假如直接统计一张表在一段时间分区访问的范围,则统计结果会严重受到考察周期的影响。举一个例子,假设一个表有 10 个访问,每天都是访问昨天分区;当选择 15 天作为考察周期时,得到的结果是用户需要访问近 15 天的数据;而当选择 31 天作为考察周期时,则会得到用户需要访问近 31 天数据这一结果。为
阅读全文
摘要:这里所说的生命周期是狭义的生命周期,是指一个表分区数据从写入到被删除经过了多长时间;例如某个表的生命周期是 100,意味着这份数据写入到某个分区后,100 天之后会被清除。 生命周期评估体系的建设,首先要构建代价模型,其核心是将数据的计算成本看作生产数据的“代价”,将数据的存储成本看作拥有”成本”,
阅读全文
摘要:存储治理存在以下挑战: (1)盲治 缺乏数据支撑,无法准确掌握表分区消费情况以及分区存储、计算代价; 缺乏评估体系,20 万+模型,数据研发自行评估生命周期值成本高、效率低、主观性强 (2)不敢治,不愿治 数据回填效率低,占用开发人员大量工作时间 担心引发线上问题 (3)不能治 部门作为零售数仓主要
阅读全文
摘要:资源治理的手段主要包括存储治理和计算治理。其中存储治理包括表生命周期治理,无效表/相似表的识别与下线,转 EC、数据重分布与压缩等;计算治理包括无效任务识别与下线,低资源利用率任务治理,暴力扫描、高频失败任务治理等,以及计算算子和引擎的优化,还有计算任务错峰执行等。 各类优化治理的手段其实是相似的,
阅读全文
摘要:接下来是架构的治理,其核心是让架构更敏捷。 首先,基于逻辑虚拟表进行维度建模能力升级,相对物理宽表,逻辑宽表从语义上定义了数据模式,并将数据模型抽象为维度和指标,更加敏捷,大大减少后续的改动工作量。 逻辑宽表虽然方便定义,但面对大量数据,通常难以达到和物理宽表相当的查询性能和访问体验,这就需要智能物
阅读全文
摘要:在数据治理体系建设中,首先是数据标准的治理。 京东零售制定并发布了零售统一数据语言标准,该标准定义了数据模型的标准要素,包括业务体系、业务域、主题、业务过程、主体、主体属性、更新周期/频率、更新方式、粒度等,数据模型通过标准要素进行描述刻画。 首先,基于该标准进行数据资产认证,对质量高、价值大的模型
阅读全文
摘要:数据治理的整体思路是,从数据标准、数据架构、数据开发以及数据成本多方面着手,用技术去牵引数据全链路的降本增效。具体体现在以下几个方面: 制定数据标准、标准系统化、数据认证 敏捷高效的数据架构升级,快速灵活地支持业务战略目标 开发生产隔离,数据安全生产 存算治理体系建设,降低业务/企业运营成本
阅读全文
摘要:京东零售在数据管理和治理上面临着多方面的挑战:首先,数据量的持续增加导致了大量低效及冗余的数据模型,增加了维护成本并影响数据质量和准确性,用户找表难,用表难;其次,数据管理和开发使用相同账号资源,缺乏有效的变更管理,容易因误操作引起线上问题;再次,表数量和存储规模的增大,进一步加剧了计算、存储资源消
阅读全文
摘要:虽然OpenAI的o1-preview和o1-mini在我们的基准测试中排名靠前,但我们仍然注意到一些由于上下文长度导致的独特失败例子。由于o1模型中推理步骤的词元长度难以预测,当提示内容因中间的“推理”步骤而增长时,OpenAI并不会直接使请求失败,而是返回一个空字符串的响应。 o1模型在NQ上的
阅读全文
摘要:LLM在长上下文RAG中的不同失败模式为评估生成模型在处理长上下文长度时的失败模式,我们对OpenAI的o1和Gemini 1.5 Pro进行了分析,使用了与我们之前博文相同的方法(https://www.databricks.com/blog/long-context-rag-performanc
阅读全文
摘要:检索更多文档确实有益:为给定查询检索更多信息,能够提升将正确信息传递给LLM的可能性。具有长上下文长度的现代LLM可以利用这一点,从而改善整体RAG系统。 更长的上下文对RAG而言并不总是最优解:大多数模型的性能在某个上下文长度后会下降。值得注意的是,Llama-3.1-405b的性能在32k词元后
阅读全文
摘要:我们设计了内部基准来测试尖端LLM的长上下文端到端RAG能力。基本设置如下: 从使用OpenAI的text-embedding-3-large嵌入的向量数据库中检索文档片段(chunk)。文档被分割为512词元的片段,步长为256词元。 通过在上下文窗口中包含更多检索文档来改变总词元数。我们将总词元
阅读全文
摘要:检索增强生成(RAG)是Databricks的客户希望在自身数据上定制AI工作流的主要应用场景。大语言模型(LLM)发布的速度非常快,许多客户都想获得最新的指导,以构建最佳的RAG流水线。在之前的博客文章中(LLM的长上下文RAG性能,https://www.databricks.com/blog/
阅读全文
摘要:IDEA配置code style在 IntelliJ IDEA下,使用intellij-java-jd-style.xml进行代码格式化之前,需要先进行配置。 设置配置文件,路径:IntelliJ IDEA→Preference→Editor→Code Style 导入定制的code style文件
阅读全文
摘要:规范选择与制定a. 规范选择上面列举了多项代码规范,在决定使用哪种规范之前,可以考虑三个方面: •明确目标:使用代码规范的目的是什么,只是为了项目内代码风格一致,还是为了和其他团队分享或者其他公司分享或者开源? •使用环境:开发阅读代码的环境是什么,GitHub、GitLab、公司内部的Coding
阅读全文
摘要:业界Java代码样式规范a. Google Java StyleGoogle在github上维护的多种编程语言的代码规范:https://github.com/google/styleguide,其中: •javaguide.html 是Google对Java编程语言代码编码标准的完整定义; •in
阅读全文
摘要:对于团队开发,不同的代码规范或不规范可能引起的问题包括但不限于: 1.代码可读性,代码是为了人阅读的,不是只为了机器执行; 2.代码format引发的大量的diff,干扰code review; 3.间接影响代码质量和团队协作效率; 在敏捷迭代的软件开发环境中,良好的代码规范不仅能够帮助团队成员快速
阅读全文