03 2022 档案
摘要:【摘要】 在大数据时代背景下,如何在保护数据安全隐私的前提下充分发挥数据的价值,成了一个亟待解决的问题。同态加密作为实现数据隐私计算的关键技术,在云计算、区块链、隐私计算等领域均存在着广泛的应用需求和一些可行的应用方案。 1 什么是同态加密 同态加密(Homomorphic encryption)是
阅读全文
摘要:【摘要】 大数据时代的技术特点导致一个企业的数据分散存储在不同组件甚至不同地域的不同组件之中,为企业数据的高效使用带来挑战。数据虚拟化技术使应用在不关心数据源的数据格式及物理存储位置的情况下以一种统一的方式获取和使用整个组织中所有的数据。华为云原生数据湖MRS HetuEngine就是一款优秀的数据
阅读全文
摘要:
阅读全文
摘要:本实验主要是熟悉 GES 的创图操作,GES 创图的大致流程如下所示。 环境准备 上传数据 导入元数据 创建图 环境准备 由于 GES 的原始数据是存在 OBS 上的,如果 OBS 上没有桶,需要按照如下步骤创建桶。 首先登录华为云,然后点击右上角“登录”: 根据账号类型选择IAM用户登录或者直接登
阅读全文
摘要:本文分享自华为云社区《【华为云Stack】【大架光临】第7期:湖仓一体天花板,大数据一站式SQL分析技术实践》,作者:华为云HetuEngine首席架构师 武文博。 (一)背景 早在2020年5月华为云全球分析师大会中,华为率先提出“湖仓一体”概念,并落地在华为云FusionInsight智能数据湖
阅读全文
摘要:数字化时代下,企业IT的数据重心从支持在线交易后移到运营分析,数据的及时更新、高效分析、减少人工干预,是企业经营的追求目标。因此企业不再满足于“T+1”,而是“T+0”,需要实时和个性化,对于汽车行业也不例外。 一汽-大众汽车有限公司(简称一汽-大众)于1991年成立,是我国第一个按经济规模起步建设
阅读全文
摘要:2022年3月8日,华为GaussDB 200(即“华为云GaussDB(DWS)”)正式获得全球权威信息技术安全性评估标准CC EAL2 + ALC_FLR.2级别认证,这是中国数据仓库产品首次获得的国际安全认证,目前全球数据库领域通过该认证的厂商仅有6家,华为是迄今为止唯一通过认证的中国数据库厂
阅读全文
摘要:操作场景 默认情况下,HDFS NameNode自动选择DataNode保存数据的副本。在实际业务中,可能存在以下场景: DataNode上可能存在不同的存储设备,数据需要选择一个合适的存储设备分级存储数据。 DataNode不同目录中的数据重要程度不同,数据需要根据目录标签选择一个合适的DataN
阅读全文
摘要:Superior Scheduler是一个专门为Hadoop YARN分布式资源管理系统设计的调度引擎,是针对企业客户融合资源池,多租户的业务诉求而设计的高性能企业级调度器。 Superior Scheduler可实现开源调度器、Fair Scheduler以及Capacity Scheduler的
阅读全文
摘要:**图1 **开发流程 开发前准备 注册华为云账号 登录华为云官网,单击“注册”,按照界面提示完成华为云的注册。成功注册后请尽快完成“企业实名认证”,认证过程请参考“企业帐号如何完成实名认证”。 开通华为云会议企业管理员帐号 正式商用 订购华为云会议服务。如何订购,请参考如何购买会议套餐。 免费试用
阅读全文
摘要:分区 分区概念 在逻辑上分区表与未分区表没有区别,在物理上分区表会将数据按照分区键的列值存储在表目录的子目录中,目录名=“分区键=键值”。其中需要注意的是分区键的值不一定要基于表的某一列(字段),它可以指定任意值,只要查询的时候指定相应的分区键来查询即可。我们可以对分区进行添加、删除、重命名、清空等
阅读全文
摘要:业务场景 用户画像是对用户信息的标签化。用户画像系统通过对收集的各维度数据,进行深度的分析和挖掘,给不同的用户打上不同的标签,从而刻画出客户的全貌。通过用户画像系统,可以对各个用户进行精准定位,从而将其应用于个性化推荐、精准营销等业务场景中。用户画像系统已经被各个企业广泛采用,是大数据落地的重要方式
阅读全文
摘要:9月8日,华为云GaussDB(for Redis)正式推出全新版本。 新版本内核带来性能提升、无损升级、慢日志统计等多维度产品体验,同时推出Lua脚本和SSL连接加密两大重要功能,让业务设计更加灵活,公网访问更安全。 GaussDB(for Redis)是华为云推出的企业级分布式KV数据库,它完全
阅读全文
摘要:苏斌,华为云数据库资深架构师,拥有16年数据库内核研发经验,之前作为MySQL官方InnoDB团队主要研发人员,参与和主导了多个重要特性的开发和发布。目前在华为公司负责和参与华为云RDS主要产品RDS for MySQL和GaussDB(for MySQL)内核功能的设计和研发。云服务环境下,如何解
阅读全文
摘要:数据实时同步简要介绍: 数据同步或数据集成一般选用两类技术或工具,即: 1、ETL(Extract-Transform-Load)工具,它是将数据从源系统加载到数据仓库的过程。用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。 2、CDC工
阅读全文
摘要:点的外卖总能让离店近的外卖小哥送来,双11秒杀结束后产品能立刻下架,12306火车票保证从来不超卖,微博下拉就能刷新出好友动态……这些日常碎片的背后都有着Redis的身影。 提起Redis,互联网从业者无人不知,无人不晓。毕竟,开源Redis作为一款经典的“缓存”产品,能支撑众多业务架构搭建,在游戏
阅读全文
摘要:云计算的飞速发展,促使各行各业加快数字化转型的步伐。数据库作为信息系统核心服务,在云化的浪潮中,逐渐发展出云数据库的技术路线,并在不断迭代创新中。 数据库产品形态演进 纵观数据库行业发展历程,从早期的单机MySQL到近年来分布式数据库、NoSQL系列,数据库始终秉承着一个理念——把简单留给用户,把复
阅读全文
摘要:HBase介绍 HBase是Hadoop Database的简称,是建立在Hadoop文件系统之上的分布式面向列的数据库,它具有高可靠、高性能、面向列和可伸缩的特性,提供快速随机访问海量数据能力。 HBase采用Master/Slave架构,由HMaster节点、RegionServer节点、Zoo
阅读全文
摘要:数字化潮流浩浩汤汤,企业上云如火如荼,网约车行业也借助这一股东风展现出了蓬勃的生命力,因为它的高效便捷,吸引了越来越多的都市人体验。 T3出行是南京领行科技股份有限公司打造的智慧出行生态平台,公司以“科技引领 愉悦出行”为使命,致力于成为能够为用户提供“安全、便捷、品质”出行服务的科技创新型企业。
阅读全文
摘要:关系数据库的数据入湖,有多种场景、多种工具、多种入湖时效要求等,本文梳理相关场景,以及对应的建议方案。 首先介绍下两种入湖工具:批量数据迁移工具(如CDM)和实时数据接入工具(如CDL)。 批量数据迁移工具,可以一次全量、一次全量+批次增量的方式将数据从关系数据库的数据迁移到数据湖,往往入湖时效性(
阅读全文
摘要:1.研究背景 在实际的大数据工程部署中,多个业务部门经常需要运行多个数据应用,在搭建Hadoop集群时,经常面临如何划分大数据集群及进行资源隔离的问题。另外,由于预算有限等原因,数据运维部门也有控制预算,减少大数据集群节点个数,同时保证重点业务性能等诉求。 现有大数据集群一般支持2种资源管理方式,包
阅读全文
摘要:大数据集群的物理机部署形态,相对于公有云/混合云的云主机部署形态,在自动化发放集群、弹性伸缩等云化场景方面处于劣势,但物理机部署形态的大数据集群能够更加充分高效的利用服务器资源,不存在云化/虚拟化的开销,同时服务器的异构能力更强。 早期交付的很多大数据集群均是物理机部署形态,如浙江移动大数据集群、广
阅读全文
摘要:背景 传统大数据平台的组织架构是针对离线数据处理需求设计的,常用的数据导入方式为采用sqoop定时作业批量导入。随着数据分析对实时性要求不断提高,按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的(准)实时同步系统的开发。 然而实时同步从一开始就面临如下几个挑战
阅读全文
摘要:“没有废物的武魂,只有废物的魂师!” “不流血,不痛苦,怎么走自己的路。” “史莱克学院,唐三参战!” 如果有人对这些话耳熟能详,那一定是斗罗大陆的忠实粉丝。唐三,天生满魂力,双生武魂,外附魂骨,不夸张地说,这个名字承载了一代人的青春回忆。他,就是大型玄幻小说《斗罗大陆》中的主人公。“你我皆唐门,觉
阅读全文
摘要:近期,第十二届DTCC中国数据库技术大会取得了圆满结束,随之一年一度的“技术卓越奖”评选结果也终于到了揭幕的时刻,华为云原生分布式数据库GaussDB(for MySQL)以卓越的表现荣获“2021年度技术卓越奖”。 第十二届DTCC中国数据库技术大会是由IT168联合旗下ITPUB、ChinaUn
阅读全文
摘要:近日,北京新数科技有限公司(简称:新数科技,英文名称:ShinData)加入华为云“沃土云创计划”,在云化升级和信创数据库产品方面展开更进一步的合作,共同助力商业成功。 新数科技是业内数据库管理软件创新引领企业,产品涵盖数据库dbPaaS云管理平台、数据迁移传输平台、数据库安全管控平台和ShinDB
阅读全文
摘要:01客户介绍 华为商城(VMALL)是华为公司旗下自营及精选好物的官方电商平台,本着“智慧生活、精选好物”的理念,为消费者提供最齐全的华为品牌产品及鸿蒙生态产品,覆盖了办公、出行、居家、运动、娱乐等生活需求,致力于将全场景智慧生活带给更多的消费者。 云数据库GaussDB(for Redis)作为华
阅读全文
摘要:数字化时代,业务的实时处理需求越来越迫切,实时预警、实时风控、实时推荐等,Flink作为新一代流批统一的计算引擎,具有独特的天然流式计算特性和更为先进的架构设计的特点,它可以从不同的第三方存储引擎中读取数据,进行处理,然后再写出到另外的存储引擎中。 GES拥抱变化,开发了与Flink的对接工具GES
阅读全文
摘要:本文作者康祥,华为云数据库内核开发工程师,研究生阶段主要从事SPARQL查询优化相关工作。目前在华为公司参与华为云GaussDB(for MySQL) HTAP只读内核功能设计和研发。 1. 引言 HTAP(Hybrid Transactional/Analytical Processing)这个词
阅读全文
摘要:林舒,20年以上数据库内核研发经验。原IBMDB2数据库内核专家,专长数据库内核性能优化、SQL查询优化、MPP分布式数据仓库技术等。现就职于华为加拿大研究所,全程参与了RDS for MySQL以及GaussDB(for MySQL)的研发工作,熟悉GaussDB(for MySQL) 全栈技术。
阅读全文
摘要:本文作者康祥,华为云数据库内核开发工程师,研究生阶段主要从事SPARQL查询优化相关工作。目前在华为公司参与华为云GaussDB(for MySQL) HTAP只读内核功能设计和研发。 1. 引言 HTAP(Hybrid Transactional/Analytical Processing)这个词
阅读全文
摘要:操作场景 如果您的业务(如视频、电商平台)有大量图片或视频等资源需要为用户展示,且希望这些资源可以被用户快速获取。您可以使用华为云“DDoS高防+CDN”联动方案,使这些资源快速被用户获取,同时提高用户登录平台和支付能力等业务系统的网络能力,保证平台稳定运行。 使用场景说明 当用户的视频、电商等业务
阅读全文
摘要:前提条件 已经按照域名准入要求准备好需要接入的域名和华为云账号。 已购买WAF。 已开通CDN服务。 背景信息 CDN是构建在现有互联网基础之上的一层智能虚拟网络,通过在网络各处部署节点服务器,实现将源站内容分发至所有CDN节点,使用户可以就近获得所需的内容,所以接入CDN的网站都能有比较快的响应速
阅读全文
摘要:每一次更迭, 都是伴随着新一轮的科技革命, 创新没有终点,华为一直在路上…… 为了满足未来颠覆性的自动驾驶场景应用,华为云会议与华为HiCar智慧出行场景合作,将华为云会议的音视频能力结合到了华为HiCar当中。强大的音视频和开放能力,结合华为手机强悍的分布式技术,把手机和汽车的硬件资源、系统能力快
阅读全文
摘要:背景 在银行传统的信用评估决策机制中,最常用的几个特征维度无非是个人资产、收入、信贷历史、抵押担保等。这些维度虽然能够反映借款人的还款能力,但是过于简单的规则往往也会拒绝掉很多潜在的优质客户。并且审核过程过于依赖网点客户经理,不但成本很高,人为风险也比较大。 随着互联网的快速发展,我们在网络上留下越
阅读全文
摘要:开发者李雷小朋友维护了一个自己的关系链图数据库,他怎么能从图数据库中查询出与他互相关注且年龄大于30的朋友呢? 这里先介绍几种图原生查询语言写法: 1.gremlin g.V("李雷").outE('friend').has('age',gt(30)).otherV().where(out('fri
阅读全文
摘要:以下文章来源于ITPUB ,作者陶然 云、AI、5G等技术驱动,数据库行业迎来新的需求,云数据库也在不断演进升级。依托华为云与华为云Stack,通过全栈软硬件优化,华为云GaussDB进行了进阶与革新,以统一的架构,支持关系型与非关系型的数据库引擎。 近日,在第十二届中国数据库技术大会上,笔者有幸采
阅读全文
摘要:一、传统数据湖存在的问题与挑战 传统数据湖解决方案中,常用Hive来构建T+1级别的数据仓库,通过HDFS存储实现海量数据的存储与水平扩容,通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果,但依然存在如下现状问题: 问题一:不支持事务 由于传统大数据方案不
阅读全文
摘要:数据湖与实时数据湖是什么? 各个行业企业都在构建企业级数据湖,将企业内多种格式数据源汇聚的大数据平台,通过严格的数据权限和资源管控,将数据和算力开放给各种使用者。一份数据支持多种分析,是数据湖最大的特点。如果数据湖的数据,从数据源产生后,可以在1分钟以内实时进入到数据湖存储,支持各种交互式分析,这种
阅读全文
摘要:以下文章来源于ITPUB ,作者老鱼 不知不觉,华为携GaussDB正式产业化运作已经有两年多了。这两年,国内数据库市场在多维度发生着巨大的变化,国际局势、疫情、数字化转型、信创等加速了全社会对国产数据库的认知和接受程度,而GaussDB自身也变化极大。 2019年5月15日,华为正式推出Gauss
阅读全文
摘要:以下文章来源于ITPUB ,作者陶然 近年来,去“O”的呼声越来越大,大量的传统企业开始脱离“IOE”集中式架构,进行分布式改造,迈向云端。但去“O”并非易事,去“O”的过程也困难重重,那么,有没有什么高效简单的去“O”方案呢?近日,在第十二届中国数据库技术大会上,笔者有幸采访到了华为云数据库技术专
阅读全文
摘要:1.kafka集群单个节点磁盘挂载的越多越好 业界Kafka的标准使用方式是作为临时缓存使用。因此,很多人会误以为,kafka的每个节点只要存储够大就行,不用关心其他的指标。官方并不建议kafka单节点关在多个磁盘,因为磁盘越多,表示需要更多的处理线程去管理(num.io.thread决定),CPU
阅读全文
摘要:背景说明 随着流计算的发展,挑战不再仅限于数据量和计算量,业务变得越来越复杂,开发者可能是资深的大数据从业者、初学 Java 的爱好者,或是不懂代码的数据分析者。如何提高开发者的效率,降低流计算的门槛,对推广实时计算非常重要。 SQL 是数据处理中使用最广泛的语言,它允许用户简明扼要地展示其业务逻辑
阅读全文
摘要:Clickhouse作为一个OLAP数据库,它对事务的支持非常有限。Clickhouse提供了MUTATION操作(通过ALTER TABLE语句)来实现数据的更新、删除,但这是一种“较重”的操作,它与标准SQL语法中的UPDATE、DELETE不同,是异步执行的,对于批量数据不频繁的更新或删除比较
阅读全文
摘要:Clickhouse 副本节点之间通过Zookeeper 的log数据和其他控制信息,实现了副本间数据的异步同步。本文中简单介绍插入数据后副本之间同步流程。 副本表Zookeeper目录结构 创建副本表,并插入数据,在Zookeeper上可以看到表目录下主要包含下列目录信息, ReplicatedM
阅读全文
摘要:ClickHouse是Yandex开发的用于联机分析(OLAP)的DBMS。 2016年根据Apache 2.0许可证开源。功能上支持DDL、DML、数据备份恢复、权限控制、分布式管理等完备的DBMS功能,SQL基本与标准SQL兼容,支持丰富的函数和数据类型,具有强大的MergeTree表引擎,列式
阅读全文
摘要:背景介绍 随着数据湖技术从离线向实时的发展,数据湖在业务已逐渐从辅助决策向实时决策,实时干预甚至提前预防的方向发展,同时,随着国家把数据作为第五种生产要素,数据据价值在逐步提升,这样对海量数据湖的可靠性提出了新的要求。 首先,数据湖作为企业全量数据存储的地方,对数据的安全性有着至关重要的作用,如何保
阅读全文
摘要:1 前言 MRS CDL是华为云FusionInsight MRS推出的一种数据实时同步服务,旨在将传统OLTP数据库中的事件信息捕捉并实时推送到大数据产品中去,本文档会详细为大家介绍CDL的整体架构以及关键技术。 2 CDL的概念 MRS CDL(Change Data Loader)是一款基于K
阅读全文
摘要:本文将介绍如何在 Spark scala 程序中调用 Python 脚本,Spark java程序调用的过程也大体相同 1.PythonRunner 对于运行与 JVM 上的程序(即Scala、Java程序),Spark 提供了 PythonRunner 类。只需要调用PythonRunner 的m
阅读全文
摘要:海量训练数据是人工智能技术在各个领域成功应用的重要条件。例如,计算机视觉和商务经融推荐系统中的 AI 算法都依靠大规模标记良好的数据才能获得较好的推理效果。然而在医疗、银行以及一些政务领域中,行业内对数据隐私的保护越来越强,造成可用数据严重匮乏的现状。针对上述问题,华为云可信智能计算服务( TICS)专为打破银行、政企等行业的数据壁垒,实现数据安全共享,设计了多方联邦学习方案。
本篇博客主要介绍了华为云可信智能计算服务(TICS)采用的纵向联邦逻辑回归(LR)方案。
阅读全文
摘要:背景信息 CDN缓存命中率低,会导致源站压力大,静态资源访问效率低。您可以针对导致CDN缓存命中率低的具体原因,选择对应的优化策略,来提高CDN的缓存命中率。CDN缓存命中率包括流量命中率和请求命中率。 流量命中率 = 命中缓存产生的流量 / 请求总流量 **请求命中率 **= 命中缓存的请求数 /
阅读全文
摘要:现在越来越多的行业使用OBS桶存储图片、视频、软件包等静态资源文件,并将OBS桶作为网站、论坛、APP、游戏等业务的存储源。在需要获取这些静态资源时,用户通过URL直接从OBS桶请求数据。OBS桶能够很好的解决本地存储不够用的难题,但一般情况下文件只存储在一个区域,不同区域的用户访问OBS桶的响应速
阅读全文
摘要:Hash Join是在进行多表连接时常用的方式之一。那如何在openLooKeng上构建并实现Hash Join?openLooKeng支持的Join类型有哪些?本期,社区小伙伴将分享[openLooKeng Hash Join 实现原理],从构建到使用,内容十分详细,希望对大家有帮助。 1 ope
阅读全文
摘要:作者经历了多次基于HBase实现全量与增量数据的迁移测试,总结了在使用HBase进行数据迁移的多种实践,本文针对全量与增量数据迁移的场景不同,提供了1+2的技巧分享。 HBase全量与增量数据迁移的方法 1.背景 在HBase使用过程中,使用的HBase集群经常会因为某些原因需要数据迁移。大多数情况
阅读全文
摘要:这两年,视频会议从疫情环境下的被迫选择,到全面复工后的不降反增,再到现在已成为常态化办公方式,视频会议软件也从疫情期间的免费开放使用,到现在需要购买会员才能解锁更多功能。一款好的视频会议软件当然可以起到事半功倍的效果,但如果没选对,很有可能花了钱还多了麻烦。那么问题来了,如何在这么多视频会议软件中选
阅读全文
摘要:一、 静态分区 1.创建静态分区格式: create table employees ( name string, salary float, subordinated array<string>, deductions map<string,float>, address struct<stree
阅读全文
摘要:MRS IoTDB时序数据库的总体架构设计与实现 MRS IoTDB是华为FusionInsight MRS大数据套件最新推出的时序数据库产品,其领先的设计理念在时序数据库领域展现出越来越强大的竞争力,得到了越来越多的用户认可。为了大家更好地了解MRS IoTDB,本文将会系统地为大家介绍MRS I
阅读全文
摘要:本文分享自华为云社区《华为云FusionInsight MRS跨湖跨仓场景下如何实现海量数据分钟级分析》,原文作者:沙漏。 华为开发者大会2021(Cloud)于2021年4月24日-26日在深圳成功举行。本届大会以#每一个开发者都了不起#为主题,为众多开发者带来一场ICT方面的技术盛宴。 大会期间
阅读全文
摘要:基础设施即服务 | infoQ 新基建背景下,数据中心作为支撑新基建发展的重要 IT 基础设施,愈发受到重视。除三大运营商外,BAT 等互联网巨头近年也开始大力投入数据中心的建设和布局。近日,InfoQ 记者来到华为云贵安数据中心实地探访,进一步了解 AI 和大数据等技术在支撑超大型数据中心日常运转
阅读全文
摘要:数据库和数仓是承载金融等企业核心交易业务与数据处理的基石。 华为云Stack为政企客户提供基于openGauss开放生态的企业级分布式数据库GaussDB(for openGauss),具备企业级复杂事务混合负载能力,支持分布式事务、同城跨AZ及两地三中心部署。数据0丢失,1000+扩展能力,PB级
阅读全文
摘要:2022年2月27日,我国在文昌发射场使用长征八号运载火箭,以“1箭22星”方式,成功将“创新雷神号”卫星等共22颗卫星发射升空。卫星主要用于提供商业遥感信息、海洋环境监测、森林防火减灾等服务。其中“创新雷神号” 作为“天算星座”计划的第二颗先导试验星,主要基于由北京邮电大学、华为云、北京大学联合研
阅读全文