关于数据上传阿里云MaxCompute调研
1.背景
当前的数据存储基于mysql库表存储形式,目前已经无法满足愈加增大的数据存储需求,新项目基于Maxcompute数据仓库架构,需要将统计日志上传Maxcompute,本文对Maxcompute系统数据上传进行调研,测试,包括基于LogStash收集的DataHub实时数据通道和批量数据通道SDK等。
2技术调研及测试
2.1数据通道SDK
2.1.1 UploadSession
2.1.1.1 说明
MaxCompute Tunnel是MaxCompute的数据通道,可通过提供接口上传数据;
接口定义如下:
public class UploadSession {
UploadSession(Configuration conf, String projectName, String tableName,
String partitionSpec) throws TunnelException;
UploadSession(Configuration conf, String projectName, String tableName,
String partitionSpec, String uploadId) throws TunnelException;
public void commit(Long[] blocks);
public Long[] getBlockList();
public String getId();
public TableSchema getSchema();
public UploadSession.Status getStatus();
public Record newRecord();
public RecordWriter openRecordWriter(long blockId);
public RecordWriter openRecordWriter(long blockId, boolean compress);
public RecordWriter openBufferedWriter();
public RecordWriter openBufferedWriter(boolean compress);
}
接口说明如下:
生命周期:从创建Upload实例到结束上传。
创建Upload实例:通过调用构造方法和TableTunnel两种方式进行创建。
请求方式:同步。
Server端会为该Upload创建一个session, 生成唯一UploadId标识该Upload,客户端可以通过getId获取。
上传数据:
请求方式:同步。
调用openRecordWriter方法,生成RecordWriter实例,其中参数blockId用于标识此次上传的数据,也描述了数据在整个表中的位置,取值范围为[0,20000],当数据上传失败,可以根据blockId重新上传。
查看上传:
请求方式:同步。
调用getStatus可以获取当前Upload状态。
调用getBlockList可以获取成功上传的blockid list,可以和上传的blockid list对比,对失败的blockId重新上传。
结束上传:
请求方式:同步。
调用commit(Long[] blocks)方法,参数blocks列表表示已经成功上传的block列表,Server端会对该列表进行验证。
该功能是加强对数据正确性的校验,如果提供的block列表与Server端存在的block列表不一致抛出异常。
Commit失败可以进行重试。
状态如下:
UNKNOWN:Server端刚创建一个Session时设置的初始值。
NORMAL:创建Upload对象成功。
CLOSING:当调用complete方法(结束上传)时,服务端会先把状态置为CLOSING。
CLOSED:完成结束上传(即把数据移动到结果表所在目录)后。
EXPIRED:上传超时。
CRITICAL:服务出错。
同一个Upload中Session的blockId不能重复。也就是说,对于同一个UploadSession,用一个blockId打开RecordWriter,写入一批数据后,调用close,然后再commit完成后,不可以重新再用该blockId打开另一个RecordWriter写入数据。
一个block大小上限100GB,建议大于64M的数据。
每个Session在服务端的生命周期为24小时。
上传数据时,Writer每写入8KB数据,便会触发一次网络动作,如果120秒内没有网络动作,服务端将主动关闭连接,此时Writer将不可用,重新打开一个新的Writer写入。
官方建议使用openBufferedWriter接口上传数据,屏蔽了blockId的细节,并且内部带有数据缓存区,会自动进行失败重试;
2.1.1.2示例代码
public class UploadSample {
private static String accessId = “******";
private static String accessKey = "******";
private static String odpsUrl = "http://service.odps.aliyun.com/api";
private static String tunnelUrl = "http://dt.cn-shanghai.maxcompute.aliyun.com";
//设置tunnelUrl,若需要走内网时必须设置”aliyun-inc”,否则默认公网。
private static String project = "BaseDatawarehouse";
private static String table = "origin_data";
private static String partition = "2018-07-02";
public static void main(String args[]) {
Account account = new AliyunAccount(accessId, accessKey);
Odps odps = new Odps(account);
odps.setEndpoint(odpsUrl);
odps.setDefaultProject(project);
try {
TableTunnel tunnel = new TableTunnel(odps);
tunnel.setEndpoint(tunnelUrl);//tunnelUrl设置
PartitionSpec partitionSpec = new PartitionSpec(partition);
UploadSession uploadSession = tunnel.createUploadSession(project,
table, partitionSpec);
TableSchema schema = uploadSession.getSchema();
// 准备数据后打开Writer开始写入数据,准备数据后写入一个Block
RecordWriter recordWriter = uploadSession.openRecordWriter(0);
Record record = uploadSession.newRecord();
for (int i = 0; i < schema.getColumns().size(); i++) {
Column column = schema.getColumn(i);
switch (column.getType()) {
case BIGINT:
record.setBigint(i, 1L);
break;
case BOOLEAN:
record.setBoolean(i, true);
break;
case DATETIME:
record.setDatetime(i, new Date());
break;
case DOUBLE:
record.setDouble(i, 0.0);
break;
case STRING:
record.setString(i, "sample");
break;
default:
throw new RuntimeException("Unknown column type: "
+ column.getType());
}
}
for (int i = 0; i < 10; i++)
recordWriter.write(record);
}
recordWriter.close();
uploadSession.commit(new Long[]{0L});
System.out.println("upload success!");
} catch (TunnelException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}
2.1.2 TunnelBufferedWriter
2.1.2.1 说明
TunnelBufferedWriter是官方推荐的接口,也是本次测试所用的接口;
一次完整的上传流程通常包括以下步骤:
1、先对数据进行划分。
2、为每个数据块指定block Id,即调用openRecordWriter(id)。
3、用一个或多个线程分别将这些block上传上去,并在某个block上传失败以后,需要对整个block进行重传。
4、在所有block都上传以后,向服务端提供上传成功的blockid list进行校验,即调用session.commit([1,2,3,…])。
5、由于服务端对block管理,连接超时等的一些限制,上传过程逻辑变得比较复杂,为了简化上传过程,SDK提供了更高级的一种RecordWriter—TunnelBufferWriter。
接口定义如下:
public class TunnelBufferedWriter implements RecordWriter {
public TunnelBufferedWriter(TableTunnel.UploadSession session, CompressOption option) throws IOException;
public long getTotalBytes();
public void setBufferSize(long bufferSize);
public void setRetryStrategy(RetryStrategy strategy);
public void write(Record r) throws IOException;
public void close() throws IOException;
}
TunnelBufferedWriter 对象:
生命周期:从创建RecordWriter到数据上传结束。
创建TunnelBufferedWriter实例:通过调用UploadSession的openBufferedWriter接口创建。
数据上传:调用Write接口,数据会先写入本地缓存区,缓存区满后会批量提交到服务端,避免了连接超时,同时,如果上传失败会自动进行重试。
结束上传:调用close接口,最后再调用UploadSession的commit接口,即可完成上传。
缓冲区控制:可以通过setBufferSize接口修改缓冲区占内存的字节数(bytes),建议设置64M以上的大小,避免服务端产生过多小文件,影响性能,一般无须设置,维持默认值即可。
重试策略设置:可以选择三种重试回避策略:指数回避(EXPONENTIAL_BACKOFF)、线性时间回避(LINEAR_BACKOFF)、常数时间回避(CONSTANT_BACKOFF)。例如:下面这段代码可以将Write的重试次数调整为6,每一次重试之前先分别回避4s、8s、16s、32s、64s和128s(从4开始的指数递增的序列),这个也是默认的行为,一般情况不建议调整。
2.1.2.2 测试代码
public class uplodsession {
private static String accessId = "******";
private static String accessKey = "******";
private static String odpsUrl = "http://service.odps.aliyun.com/api";
private static String tunnelUrl = "http://dt.cn-beijing.maxcompute.aliyun.com";
//设置tunnelUrl,若需要走内网时必须设置,否则默认公网。
private static String project = "******";
private static String table = "******";
public static void main(String[] args) {
Account account = new AliyunAccount(accessId, accessKey);
Odps odps = new Odps(account);
odps.setEndpoint(odpsUrl);
odps.setDefaultProject(project);
TableTunnel tunnel = new TableTunnel(odps);
tunnel.setEndpoint(tunnelUrl);//tunnelUrl
TableTunnel.UploadSession uploadSession = null;
//获取开始时间
long startTime = System.currentTimeMillis();
try {
uploadSession = tunnel.createUploadSession(project,table);
System.out.println("Session Status is : "
+ uploadSession.getStatus().toString());
RecordWriter recordWriter = uploadSession.openBufferedWriter();
Record product = uploadSession.newRecord();
String message = ""
for (int i=0;i<1000000;i++){
product.setString("log",message);
recordWriter.write(product);
count=count+1;
if(count>=10000){
recordWriter.close();
uploadSession.commit();
System.out.println("開始提交");
break;
}
}
System.out.println("upload success!");
//获取结束时间
long endTime = System.currentTimeMillis();
System.out.println("程序运行时间:" + (endTime - startTime) + "ms"); //输出程序运行时间
} catch (TunnelException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}
2.1.3 消费kafka数据写入Maxcompute
2.1.3.1 示例代码
public class up {
public static void main(String[] args) throws IOException, TunnelException {
ConsumerConnector consumer;
// 连接的Zookeeper接口, 不同业务模块使用的数据是相同的
String zookeeper = "10.172.217.86:2181,10.44.143.42:2181,10.252.0.171:2181";
// Kafka消费者订阅的主题,临时测试主
String topic = "testReceivelog";
String groupId = "testConsumer";
String accessId = "******";
String accessKey = "******";
String odpsUrl = "http://service.odps.aliyun.com/api";
String tunnelUrl = "http://dt.cn-beijing.maxcompute.aliyun.com";
//设置tunnelUrl,若需要走内网时必须设置,否则默认公网。此处给的是华东2经典网络Tunnel Endpoint,其他region可以参考文档《访问域名和数据中心》。
String project = "BaseDatawarehouse";
String table = "origin_data";
Properties props = new Properties();
props.put("zookeeper.connect", zookeeper);
props.put("group.id", groupId);
props.put("zookeeper.session.timeout.ms", "500");
props.put("zookeeper.sync.time.ms", "250");
props.put("auto.commit.interval.ms", "1000");
consumer = Consumer.createJavaConsumerConnector(new ConsumerConfig(props));
Account account = new AliyunAccount(accessId, accessKey);
Odps odps = new Odps(account);
odps.setEndpoint(odpsUrl);
odps.setDefaultProject(project);
TableTunnel tunnel = new TableTunnel(odps);
tunnel.setEndpoint(tunnelUrl);//tunnelUrl
TableTunnel.UploadSession uploadSession = null;
RecordWriter recordWriter = null;
try {
uploadSession = tunnel.createUploadSession(project, table);
System.out.println("Session Status is : "
+ uploadSession.getStatus().toString());
recordWriter = uploadSession.openBufferedWriter();
} catch (TunnelException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
Record product = uploadSession.newRecord();
Map<String, Integer> topicCount = new HashMap<>();
//3线程消费3partition数据
topicCount.put(topic, 3);
Map<String, List<KafkaStream<byte[], byte[]>>> consumerStreams = consumer.createMessageStreams(topicCount);
List<KafkaStream<byte[], byte[]>> streams = consumerStreams.get(topic);
for (final KafkaStream stream : streams) {
ConsumerIterator<byte[], byte[]> it = stream.iterator();
int count = 0;
while (it.hasNext()) {
String message = new String(it.next().message());
//写入
product.setString("log", message);
recordWriter.write(product);
count = count + 1;
if (count >= 10000) {
recordWriter.close();
uploadSession.commit();
count = 0;
uploadSession = tunnel.createUploadSession(project, table);
recordWriter = uploadSession.openBufferedWriter();
product = uploadSession.newRecord();
}
}
if (consumer != null) {
consumer.shutdown();
}
if(recordWriter!=null){
recordWriter.close();
}
}
}
优点:
批量导入,效率高,数据无丢失;
缺点:
1、批量倒入,数据无法精确归档(根据统计需求,需要将日志按照天、小时归档,如果对每条数据处理则更不适合,需要实时处理);
2、批量导入,上传效率依赖于消费kafka;
3、Kafka适合实时处理,不适合批量操作;
4、批量导入,数据归档有误差,每批次中含有除当前分区外的其他分区数据,造成统计指标失准;
2.2 DataHub实时数据通道
2.2.1 说明
产品优势:
1、高吞吐
最高支持单主题(Topic)每日T级别的数据量写入,每个分片(Shard)支持最高每日8000万Record级别的写入量。
2、实时性
通过DataHub ,您可以实时的收集各种方式生成的数据并进行实时的处理,对您的业务产生快速的响应。
3、易用性
DataHub提供丰富的SDK包,包括C++, JAVA, Pyhon, Ruby, Go等语言;DataHub服务也提供Restful API规范,您可以用自己的方式实现访问接口。除了SDK以外,DataHub还提供一些常用的客户端插件,包括:Fluentd,LogStash,Flume等,可以使用这些客户端工具往DataHub中写入流式数据。
DataHub同时支持强Schema的结构化数据和无类型的非结构化数据。
4、高可用
服务可用性不低于99.999%。
规模自动扩展,不影响对外服务。
数据持久性不低于99.999%。
数据自动多重冗余备份。
5、动态伸缩
每个主题(Topic)的数据流吞吐能力可以动态扩展和减少,最高可达到每主题256000 Records/s的吞吐量。
6、高安全性
提供企业级多层次安全防护,多用户资源隔离机制。
提供多种鉴权和授权机制及白名单、主子账号功能。
7、DataHub服务基于阿里云自研的飞天平台,具有高可用,低延迟,高可扩展,高吞吐的特点。DataHub与阿里云流计算引擎StreamCompute无缝连接,可以轻松使用SQL进行流数据分析。
DataHub服务也提供分发流式数据到各种云产品的功能,目前支持分发到MaxCompute(原ODPS),OSS等。
功能图:
2.2.1.1 流式数据同步DataConnector
DataHub DataConnector是把DataHub服务中的流式数据同步到其他云产品中的功能,目前支持将Topic中的数据实时/准实时同步到MaxCompute(ODPS)、OSS、ElasticSearch、RDS Mysql、ADS、TableStore中。用户只需要向DataHub中写入一次数据,并在DataHub服务中配置好同步功能,便可以在各个云产品中使用这份数据。数据同步支持at least once语义,在网络服务异常等小概率场景下可能会导致目的端的数据产生重复。
DataConnector支持系统
目标系统 |
时效性 |
描述 |
MaxCompute(Odps) |
准实时,通常情况5分钟延迟 |
同步Topic中流式数据到离线MaxCompute表,字段类型名称需一一对应,且DataHub中必须包含一列(或多列)MaxCompute表中分区列对应的字段 |
OSS |
实时 |
同步数据到对象存储OSS指定Bucket的文件中,将以csv格式保存 |
ElasticSearch |
实时 |
同步数据到ElasticSearch指定Index中,Shard之间数据同步不保证时序,所以需将同样ID的数据写入相同的Shard中 |
Mysql |
实时 |
同步数据到指定的Rds Mysql表中 |
ADS |
实时 |
同步数据到指定的ADS表中 |
TableStore |
实时 |
同步数据到指定的TableStore表中 |
如何创建
创建Connector主要需要如下前置条件:
准备对应的MaxCompute表,该表字段类型、名称、顺序必须与DataHub Topic字段完全一致,如果三个条件中的任意一个不满足,则归档Connector无法创建。字段类型对应表见后表。
访问MaxCompute账号的设置,该账号必须具备该MaxCompute的Project的CreateInstance权限和归档MaxCompute表的Desc、Alter、Update权限,建议使用一个特殊最小权限的账号。官方建议使用RAM用户账号。
DataHub Topic的Owner/Creator账号, 才有相应的权限操作Connector,包括创建,删除等。
只支持将TUPLE类型的DataHub Topic同步到MaxCompute表中
操作流程: Project列表->Project查看->Topic查看->点击归档MaxCompute->填写配置,点击创建
配置说明:
名称 |
是否必须 |
描述 |
MaxCompute Project |
yes |
MaxComputeProject名称 |
MaxCompute Table |
yes |
MaxCompute表名称 |
AccessId |
yes |
访问MaxCompute的阿里云账号AccessId |
AccessKey |
yes |
访问MaxCompute的阿里云账号AccessKey |
分区选项 |
yes |
SYSTEM_TIME、EVENT_TIME、USER_DEFINE三种模式,SystemTime模式会使用写入时间转化为字符串进行分区,EventTime模式会根据topic中固定的event_time字段时间进行分区(需要在创建Topic时增加一个TIMESTAMP类型名称为event_time的字段,并且写入数据时向这个字段写入其微秒时间),UserDefine模式将会直接使用用户自定义的分区字段字符串分区 |
分区范围 |
yes |
划分分区的时间间隔,在SYSTEM_TIME、EVENT_TIME两种模式下生效,最少为15分钟 |
分区格式定义 |
yes |
目前仅支持固定格式,未来将会开放为自定义格式,目前格式下,若为15分钟的分区范围,则会产生ds=20170704,hh=01,mm=15这样的分区 |
注意:
支持MaxCompute分区表
分区选项选择SYSTEM_TIME模式,表结构对应如下:
MaxCompute表: table_test(f1 string, f2 string, f3 double) partitioned by (ds string, hh string, mm string)
对应Topic应为如下的Schema:
Topic: topic_test(f1 string, f2 string, f3 double)
数据同步时根据写入时间确定ds/hh/mm的值写入MaxCompute
分区选项选择EVENT_TIME模式,表结构对应如下:
MaxCompute表: table_test(f1 string, f2 string, f3 double) partitioned by (ds string, hh string,mm string)
对应Topic应为如下的Schema:
Topic: topic_test(f1 string, f2 string, f3 double, event_time timestamp)
数据同步时根据event_time字段时间戳确定ds/hh/mm的值写入MaxCompute
分区选项选择USER_DEFINE模式,表结构对应如下:
MaxCompute表: table_test(f1 string, f2 string, f3 double) partitioned by (ds string, pt string)
对应Topic应为如下的Schema:
Topic: topic_test(f1 string, f2 string, f3 double, ds string, pt string)
数据同步时根据ds、pt的数据值,写入对应分区
USER_DEFINE模式下MaxCompute分区字段内容必须非空UTF8字符串,否则归档任务将无法正常运行或数据无效被丢弃。
USER_DEFINE模式下MaxCompute的分区字段的值必须符合MaxCompute对分区字段值的范围要求,否则归档任务将无法正常运行。
分区选项为EventTime模式时,若event_time字段的数据值是null或非法,会降级使用数据写入DataHub的SystemTime写入对应分区。
数据归档的频率为每个Shard每5分钟或者Shard中新写入的数据量达到64MB,DataConnector服务会批量进行一次数据归档进入MaxCompute表的操作。所以数据写入DataHub Topic后至多5分钟后在MaxCompute可以被查询到。
DataHub与MaxCompute字段类型对应表:
MaxCompute表中的类型 |
DataHub Topic中的类型 |
STRING |
STRING |
DOUBLE |
DOUBLE |
BIGINT |
BIGINT |
DATETIME |
TIMESTAMP |
BOOLEAN |
BOOLEAN |
DECIMAL |
DECIMAL |
MAP |
不支持 |
ARRAY |
不支持 |
最高支持单主题(Topic)每日T级别的数据量写入,每个分片(Shard)支持最高每日8000万Record级别的写入量,每个主题(Topic)的数据流吞吐能力可以动态扩展和减少,最高可达到每主题256000 Records/s的吞吐量,目前1个分片就足以支撑我们的数据量。
3. 对比与结论
3.1数据通道SDK
数据通道SDK上传流程如图:图略
说明:
延续用已有的数据采集架构,新建groupid 消费kafka的统一topic,然后springboot后台实时消费kafka数据,每10000条上传一次Maxcompute。
优点:
可以不用log重新采集,使用数据通道SDK可以解决DataHub的使用成本(SDK上传MaxCOmpute目前只有杭州能走内网,华北2北京要走公网,会流量费用)
不足:
1、批量上传,数据归档存在问题,造成统计结果存在误差。
2、数据上传效率依赖卡夫卡吞吐,存在单点故障隐患。
3.2 DataHub实时数据通道
DataHub 上传数据流程图:图略
说明:
从新搭建数据采集,与原有采集系统隔离,通过logstash直接上传数据到DataHub,数据实时归档到MaxCompute
优点:
1、以后实时计算直接可在DataHub接StreamCompute复用性扩展性比较好。
2、数据可实时归档,保证统计结果正确。
3、链路较短易维护,同时使用DataHub零维护,可靠性好。
4、吞吐量大,完全支撑日益增长的数据量。
3.3 结论
对比表:
|
DataHub |
数据通道SDK |
吞吐量 |
最高支持单主题(Topic)每日T级别的数据量写入,每个分片(Shard)支持最高每日8000万Record级别的写入量每个主题(Topic)的数据流吞吐能力可以动态扩展和减少,最高可达到每主题256000 Records/s的吞吐量。 |
单个block上传的数据限制为100G,最多可20000个block |
实时性 |
实时数据通道数据直接由logstash收集不用读kafka数据实时写入,每topic数据量达64M,或者当前数据超过五分钟会自动写入Maxcompute归档,实时性好 |
因为需要实时读取kafka数据,每读64m的数据会提交一次,需要http访问,目前华北二只能走公网,所以延迟很大 |
可靠性 |
服务可用性不低于99.999% 规模自动扩展,不影响对外服务 数据持久性不低于99.999% 数据自动多重冗余备份 |
存在单点故障问题,无法保证续传 |
数据归档 |
通过创建DataHub Connector,指定相关配置,即可创建将Datahub中流式数据定期归档的同步任务,数据产生时间与归档时间误差极小,目前测试按照天,小时,分钟对数据进行归档,以便统计和存储 |
批量上传无法准确归档,如准确归档需要每一条数据处理一次,上传一次,那么吞吐十分低,满足不了我们日益增长的数据量 |
维护成本 |
云服务零维护成本 |
需要根据需求开发上传代码,监控任务以及上传的数据完整性,维护成本高 |
费用成本 |
因为数据最终存储MaxCompute,datahub作为其一组件不产生费用 |
共享已有服务器资源无费用 |
通过两种上传方式调研、测试,以及上传数据流程对比,DataHub实时数据通道,有更好的可扩展性,能准确的对数据进行归档,以及良好的可靠性和零维护,所以采用这种方式作为数据上传比较合适。