摘要: 项目背景 本项目为车联网监控系统,系统由车载硬件设备、云服务端构成。车载硬件设备会定时采集车辆的各种状态信息,并通过移动网络上传到服务器端。服务器端接收到硬件设备发送的数据首先需要将数据进行解析,校验,随后会将该消息转发到国家汽车监测平台和地方汽车监测平台,最后将解析后的明文数据和原始报文数据存储到 阅读全文
posted @ 2019-01-10 19:58 大数据从业者FelixZh 阅读(2981) 评论(0) 推荐(1) 编辑
摘要: 用户模型简介 知乎 AI 用户模型服务于知乎两亿多用户,主要为首页、推荐、广告、知识服务、想法、关注页等业务场景提供数据和服务, 例如首页个性化 Feed 的召回和排序、相关回答等用到的用户长期兴趣特征,问题路由、回答排序中用到的 TPR「作者创作权威度」,广告定向投放用到的基础属性等。 主要功能 阅读全文
posted @ 2019-01-10 19:22 大数据从业者FelixZh 阅读(1035) 评论(0) 推荐(0) 编辑
摘要: 在第一次建立Hbase表的时候,我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中,或者通过MR方式等。 但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下,所以很不适合一次性导入大量数据。 本文将针对这个问题介绍如何通过Hbase的Bul 阅读全文
posted @ 2019-01-10 19:07 大数据从业者FelixZh 阅读(1038) 评论(0) 推荐(0) 编辑
摘要: 一、spark写入hbase hbase client以put方式封装数据,并支持逐条或批量插入。spark中内置saveAsHadoopDataset和saveAsNewAPIHadoopDataset两种方式写入hbase。为此,将同样的数据插入其中对比性能。依赖如下: 1. put逐条插入1. 阅读全文
posted @ 2019-01-10 17:17 大数据从业者FelixZh 阅读(4221) 评论(0) 推荐(0) 编辑
摘要: 1.概述 在进行数据传输中,批量加载数据到HBase集群有多种方式,比如通过HBase API进行批量写入数据、使用Sqoop工具批量导数到HBase集群、使用MapReduce批量导入等。这些方式,在导入数据的过程中,如果数据量过大,可能耗时会比较严重或者占用HBase集群资源较多(如磁盘IO、H 阅读全文
posted @ 2019-01-10 16:54 大数据从业者FelixZh 阅读(2632) 评论(0) 推荐(0) 编辑