2019 年 1月 10 日随笔档案 - 大数据从业者FelixZh

2019年1月10日

摘要：项目背景本项目为车联网监控系统，系统由车载硬件设备、云服务端构成。车载硬件设备会定时采集车辆的各种状态信息，并通过移动网络上传到服务器端。服务器端接收到硬件设备发送的数据首先需要将数据进行解析，校验，随后会将该消息转发到国家汽车监测平台和地方汽车监测平台，最后将解析后的明文数据和原始报文数据存储到阅读全文

posted @ 2019-01-10 19:58 大数据从业者FelixZh 阅读(2981) 评论(0) 推荐(1) 编辑

HBase实践案例：知乎 AI 用户模型服务性能优化实践

摘要：用户模型简介知乎 AI 用户模型服务于知乎两亿多用户，主要为首页、推荐、广告、知识服务、想法、关注页等业务场景提供数据和服务，例如首页个性化 Feed 的召回和排序、相关回答等用到的用户长期兴趣特征，问题路由、回答排序中用到的 TPR「作者创作权威度」，广告定向投放用到的基础属性等。主要功能阅读全文

posted @ 2019-01-10 19:22 大数据从业者FelixZh 阅读(1035) 评论(0) 推荐(0) 编辑

通过BulkLoad快速将海量数据导入到Hbase

摘要：在第一次建立Hbase表的时候，我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中，或者通过MR方式等。但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下，所以很不适合一次性导入大量数据。本文将针对这个问题介绍如何通过Hbase的Bul 阅读全文

posted @ 2019-01-10 19:07 大数据从业者FelixZh 阅读(1038) 评论(0) 推荐(0) 编辑

spark读写hbase性能对比

摘要：一、spark写入hbase hbase client以put方式封装数据，并支持逐条或批量插入。spark中内置saveAsHadoopDataset和saveAsNewAPIHadoopDataset两种方式写入hbase。为此，将同样的数据插入其中对比性能。依赖如下： 1. put逐条插入1. 阅读全文

posted @ 2019-01-10 17:17 大数据从业者FelixZh 阅读(4221) 评论(0) 推荐(0) 编辑

HBase BulkLoad批量写入数据实战

摘要： 1.概述在进行数据传输中，批量加载数据到HBase集群有多种方式，比如通过HBase API进行批量写入数据、使用Sqoop工具批量导数到HBase集群、使用MapReduce批量导入等。这些方式，在导入数据的过程中，如果数据量过大，可能耗时会比较严重或者占用HBase集群资源较多（如磁盘IO、H 阅读全文

posted @ 2019-01-10 16:54 大数据从业者FelixZh 阅读(2632) 评论(0) 推荐(0) 编辑

大数据从业者

最新文章，见微信公众号：大数据从业者

公告