wqbin - 博客园

2019年7月31日

摘要：在数据分析数据差异的时候经常用到一个图叫做迁移矩阵。其中里面的值可以是数量也可以是百分比，我们可以从一个时间点明确的看到在另一个时间点或者另一个时间点子类之间数量迁移。比如这次我在公司与业务核对星级客户数据的时候就用sql实现了迁移矩阵思路就是对数据先进行行转列，再进行统计。阅读全文

posted @ 2019-07-31 11:01 wqbin 阅读(1195) 评论(0) 推荐(0)

2019年7月30日

数据的全量与增量

摘要：数据有很多种下发方式：简单的来说分为增量和全量。全量获取：当表是一个全量分区表：当表是一个增量分区表：当表是一个拉链表：增量获取：但是往往非大数据系统无法一口气吃掉千万级别的数据量。一般会采取增量下发的方式。当表是一个增量分区表：当表是一个全量分区表：需要对今天的分区数据和昨天阅读全文

posted @ 2019-07-30 15:12 wqbin 阅读(17212) 评论(0) 推荐(0)

2019年7月24日

IDEA中方法的快捷键及自定义方法

摘要： 1. 字母组合联想到对应的方法 ·ps联想到public static方法和成员 ·输入psvm联想到主方法 ·输入psf联想到用public static final 等 · pc联想到clone和hashcode(ph也可以) ·pe联想到equals方法 ·输入sou联想到 2.字母组合联想固阅读全文

posted @ 2019-07-24 21:43 wqbin 阅读(1966) 评论(0) 推荐(0)

javaIO-字符流

摘要： 2、字符流 2.1字符流为什么出现字符流？一个字符经过编码后可能占用不同的字节数，字符和字节不是一一对应的关系,编码后的字符有可能变成数量不等的字节使用字节流在操作文本文件的时候不是很方便，不能准确控制到底多少个字节对应一个字符？所以Java提供了专门用来操作字符的字符流（所以字符流只针对文本文件阅读全文

posted @ 2019-07-24 20:53 wqbin 阅读(189) 评论(0) 推荐(0)

split 命令

摘要：最近下游一直说我供给的文件存在乱码，下游定位到了具体哪一条。一个250w的数据量，有一条数据有问题。几百兆的文件用note去搜索。我使用用notepad++后，发现根本打不开。于是只能先拆分后用notepad++打开。。。。。再用显示所有字符告诉下游。我们大数据提供的数据没有乱码。是不是感觉阅读全文

posted @ 2019-07-24 18:21 wqbin 阅读(334) 评论(0) 推荐(0)

hadoop的增删改查

摘要： 1 阅读全文

posted @ 2019-07-24 12:16 wqbin 阅读(458) 评论(0) 推荐(0)

Hadoop的MR

摘要： 1 阅读全文

posted @ 2019-07-24 10:25 wqbin 阅读(248) 评论(0) 推荐(0)

java的序列化和反序列化

摘要： 1.java 2.Geon 3fastjson 4xml 阅读全文

posted @ 2019-07-24 10:20 wqbin 阅读(201) 评论(0) 推荐(0)

2019年7月23日

字符串格式化-String类format方法

摘要：常规类型的格式化 String类的format()方法用于创建格式化的字符串以及连接多个字符串对象。 format()方法有两种重载形式。显示不同转换符实现不同数据类型到字符串的转换，如图所示：测试用例：输出结果：搭配转换符的标志，如图所示：测试用例：输出结果：日期和事件字符串格式化% 阅读全文

posted @ 2019-07-23 21:38 wqbin 阅读(49027) 评论(0) 推荐(4)

2019年7月22日

Avro从入门到入土

摘要： avro官网 1、Avro历史 Avro是Hadoop的一个数据序列化系统，由Hadoop的创始人Doug Cutting（也是Lucene，Nutch等项目的创始人）开发，设计用于支持大批量数据交换的应用。它的主要特点有：支持二进制序列化方式，可以便捷，快速地处理大量数据；动态语言友好，Av 阅读全文

posted @ 2019-07-22 20:27 wqbin 阅读(34372) 评论(0) 推荐(4)

少年阿斌

人类被赋予了一种工作，那就是精神的成长。

公告