07 2019 档案
摘要:由python2.7语言实现的,包也比较旧了。 conf文件如下
阅读全文
摘要:所有表从大方向上有 1.表的验证:指标临时表的验证和 指标合并表的验证 2.数据验证:数据总量的验证,数据质量的验证(连续指标和离散指标)
阅读全文
摘要:在数据分析数据差异的时候 经常用到一个图叫做迁移矩阵。 其中里面的值可以是数量也可以是百分比,我们可以从一个时间点明确的看到在另一个时间点或者另一个时间点 子类之间数量迁移。 比如这次我在公司与业务核对星级客户数据的时候就用sql实现了迁移矩阵 思路就是对数据先进行行转列,再进行统计。
阅读全文
摘要:数据有很多种下发方式: 简单的来说分为增量和全量。 全量获取: 当表是一个全量分区表: 当表是一个增量分区表: 当表是一个拉链表: 增量获取: 但是往往非大数据系统无法一口气吃掉千万级别的数据量。 一般会采取增量下发的方式。 当表是一个增量分区表: 当表是一个全量分区表: 需要对今天的分区数据和昨天
阅读全文
摘要:1. 字母组合联想到对应的方法 ·ps联想到public static方法和成员 ·输入psvm联想到主方法 ·输入psf联想到用public static final 等 · pc联想到clone和hashcode(ph也可以) ·pe联想到equals方法 ·输入sou联想到 2.字母组合联想固
阅读全文
摘要:2、字符流 2.1字符流 为什么出现字符流?一个字符经过编码后可能占用不同的字节数,字符和字节不是一一对应的关系,编码后的字符有可能变成数量不等的字节使用字节流在操作文本文件的时候不是很方便,不能准确控制到底多少个字节对应一个字符?所以Java提供了专门用来操作字符的字符流(所以字符流只针对文本文件
阅读全文
摘要:最近下游一直说我供给的文件存在乱码,下游定位到了具体哪一条。 一个250w的数据量,有一条数据有问题。几百兆的文件用note去搜索。 我使用用notepad++后,发现根本打不开。 于是只能先拆分后用notepad++打开。。。。。再用显示所有字符告诉下游。我们大数据提供的数据没有乱码。 是不是感觉
阅读全文
摘要:1.java 2.Geon 3fastjson 4xml
阅读全文
摘要:常规类型的格式化 String类的format()方法用于创建格式化的字符串以及连接多个字符串对象。 format()方法有两种重载形式。 显示不同转换符实现不同数据类型到字符串的转换,如图所示: 测试用例: 输出结果: 搭配转换符的标志,如图所示: 测试用例: 输出结果: 日期和事件字符串格式化%
阅读全文
摘要:avro官网 1、Avro历史 Avro是Hadoop的一个数据序列化系统,由Hadoop的创始人Doug Cutting(也是Lucene,Nutch等项目的创始人)开发,设计用于支持大批量数据交换的应用。 它的主要特点有: 支持二进制序列化方式,可以便捷,快速地处理大量数据; 动态语言友好,Av
阅读全文
摘要:1.序列化 所谓的序列化,就是将结构化对象转化为字节流,以便在网络上传输或是写道磁盘进行永久存储。 反序列化,就是将字节流转化为结构化对象。 序列化在分布式数据处理的两大领域经常出现:进程间通信和永久存储。 在Hadoop中,系统中多个节点上进程间的通信是通过“远程过程调用”(remote proc
阅读全文
摘要:泛型 1、泛型的概述 在JDK1.5之前,把对象放入到集合中,集合不会记住元素的类型,取出时,全都变成Object类型。泛型是jdk5引入的类型机制,就是将类型参数化,它是早在1999年就制定的jsr14的实现。泛型机制将类型转换时的类型检查从运行时提前到了编译时,使用泛型编写的代码比杂乱的使用ob
阅读全文
摘要:反射:reflect 反射:reflect 1、类加载器 一个类如果想被使用,要先加载到内存中,一般会经过以下步骤,第二步还可以细分为三步。 类加载器用来把类的二进制文件加载到内存中,并在堆区生成一个与之对应的java.lang.Class对象.类加载器通常由JVM提供,其加载的类文件的来源有以下几
阅读全文
摘要:通过输出可以大致猜到tableSizeFor的作用是返回一个大于输入参数且最小的为2的n次幂的数。 我们再来看看是怎么做到的。 当输入为25的时候,n等于24,转成二进制为1100,右移1位为0110,将1100与0110进行或("|")操作,得到1110。接下来右移两位得11,再进行或操作得111
阅读全文
摘要:Map Map与Collection在集合框架中属并列存在 Map存储的是键值对<K,V> Map存储元素使用put方法,Collection使用add方法 Map集合没有直接取出元素的方法,而是先转成Set集合,再通过迭代获取元素 Map集合中键要保证唯一性(和HashSet一样,用hashcod
阅读全文
摘要:default关键字在JDK8中有两个用处。 1.在switch语句的时候使用default 当case里的值与switch里的key没有匹配的时候,执行default里的方法。 2. 在定义接口的时候使用default来修饰具体的方法 JDK8中为了加强接口的能力,使得接口可以存在具体的方法,前提
阅读全文
摘要:1.原理和概念 PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。 PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。 PCA的工作就是从原始的空间中顺序
阅读全文
摘要:Set接口 Set接口用来表示:一个不包含“重复元素”的集合Set接口中并没有定义特殊的方法,其方法多数都和Collection接口相同。 重复元素的理解:通常理解:拥有相同成员变量的对象称为相同的对象,如果它们出现在同一个集合中的话,称这个集合拥有重复的元素 HashSet中对重复元素的理解:和通
阅读全文
摘要:List 1.1 list接口的简介 1.2 list实现子类 ArrayList:线程不安全,查询速度快,底层用的是数组,增删慢LinkedList:线程不安全,链表结构,增删速度快,查询慢Vector:线程安全,但速度慢,已被ArrayList替代 1.3 list的遍历方法 迭代器注意事项:迭
阅读全文
摘要:测试题 1、用任意一种编程语言定义一个class或struct来表示二叉树。 备注:可以不写构造函数和对象初始化的代码,仅定义出class或struct的成员变量即可。其中节点的值用int或char类型即可。 2、写一个函数实现二叉树的先序遍历,输入参数是刚才定义的这个二叉树。 备注: 函数不需要有
阅读全文
摘要:集合类 0.1、为什么出现集合类? 面向对象语言对事物的体现都是以对象的形式,所以为了方便对多个对象的操作,就对对象进行存储,集合就是存储对象最常用的一种方式(容器)Java中集合也是类,真正用来存储东西的是某种集合类的实例对象。 0.2、集合类 VS 数组 数组和集合类都是容器,有何不同?集合类的
阅读全文
摘要:ArrayList 内部是由一个array 实现的。 如果你知道array 和 ArrayList 的相似点和不同点,就可以选择什么时候用array 或者使用ArrayList , array 提供 O(1)的查找性能和很基本的方式去存储数据。 ArrayList 是Java集合框架类的一员,可以称
阅读全文
摘要:2.基本数据类型数据的包装类 局部变量中基本数据类型直接分配在栈中,而对象分配在堆中 将基本数据类型封装成对象的好处在于可以在对象中定义更多的功能方法来操作该数据 包装类主要功能:用于基本数据类型与字符串之间的转换 2.1 Integer类 2.1.1构造方法 Integer 类在对象中包装了一个基
阅读全文
摘要:1.String类 1.1String类的概念和储存结构: (1)字符串是一个比较特殊的对象,可以使用new,也可以不使用new来创建字符串对象 两者的区别:一个在堆中,一个在常量池中常量池:方法区的一部分,字符串在常量池里面保存一份 (2)字符串是不可变量,一旦初始化就不可以被改变String s
阅读全文
摘要:0、IO流 0.1、IO(Input Output)流的概念 Java中将不同设备之间的数据传输抽象为“流”:Stream设备指的是:磁盘上的文件,网络连接,另一个主机等等 按流向分:输入流,输出流:都是针对内存来说的 按每次处理的数据单位分:字节流,字符流1.字节流:每次处理一个字节2.字符流:每
阅读全文
摘要:IO:File类 位于java.io包下,用于表示与平台无关的文件和目录File类可以用来操作文件和目录,但是不能用来访问文件的内容。 1.构造方法 File(String pathName)通过将给定路径名字符串转换为抽象路径名来创建一个新File实例File(String parent, Str
阅读全文
摘要:0.java中的正则 java 中的正则总共涉及三个类(或者说1个String类和一个regex包) java.lang.String java.util. Matcher java.util.Pattern 1.什么是正则表达式? 字符组:[字符组] 字符组案例 预定义字符: Logical 运算
阅读全文
摘要:数组:Array 数组的定义 数组的内存结构 数组定义常见问题 数组常见操作 Java参数传递问题--值传递 二维数组 1.数组概念 同一种类型数据的集合,可以是基本数据类型,也可以是引用数据类型。 数组的特点: 数组的定义格式 2.数组的初始化 初始化方式1:动态初始化:数组的创建和元素的赋值分开
阅读全文
摘要:异常体系 常见异常 异常的处理自定义异 常类及使用常见的异常Exception:被0除,空指针,索引越界等等 异常的体系 Throwable(类-超类) Error(子类) 通常出现重大问题如:虚拟机崩溃或者内存溢出等 这些异常不用处理,也处理不了 Exception (子类) 在运行时(编译+运行
阅读全文
摘要:6内部类 内部类是指在一个外部类的内部再定义一个类。类名不需要和文件夹相同。 内部类可以是静态static的,也可用public,default,protected和private修饰。(而外部顶级类即类名和文件名相同的只能使用public和default)。 注意:内部类是一个编译时的概念,一旦编
阅读全文
摘要:5 多态 5.1多态:polymorphism概念 定义:某一类事物的多种存在形态表现形式:父类变量指向子类实例 例:动物中猫,狗 猫这个对象对应的类型是猫类型 猫 x = new 猫(); 同时猫也是动物中的一种,也可以把猫称为动物 动物 y = new 猫(); 动物是猫和狗具体事物中抽取出来的
阅读全文
摘要:奇异值分解是有着很明显的物理意义,将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示,这些小矩阵描述的是矩阵的重要的特性,让机器学会抽取重要的特征,SVD是一个重要的方法。 所以SVD不仅是一个数学问题,在工程应用方面很多地方都有其身影,如PCA,推荐系统、任意矩阵的满秩分解。 1、特征值 如
阅读全文
摘要:在处理流水增量表的时候,出现了一个判定的失误。 因为左外关联,可能会出现b表数据不存在 则b.b2 is null , if(a.a2<>b.b2,1,0) as diff,null值的判断只能使用is ,is not 所以处理方式: 其他: employee表 查询employee hive 中n
阅读全文
摘要:小明在学校玩王者荣耀被发现了,爸爸被叫去开家长会,心里悲屈的很,就想法子惩罚小明。到家后,爸爸跟小明说:既然你犯错了,就要接受惩罚,但惩罚的程度就看你聪不聪明了。这样吧,我们俩玩猜球游戏,我拿一个球,你猜球的颜色,我可以回答你任何问题,你每猜一次,不管对错,你就一个星期不能玩王者荣耀,当然,猜对,游
阅读全文
摘要:2. Beta分布 2.1 Beta分布 我们将由几个问题来得引出几个分布: 首先我们尝试计算 落在一个区间 的概率,也就是如下概率值: 我们可以把 分成三段 。 我们考虑第一种情形:假设 个数中只有一个落在区间 内,则这个区间内的数 是第 大的,则 中应该有 个数, 中有 个数,我们将此描述为事件
阅读全文
摘要:1. Gamma函数 1.1 Gamma函数 Gamma函数如下: 很奇怪,但可以形象理解为用一个伽马刀,对 动了一刀,于是指数为 ,动完刀需要扶着梯子 才能走下来(记忆,摘自QUETAL博客)。 通过分布积分可以得到如下性质: 易证明有如下性质: 其中还有几个重要的等式,这里就不证明了,有兴趣的可
阅读全文
摘要:4.继承 面向对象概念-类与对象的关系 封装:指隐藏对象的属性和实现细节,仅对外提供公共访问方式,private-构造方法/构造器-this关键字-static关键字(javadoc制作工具类) -代码块 继承:方法重写-super-子类实例化过程-final-抽象类-接口 多态: 4.1 继承的概
阅读全文
摘要:2 封装 封装:是指隐藏对象的属性和实现细节,仅对外提供公共访问方式,面向对象三大特点之一。好处: 防止数据被任意篡改,提高安全性 隐藏了实现细节,仅暴露方法 如何实现封装? 使用private关键字修饰成员变量 对外提供公有的setter和getter方法 2.1private(私有的) priv
阅读全文
摘要:pandas.crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, dropna=True, normalize=False) index : array-li
阅读全文
摘要:面向对象概念-类与对象的关系 封装:指隐藏对象的属性和实现细节,仅对外提供公共访问方式,private-构造方法/构造器-this关键字-static关键字(javadoc制作工具类) -代码块 继承:方法重写-super-子类实例化过程-final-抽象类-接口 多态: 1.1 面向对象概念Obj
阅读全文
摘要:方法的定义-方法的特点 -方法的应用-方法的重载-数组定义-数组初始化-二维数组-Java中参数传递的特点:值传递 7.方法 7.1 方法的定义 什么是方法?Method方法就是定义在类中的,具有特定功能的一段小程序。(可以对比一下python ,方法在java中算二等公民)方法也称为函数(Func
阅读全文
摘要:关键字-标识符-常量和变量-运算符-流程控制-方法-数组 5 运算符 算术运算符Arithmetic Operators 赋值运算符Assignment Operators 比较运算符Compare Operators 逻辑运算符Logic Operators 位运算符Bitwise Operato
阅读全文
摘要:一. 机器数和真值 在学习原码, 反码和补码之前, 需要先了解机器数和真值的概念. 1、机器数 一个数在计算机中的二进制表示形式, 叫做这个数的机器数。机器数是带符号的,在计算机用一个数的最高位存放符号, 正数为0, 负数为1. 比如,十进制中的数 +3 ,计算机字长为8位,转换成二进制就是0000
阅读全文
摘要:项目中想使用自定义python文件(本地代码) 有6种方式, 1、这种最简单,也可能最不实用,将你的外部文件放到跟需要调用外部文件的文件同一个包下,同一目录 folder toinvoke.py tobeinvoded.py 这样在toinvoke.py 中引入 import toveinvoked
阅读全文
摘要:python 中如何引用自己创建的源文件(*.py)呢? 也就是所谓的模块。 假如,你有一个自定义的源文件,文件名:saySomething.py 。里面有个函数,函数名:sayHello。如下图: 该怎么调用这个函数呢? 直接写 sayHello() 肯定不行。 saySomething.sayH
阅读全文
摘要:模块定义 什么是模块:一个py文件就是一个模块 模块分为三类: 内置模块,(标准库):.python解释器自带的,time,os,sys,等等.200多种. 自定义模块:自己写的模块 第三方库(模块):各种大神写的一些模块,通过pip install....安装.6000种. 一、模块的引入 imp
阅读全文
摘要:1.关键字 keyword Java系统中已经赋予了特殊含义的单词 特点:全部是小写字母注意: Java中的保留字:现在没有使用,以后有可能会使用的单词 例:goto,const 案例: 关键字解析:public:权限修饰符,说明此类是公共的class:用于定义类static:静态的void:不需要
阅读全文
摘要:1、Java语言概述 2、Java语言的三种技术架构 3、Java语言的特点:跨平台性什么是跨平台性? 平台:OS--Operation System 操作系统 ,通过Java语言编写的应用程序在不同的操作系统平台上都可以运行。Java语言跨平台原理:各种平台上装有不同JVM虚拟机 =>Java v
阅读全文
摘要:计算机硬件常识 存储器分类: 1.Cache:高速缓存2.Main Memory/Primary Memory3.Secondary Memory:Hard Drive 硬盘上的东西不能直接访问,必须先加载到内存中所有的程序都是在内存中运行的 人机交互 图形化界面: GUI Graphical Us
阅读全文
摘要:java -cp 和 -classpath 一样,是指定类运行所依赖其他类的路径,通常是类库,jar包之类,需要全路径到jar包,window上分号“;”格式:java -cp .;myClass.jar packname.mainclassname 表达式支持通配符,例如:java -cp .;c
阅读全文
摘要:(1)直接运行 .class的方法 java -cp . com.guangfa.demo1 , 不用加.class后缀 .-cp 是 -classpath 缩写,是指定类运行所依赖其他类的路径,通常是类库,jar包之类,需要全路径到jar包,window上分号";" (2)从eclipse中exp
阅读全文
摘要:查看jar包内容 查看jar包内容的基本命令: 查看jar包内容 查看jar包内容的基本命令: jar tf jar-file 参数解释: The t option indicates that you want to view the table of contents of the JAR fi
阅读全文
摘要:java应用环境中不同的class分别由不同的ClassLoader负责加载。一个jvm中默认的classloader有Bootstrap ClassLoader、Extension ClassLoader、App ClassLoader,分别各司其职: Bootstrap ClassLoader
阅读全文
摘要:一个java应用项目可以打包成一个jar,但是必须指定一个拥有main函数的main class作为你这个jar包的程序入口。 具体的方法是修改jar包内目录META-INF下的MANIFEST.MF文件。 比如有个叫做wqbin.jar的jar包,里面有一个拥有main函数的main class:
阅读全文
摘要:SMOTE(Synthetic Minority Oversampling Technique),合成少数类过采样技术.它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特别(Specific)而不够泛
阅读全文