08 2021 档案
摘要:1. import time import pymysql import pandas as pd from datetime import datetime,timedelta 2. cuor = pymysql.connect(host = "", user = "", password = "
阅读全文
摘要:import time from datetime import datetime,timedelta # 显示当前时间 t1 = datetime.now() print(t1) # 打印天数,主要用于做天维度的增加或减少计算 t2 = timedelta(days=1) print(t2) #
阅读全文
摘要:Flink流式处理API流程图 # 创建流式处理任务环境 StreamExecutionEnvironment env = StreamExceptionEnvironment.getExceptionEnvironment(); 创建一个执行环境,表示当前执行程序的上下文,类似于SparkCont
阅读全文
摘要:1.慎用API 大数据场景下不害怕数据量大,害怕的是数据倾斜,怎么样避免数据倾斜,找到可能产生数据倾斜的函数尤为关键.数据量较大的情况下,慎用count(distinct),count(distinct)容易产生数据倾斜哎. 2.自定义UDAD函数优化 sum,count,max,mix等UDAF函
阅读全文
摘要:Kafka Streams 1.Apache Kafka开源项目的一个组成部分,是一个功能强大,易于使用的库.用于在Kafka上构建高可分布,可拓展,高容错的应用程序. 2.Kafka Streams特点 1)功能强大:高扩展性,弹性,容错 2)轻量级:无需专门的集群,一个库,而不是框架. 3)完全
阅读全文
摘要:Kafka producer拦截器--Interceptor 拦截器原理: producer拦截器(interceptor)是在Kafka 0.10版本被引入的,主要用于实现clients端的定制化逻辑.对于producer而言,interceptor使得用户在消息发送前以及producer回调逻辑
阅读全文
摘要:问题: 命令:pip3 install matplotlib 发现网络资源太少,导致下载速度缓慢,最后time out报错. 问题解决: 方法一:设置超时时间 pip3 install -U --timeout 1000 scikit-learn 结果:可以解决问题,但是网速慢还是无法解决,只不过是
阅读全文
摘要:1.创建二维数组的几种方法 方法1:通过列表创建 DataFrame对象里包含两个索引,行索引(0轴,axis=0),列索引(1轴,axis=1) import pandas as pd import numpy as np li = [ [1,2,3,4], [2,3,4,5] ] # DataF
阅读全文
摘要:pandas以类似字典的方式来获取某一列的值,比如df[‘A’],这会得到df的A列。如果我们对某一行感兴趣呢?这个时候有两种方法,一种是iloc方法,另一种方法是loc方法。loc是指location的意思,iloc中的i是指integer。这两者的区别如下: loc:works on label
阅读全文
摘要:前言: CDC,Change Data Capture,变更数据获取的简称,使用CDC我们可以从数据库中获取已提交的更改并将这些更改发送到下游,供下游使用。这些变更可以包括INSERT,DELETE,UPDATE等, 用户可以在以下的场景下使用CDC: 使用flink sql进行数据同步,可以将数据
阅读全文
摘要:前言: 解决办法:Settings->Editor->File Encodings修改配置为UTF-8
阅读全文
摘要:1.使用Linux命令查询文本文件中空行所在的行号 vi test_sed.txtlxz lxz lxztoday today todaymorning afternoon eveningtomorrow tomorrow tomorrow# 输入awk '/^$/{print NR}' test_
阅读全文
摘要:一 cut cut的工作就是"剪",具体的说就是在文件中负责剪切数据用的.cut命令从文件的每一行剪切字节,字符,和字段并将这些字节,字符和字段输出. 1.基本用法 cut[选项参数] filename 说明:默认分隔符是制表符 2.选项参数说明 -f 列号,提取第几列的 -d 分隔符,按照指定的分
阅读全文
摘要:前言: Shell是一个命令行解释器,它接受应用程序/用户命令,然后调用操纵系统内核. Shell还是一个功能相当强大的编程语言,易编写,易调试,灵活性强. 一 Shell解析器 1.Linux提供的Shell解析器有:cat /etc/shells /bin/sh /bin/bash /sbin/
阅读全文
摘要:前提:请参考这里,然后再阅读此内容. 1.HDFS文件上传 下载 删除 改名称 文件详情查看 文件和文件夹的判断 package com.lxz.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.f
阅读全文
摘要:前言 首先需要配置JAVA环境变量,搭建hadoop集群,实现HA,并启动集群环境 一 创建hdfs项目,导入pom文件 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <vers
阅读全文
摘要:前言: 想玩一下HDFS的API,结果导入pom文件时候,jdk.tools依赖加载不出来. 解决办法: 换一种方法,即将解决问题 <dependency> <groupId>com.sun</groupId> <artifactId>tools</artifactId> <version>1.8.
阅读全文
摘要:前提: 在本地IDEA写完项目代码后,将整个项目打包上传到集群进行测试. 需要注意输入输出路径要写对 将两个文件上传到HDFS集群 # 上传文件 hadoop fs -put /opt/module/hadoop_file/input/friends.txt /opt/module/hadoop_f
阅读全文
摘要:1.启动Phoenix bin/sqlline.sh 2.在Phoenix中查看表 !table 3.在Phoenix中创建表 create schema Phoenix_schema_name;create table Phoenix_schema_name.table_name(id varch
阅读全文
摘要:问题:25匹马,五个赛道,每个赛道最多允许一匹马进行比赛,问需要进行多少次比赛可以找出跑得最快的三匹马? 拓展说下问题,一共是五个赛道,每个赛道上占一匹马,一场比赛最多就是五匹马同时进行.然后跑出各自的时间,A1 A2 A3 A4 A5; 如果再进行下一轮比赛,就是B1 B2 B3 B4 B5...
阅读全文
摘要:前言: 压缩概述: 压缩技术能够有效减少底层存储系统(HDFS)读写字节数.压缩提高了网络带宽和磁盘空间的效率,在运行MR程序时,I/O操作,网络数据传输,Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得尤为重要. 鉴于磁盘I/O和网络带宽是
阅读全文
摘要:一 安装tez 1.下载tez.tar 2.安装 tar -zxvf tez-0.9.1.tar.gz -C /opt/module 3.修改名称 mv tez-0.9.1-bin tez-0.9.1 二 在Hive中配置tez 1.进入Hive的配置目录/opt/module/hive/conf
阅读全文
摘要:关于HIVE实现自定义函数,步骤主要可分为: 继承org.apache.hadoop.hive.ql.exec.UDF 重写evaluate()方法 打包jar 添加jar包 使用自定义函数 下面是具体实现,包括自定义临时函数和自定义永久函数。 编写自定义函数 public class AddPre
阅读全文
摘要:Hive自定义函数包括三种UDF、UDAF、UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcation) 聚集函数,多进一出。Count/max/min UDTF(User-Defined Table-G
阅读全文
摘要:Hive源数据默认存储在derby数据库中,不支持多客户端访问,所以需要将源数据存储在Mysql中,才支持多客户端访问。主要架构如下: HIVE解析成MR的过程: Hive通过给用户提供一系列交互接口,接受到用户的指令(sql语句),结合源数据(metastore),经过Driver内的解析器、编译
阅读全文
摘要:一、前提 1.预装Python3环境 2.安装相关库 二、代码如下 import time import pymysql import pandas as pd from datetime import datetime,timedelta t1=datetime.strftime(datetime
阅读全文
摘要:Git是目前世界上最先进的分布式版本控制系统 --Linus Torvalds(林纳斯·托瓦兹) 版本管理系统的作用: 1)协同开发 2)冲突解决 3)版本记录(复原) 4)历史追查 5)代码备份 6)权限管理 7)分支管理 8)代码审查 git status --显示列表中的文件 1)只显示上传到
阅读全文
摘要:Hadoop MapReduce MapReduce是一个分布式运算程序的编程框架,是基于Hadoop的数据分析计算的核心框架。 MapReduce处理过程分为两个阶段:Map 和 Reduce Map负责把一个任务分解成多个任务。 Reduce负责把分解后多任务处理的结果汇总。 MapReduce
阅读全文
摘要:一、环境准备 1.Kafka安装成功且配置好环境变量 2.Kafka配置成集群状态,broker_id配置成功 二、群起脚本 Kafka路径:/opt/module/kafka/ #!/bin/bash case $1 in "start"){ for i in hadoop1 hadoop2 ha
阅读全文
摘要:前提环境:Zookeeper集群,Kafka集群,安装Mysql,配置Binlog。 一、Maxwell简介 Maxwell就是把自己伪装成slave,假装从master复制数据。 Maxwell 是由美国Zendesk开源,用Java编写的MySQL实时抓取软件。 实时读取MySQL二进制日志Bi
阅读全文
摘要:遇到的问题 1.分配一个账号可以操作数据库 grant all on maxwell.* to 'maxwell'@'%' identified by '000000'; 遇到的问题: 解决办法: 先刷新一遍数据库 flush privileges; 然后再输入命令 2.无密码进去mysql 2.1
阅读全文
摘要:linux版本是my.cnf,一般会放在/etc/my.cnf,/etc/mysql/my.cnf win下的是my.ini,一般会在安装目录的根目录 使用查询命令 find / -name my.cnf 路径:/usr/my.cnf
阅读全文
摘要:查询文件my.cnf find / -name my.cnf
阅读全文
摘要:一、已安装了JDK环境 二、下载Maven https://maven.apache.org/ 三、解压 下载到本地后,是压缩包的格式,进行解压。 路径:D:\apache-maven-3.8.1 四、设置环境变量 不要忘记还需要在PATH中添加 五、验证安装 六、setting文件配置 这步骤配置
阅读全文
摘要:一、query语句,制定数据同步规则。 同步2021-07-05一天的数据 "{'createTime':{'$gt':NumberLong('1625414400000'),'$lt':NumberLong('1625500800000')}}" 二、 您可以通过该配置型来限制返回MongoDB数
阅读全文
摘要:一、下载robo 3T https://robomongo.org/ 二、连接MongoDB 三、Mongo的基本语法 1.查询 db.getCollection('lc_user_lesson').find({}) 2.倒序查询 db.getCollection('lc_user_lesson')
阅读全文
摘要:一、创建Shell脚本 cd /bin touch jps.sh 二、写脚本 #!/bin/bash for i in hadoop1 hadoop2 hadoop3 do echo " $i的jps " ssh $i "/opt/module/jdk1.8.0_144/bin/jps" done
阅读全文
摘要:前提:已经安装好了Mysql客户端和服务 一、修改/etc/my.cnf文件 注意:找不到/etc/my.cnf的解决办法 [root@hadoop201 module]$ sudo vim /etc/my.cnf server-id = 1 log-bin=mysql-bin binlog_for
阅读全文
摘要:Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的, 至于为什么没有这个文件而MySQL却也能正常启动和作用,在点有两个说法, 第一种说法,my.cnf只是MySQL启动时的一个参数文件,可以没有它,这时MySQL会用内置的默认参数启动, 第二种说法,MySQL在启动时自动
阅读全文
摘要:Mysql启动、停止、重启常用命令a、启动方式1、使用 service 启动:[root@localhost /]# service mysqld start (5.0版本是mysqld)[root@localhost /]# service mysql start (5.5.7版本是mysql)
阅读全文
摘要:一、jar包路径 二、 在/bin目录下创建logger.sh,并授予执行权限 vi logger.sh chmod 777 logger.sh 三、写logger.sh脚本 #!/bin/bash JAVA_BIN=/opt/module/jdk1.8.0_212/bin/java APPNAME
阅读全文
摘要:前提:已安装Java8、Maven 一、在Idea中创建Spring Assistant项目,选中web、Apache Kafka、lombok 二、导入Pom文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven
阅读全文
摘要:一、在/bin目录下创建zksh.sh touch zksh.sh vi zksh.sh 二、输入shell脚本代码 #!/bin/bash case $1 in "start"){ for i in hadoop201 hadoop202 hadoop203 do echo zookeeper $
阅读全文