随笔档案「2021年8月」 - 明明就-

Python连接数据库

摘要：1. import time import pymysql import pandas as pd from datetime import datetime,timedelta 2. cuor = pymysql.connect(host = "", user = "", password = " 阅读全文

posted @ 2021-08-27 15:44 明明就- 阅读(96) 评论(0) 推荐(0)

Python日期时间转化

摘要：import time from datetime import datetime,timedelta # 显示当前时间 t1 = datetime.now() print(t1) # 打印天数，主要用于做天维度的增加或减少计算 t2 = timedelta(days=1) print(t2) # 阅读全文

posted @ 2021-08-27 15:16 明明就- 阅读(525) 评论(0) 推荐(0)

Flink StreamExecutionEnvironment API

摘要：Flink流式处理API流程图 # 创建流式处理任务环境 StreamExecutionEnvironment env = StreamExceptionEnvironment.getExceptionEnvironment(); 创建一个执行环境,表示当前执行程序的上下文,类似于SparkCont 阅读全文

posted @ 2021-08-26 16:53 明明就- 阅读(1972) 评论(0) 推荐(0)

Hive优化

摘要：1.慎用API 大数据场景下不害怕数据量大,害怕的是数据倾斜,怎么样避免数据倾斜,找到可能产生数据倾斜的函数尤为关键.数据量较大的情况下,慎用count(distinct),count(distinct)容易产生数据倾斜哎. 2.自定义UDAD函数优化 sum,count,max,mix等UDAF函阅读全文

posted @ 2021-08-25 19:55 明明就- 阅读(67) 评论(0) 推荐(0)

Kafka Stream数据清洗ETL

摘要：Kafka Streams 1.Apache Kafka开源项目的一个组成部分,是一个功能强大,易于使用的库.用于在Kafka上构建高可分布,可拓展,高容错的应用程序. 2.Kafka Streams特点 1)功能强大:高扩展性,弹性,容错 2)轻量级:无需专门的集群,一个库,而不是框架. 3)完全阅读全文

posted @ 2021-08-25 11:44 明明就- 阅读(658) 评论(0) 推荐(2)

Kafka拦截器-时间戳&消息条数

摘要：Kafka producer拦截器--Interceptor 拦截器原理: producer拦截器(interceptor)是在Kafka 0.10版本被引入的,主要用于实现clients端的定制化逻辑.对于producer而言,interceptor使得用户在消息发送前以及producer回调逻辑阅读全文

posted @ 2021-08-25 11:12 明明就- 阅读(488) 评论(0) 推荐(0)

pip install matplotlib报错timeout

摘要：问题: 命令:pip3 install matplotlib 发现网络资源太少,导致下载速度缓慢,最后time out报错. 问题解决: 方法一:设置超时时间 pip3 install -U --timeout 1000 scikit-learn 结果:可以解决问题,但是网速慢还是无法解决,只不过是阅读全文

posted @ 2021-08-24 17:17 明明就- 阅读(367) 评论(0) 推荐(0)

Pandas的用法

摘要：1.创建二维数组的几种方法方法1:通过列表创建 DataFrame对象里包含两个索引,行索引(0轴,axis=0),列索引(1轴,axis=1) import pandas as pd import numpy as np li = [ [1,2,3,4], [2,3,4,5] ] # DataF 阅读全文

posted @ 2021-08-24 17:12 明明就- 阅读(192) 评论(0) 推荐(0)

Python:loc和iloc的区别

摘要：pandas以类似字典的方式来获取某一列的值，比如df[‘A’]，这会得到df的A列。如果我们对某一行感兴趣呢？这个时候有两种方法，一种是iloc方法，另一种方法是loc方法。loc是指location的意思，iloc中的i是指integer。这两者的区别如下： loc：works on label 阅读全文

posted @ 2021-08-24 16:15 明明就- 阅读(813) 评论(0) 推荐(0)

FlinkCDC-Springboot拉取数据写入Kafka

摘要：前言: CDC,Change Data Capture,变更数据获取的简称，使用CDC我们可以从数据库中获取已提交的更改并将这些更改发送到下游，供下游使用。这些变更可以包括INSERT,DELETE,UPDATE等，用户可以在以下的场景下使用CDC：使用flink sql进行数据同步,可以将数据阅读全文

posted @ 2021-08-20 17:54 明明就- 阅读(2610) 评论(0) 推荐(0)

遇到IDEA配置文件中文乱码的解决办法

摘要：前言: 解决办法:Settings->Editor->File Encodings修改配置为UTF-8 阅读全文

posted @ 2021-08-20 16:17 明明就- 阅读(609) 评论(0) 推荐(0)

Shell过关斩将

摘要：1.使用Linux命令查询文本文件中空行所在的行号 vi test_sed.txtlxz lxz lxztoday today todaymorning afternoon eveningtomorrow tomorrow tomorrow# 输入awk '/^$/{print NR}' test_ 阅读全文

posted @ 2021-08-20 15:54 明明就- 阅读(47) 评论(0) 推荐(0)

Shell再次体检-工具使用cut sed awk sort

摘要：一 cut cut的工作就是"剪",具体的说就是在文件中负责剪切数据用的.cut命令从文件的每一行剪切字节,字符,和字段并将这些字节,字符和字段输出. 1.基本用法 cut[选项参数] filename 说明:默认分隔符是制表符 2.选项参数说明 -f 列号,提取第几列的 -d 分隔符,按照指定的分阅读全文

posted @ 2021-08-20 12:44 明明就- 阅读(99) 评论(0) 推荐(0)

Shell初体验

摘要：前言: Shell是一个命令行解释器,它接受应用程序/用户命令,然后调用操纵系统内核. Shell还是一个功能相当强大的编程语言,易编写,易调试,灵活性强. 一 Shell解析器 1.Linux提供的Shell解析器有:cat /etc/shells /bin/sh /bin/bash /sbin/ 阅读全文

posted @ 2021-08-20 11:30 明明就- 阅读(51) 评论(0) 推荐(0)

HDFS的API使用

摘要：前提:请参考这里,然后再阅读此内容. 1.HDFS文件上传下载删除改名称文件详情查看文件和文件夹的判断 package com.lxz.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.f 阅读全文

posted @ 2021-08-19 17:50 明明就- 阅读(188) 评论(0) 推荐(0)

在IDEA中创建HDFS客户端并新建文件目录

摘要：前言首先需要配置JAVA环境变量,搭建hadoop集群,实现HA,并启动集群环境一创建hdfs项目,导入pom文件 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <vers 阅读全文

posted @ 2021-08-19 16:28 明明就- 阅读(571) 评论(0) 推荐(0)

Maven:遇到jdk.tools加载不进来的解决办法

摘要：前言: 想玩一下HDFS的API,结果导入pom文件时候,jdk.tools依赖加载不出来. 解决办法: 换一种方法,即将解决问题 <dependency> <groupId>com.sun</groupId> <artifactId>tools</artifactId> <version>1.8. 阅读全文

posted @ 2021-08-19 16:01 明明就- 阅读(327) 评论(0) 推荐(0)

Hadoop运行MR程序时出现的报错

摘要：前提: 在本地IDEA写完项目代码后,将整个项目打包上传到集群进行测试. 需要注意输入输出路径要写对将两个文件上传到HDFS集群 # 上传文件 hadoop fs -put /opt/module/hadoop_file/input/friends.txt /opt/module/hadoop_f 阅读全文

posted @ 2021-08-19 12:59 明明就- 阅读(318) 评论(0) 推荐(0)

Phoenix的基本命令

摘要：1.启动Phoenix bin/sqlline.sh 2.在Phoenix中查看表 !table 3.在Phoenix中创建表 create schema Phoenix_schema_name;create table Phoenix_schema_name.table_name(id varch 阅读全文

posted @ 2021-08-17 21:56 明明就- 阅读(492) 评论(0) 推荐(0)

浅谈排序算法-25匹马赛跑

摘要：问题:25匹马,五个赛道,每个赛道最多允许一匹马进行比赛,问需要进行多少次比赛可以找出跑得最快的三匹马? 拓展说下问题,一共是五个赛道,每个赛道上占一匹马,一场比赛最多就是五匹马同时进行.然后跑出各自的时间,A1 A2 A3 A4 A5; 如果再进行下一轮比赛,就是B1 B2 B3 B4 B5... 阅读全文

posted @ 2021-08-17 17:48 明明就- 阅读(464) 评论(0) 推荐(0)

Hadoop的数据压缩

摘要：前言: 压缩概述: 压缩技术能够有效减少底层存储系统(HDFS)读写字节数.压缩提高了网络带宽和磁盘空间的效率,在运行MR程序时,I/O操作,网络数据传输,Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得尤为重要. 鉴于磁盘I/O和网络带宽是阅读全文

posted @ 2021-08-16 16:32 明明就- 阅读(158) 评论(0) 推荐(0)

Hive on Tez

摘要：一安装tez 1.下载tez.tar 2.安装 tar -zxvf tez-0.9.1.tar.gz -C /opt/module 3.修改名称 mv tez-0.9.1-bin tez-0.9.1 二在Hive中配置tez 1.进入Hive的配置目录/opt/module/hive/conf 阅读全文

posted @ 2021-08-16 15:47 明明就- 阅读(397) 评论(0) 推荐(0)

Hive:临时函数和永久函数

摘要：关于HIVE实现自定义函数，步骤主要可分为：继承org.apache.hadoop.hive.ql.exec.UDF 重写evaluate()方法打包jar 添加jar包使用自定义函数下面是具体实现，包括自定义临时函数和自定义永久函数。编写自定义函数 public class AddPre 阅读全文

posted @ 2021-08-16 10:30 明明就- 阅读(639) 评论(0) 推荐(1)

Hive的UDF,UDAF,UDTF函数

摘要：Hive自定义函数包括三种UDF、UDAF、UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcation) 聚集函数，多进一出。Count/max/min UDTF(User-Defined Table-G 阅读全文

posted @ 2021-08-16 10:24 明明就- 阅读(167) 评论(0) 推荐(0)

HIVE

摘要：Hive源数据默认存储在derby数据库中，不支持多客户端访问，所以需要将源数据存储在Mysql中，才支持多客户端访问。主要架构如下： HIVE解析成MR的过程： Hive通过给用户提供一系列交互接口，接受到用户的指令（sql语句），结合源数据（metastore），经过Driver内的解析器、编译阅读全文

posted @ 2021-08-16 10:20 明明就- 阅读(439) 评论(0) 推荐(0)

Python:使用Jupytrer Notebook操作数据库

摘要：一、前提 1.预装Python3环境 2.安装相关库二、代码如下 import time import pymysql import pandas as pd from datetime import datetime,timedelta t1=datetime.strftime(datetime 阅读全文

posted @ 2021-08-13 18:30 明明就- 阅读(124) 评论(0) 推荐(0)

Git的基本操作

摘要：Git是目前世界上最先进的分布式版本控制系统 --Linus Torvalds(林纳斯·托瓦兹) 版本管理系统的作用： 1）协同开发 2）冲突解决 3）版本记录（复原） 4）历史追查 5）代码备份 6）权限管理 7）分支管理 8）代码审查 git status --显示列表中的文件 1）只显示上传到阅读全文

posted @ 2021-08-13 18:27 明明就- 阅读(85) 评论(0) 推荐(0)

Hadoop MapReduce概论

摘要：Hadoop MapReduce MapReduce是一个分布式运算程序的编程框架，是基于Hadoop的数据分析计算的核心框架。 MapReduce处理过程分为两个阶段：Map 和 Reduce Map负责把一个任务分解成多个任务。 Reduce负责把分解后多任务处理的结果汇总。 MapReduce 阅读全文

posted @ 2021-08-12 10:33 明明就- 阅读(274) 评论(0) 推荐(0)

Shell:Kafka集群群起脚本

摘要：一、环境准备 1.Kafka安装成功且配置好环境变量 2.Kafka配置成集群状态，broker_id配置成功二、群起脚本 Kafka路径：/opt/module/kafka/ #!/bin/bash case $1 in "start"){ for i in hadoop1 hadoop2 ha 阅读全文

posted @ 2021-08-09 16:52 明明就- 阅读(206) 评论(0) 推荐(1)

Maxwell同步Mysql数据库写入Kafka

摘要：前提环境：Zookeeper集群，Kafka集群，安装Mysql，配置Binlog。一、Maxwell简介 Maxwell就是把自己伪装成slave，假装从master复制数据。 Maxwell 是由美国Zendesk开源，用Java编写的MySQL实时抓取软件。实时读取MySQL二进制日志Bi 阅读全文

posted @ 2021-08-06 18:36 明明就- 阅读(625) 评论(0) 推荐(0)

安装Maxwell和无密码进入数据库

摘要：遇到的问题 1.分配一个账号可以操作数据库 grant all on maxwell.* to 'maxwell'@'%' identified by '000000'; 遇到的问题：解决办法：先刷新一遍数据库 flush privileges; 然后再输入命令 2.无密码进去mysql 2.1 阅读全文

posted @ 2021-08-06 17:34 明明就- 阅读(132) 评论(0) 推荐(0)

Linux环境下查找Mysql的my.cnf文件

摘要：linux版本是my.cnf，一般会放在/etc/my.cnf，/etc/mysql/my.cnf win下的是my.ini，一般会在安装目录的根目录使用查询命令 find / -name my.cnf 路径：/usr/my.cnf 阅读全文

posted @ 2021-08-06 15:23 明明就- 阅读(774) 评论(0) 推荐(0)

Linux查询文件路径

摘要：查询文件my.cnf find / -name my.cnf 阅读全文

posted @ 2021-08-06 15:20 明明就- 阅读(525) 评论(0) 推荐(0)

Maven的安装图文教程

摘要：一、已安装了JDK环境二、下载Maven https://maven.apache.org/ 三、解压下载到本地后，是压缩包的格式，进行解压。路径：D:\apache-maven-3.8.1 四、设置环境变量不要忘记还需要在PATH中添加五、验证安装六、setting文件配置这步骤配置阅读全文

posted @ 2021-08-06 11:45 明明就- 阅读(551) 评论(0) 推荐(0)

Mongo在DataWorks中的使用

摘要：一、query语句，制定数据同步规则。同步2021-07-05一天的数据 "{'createTime':{'$gt':NumberLong('1625414400000'),'$lt':NumberLong('1625500800000')}}" 二、您可以通过该配置型来限制返回MongoDB数阅读全文

posted @ 2021-08-06 11:23 明明就- 阅读(331) 评论(0) 推荐(0)

Mongo的基本语法

摘要：一、下载robo 3T https://robomongo.org/ 二、连接MongoDB 三、Mongo的基本语法 1.查询 db.getCollection('lc_user_lesson').find({}) 2.倒序查询 db.getCollection('lc_user_lesson') 阅读全文

posted @ 2021-08-06 11:17 明明就- 阅读(267) 评论(0) 推荐(0)

Shell：多台服务器查看jps服务脚本

摘要：一、创建Shell脚本 cd /bin touch jps.sh 二、写脚本 #!/bin/bash for i in hadoop1 hadoop2 hadoop3 do echo " $i的jps " ssh $i "/opt/module/jdk1.8.0_144/bin/jps" done 阅读全文

posted @ 2021-08-02 16:26 明明就- 阅读(145) 评论(0) 推荐(0)

Mysql开启binlog数据同步

摘要：前提：已经安装好了Mysql客户端和服务一、修改/etc/my.cnf文件注意：找不到/etc/my.cnf的解决办法 [root@hadoop201 module]$ sudo vim /etc/my.cnf server-id = 1 log-bin=mysql-bin binlog_for 阅读全文

posted @ 2021-08-01 19:16 明明就- 阅读(1238) 评论(0) 推荐(1)

Linux下安装完MySQL后找不到my.cnf文件原因

摘要：Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在点有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动阅读全文

posted @ 2021-08-01 19:12 明明就- 阅读(962) 评论(0) 推荐(0)

Linux下启动、停止、重启Mysql服务

摘要：Mysql启动、停止、重启常用命令a、启动方式1、使用 service 启动：[root@localhost /]# service mysqld start (5.0版本是mysqld)[root@localhost /]# service mysql start (5.5.7版本是mysql) 阅读全文

posted @ 2021-08-01 19:11 明明就- 阅读(834) 评论(0) 推荐(0)

Nginx采集日志服务jar群起脚本

摘要：一、jar包路径二、在/bin目录下创建logger.sh,并授予执行权限 vi logger.sh chmod 777 logger.sh 三、写logger.sh脚本 #!/bin/bash JAVA_BIN=/opt/module/jdk1.8.0_212/bin/java APPNAME 阅读全文

posted @ 2021-08-01 18:43 明明就- 阅读(76) 评论(0) 推荐(0)

Spring Assistant框架搭建消息队列写入Kafka消费Windows单机测试

摘要：前提：已安装Java8、Maven 一、在Idea中创建Spring Assistant项目，选中web、Apache Kafka、lombok 二、导入Pom文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven 阅读全文

posted @ 2021-08-01 17:50 明明就- 阅读(130) 评论(0) 推荐(0)

zookeeper三台服务器群起脚本

摘要：一、在/bin目录下创建zksh.sh touch zksh.sh vi zksh.sh 二、输入shell脚本代码 #!/bin/bash case $1 in "start"){ for i in hadoop201 hadoop202 hadoop203 do echo zookeeper $ 阅读全文

posted @ 2021-08-01 00:20 明明就- 阅读(313) 评论(0) 推荐(0)

明明就-

08 2021 档案

公告