随笔档案「2021年4月」 - 欣欣姐

hive数据倾斜

摘要：前言：数据倾斜大多数是由于数据本身的分布不均匀。故而需要我们使用诸如列裁剪、Mapjoin、GroupBy等方法进行处理。数据倾斜表现：1、任务日志进度长度为99%，在日志监控进度条显示只有几个reduce进度一直没有完成。 2、某一reduce处理时长>平均处理时长 3、job数过多数据倾斜原因阅读全文

posted @ 2021-04-29 17:18 欣欣姐阅读(97) 评论(0) 推荐(0)

定时发送邮件python

摘要：# 每月将各分公司的业务情况汇总再定时输出 import cx_Oracle from openpyxl.styles import Font import pandas as pd import openpyxl import time from email.mime.multipart imp 阅读全文

posted @ 2021-04-25 15:03 欣欣姐阅读(76) 评论(0) 推荐(0)

Java读取本地文件

摘要：背景：需要读取本地的log文件，并进行字符的分割 package com.wfbmall.interceptors.com.test; import java.io.*; public class test01{ public static void main (String[] args) { t 阅读全文

posted @ 2021-04-15 11:07 欣欣姐阅读(612) 评论(0) 推荐(0)

Unindent does not match any outer indentation level报错

摘要：问题：执行python脚本时，提示IndentationError: unindent does not match any outer indentation level。原因： 1. 代码格式未对齐，找到提示错误的行，检查是否对齐 2. 是否存在特殊字符解决方案，将代码复制到nopad++ 阅读全文

posted @ 2021-04-02 11:54 欣欣姐阅读(2268) 评论(0) 推荐(0)

spark实时消费kafka（有状态转换）

摘要：通过flume将日志数据读取到kafka中，然后再利用spark去消费kafka的数据， 1.保证zookeeper服务一直开启 2.配置flume文件，其配置信息如下 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configu 阅读全文

posted @ 2021-04-01 17:57 欣欣姐阅读(402) 评论(0) 推荐(0)

spark 消费kafka的数据

摘要：通过flume将日志数据读取到kafka中，然后再利用spark去消费kafka的数据， 1.保证zookeeper服务一直开启 2.配置flume文件，其配置信息如下 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configu 阅读全文

posted @ 2021-04-01 15:25 欣欣姐阅读(1121) 评论(0) 推荐(0)

欣欣姐

04 2021 档案

公告