04 2021 档案
摘要:前言:数据倾斜大多数是由于数据本身的分布不均匀。故而需要我们使用诸如列裁剪、Mapjoin、GroupBy等方法进行处理。数据倾斜表现:1、任务日志进度长度为99%,在日志监控进度条显示只有几个reduce进度一直没有完成。 2、某一reduce处理时长>平均处理时长 3、job数过多 数据倾斜原因
阅读全文
摘要:# 每月将各分公司的业务情况汇总 再定时输出 import cx_Oracle from openpyxl.styles import Font import pandas as pd import openpyxl import time from email.mime.multipart imp
阅读全文
摘要:背景:需要读取本地的log文件,并进行字符的分割 package com.wfbmall.interceptors.com.test; import java.io.*; public class test01{ public static void main (String[] args) { t
阅读全文
摘要:问题: 执行python脚本时,提示IndentationError: unindent does not match any outer indentation level。 原因: 1. 代码格式未对齐,找到提示错误的行,检查是否对齐 2. 是否存在特殊字符 解决方案,将代码复制到nopad++
阅读全文
摘要:通过flume将日志数据读取到kafka中,然后再利用spark去消费kafka的数据, 1.保证zookeeper服务一直开启 2.配置flume文件,其配置信息如下 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configu
阅读全文
摘要:通过flume将日志数据读取到kafka中,然后再利用spark去消费kafka的数据, 1.保证zookeeper服务一直开启 2.配置flume文件,其配置信息如下 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configu
阅读全文