04 2021 档案

摘要:前言:数据倾斜大多数是由于数据本身的分布不均匀。故而需要我们使用诸如列裁剪、Mapjoin、GroupBy等方法进行处理。数据倾斜表现:1、任务日志进度长度为99%,在日志监控进度条显示只有几个reduce进度一直没有完成。 2、某一reduce处理时长>平均处理时长 3、job数过多 数据倾斜原因 阅读全文
posted @ 2021-04-29 17:18 欣欣姐 阅读(88) 评论(0) 推荐(0) 编辑
摘要:# 每月将各分公司的业务情况汇总 再定时输出 import cx_Oracle from openpyxl.styles import Font import pandas as pd import openpyxl import time from email.mime.multipart imp 阅读全文
posted @ 2021-04-25 15:03 欣欣姐 阅读(55) 评论(0) 推荐(0) 编辑
摘要:背景:需要读取本地的log文件,并进行字符的分割 package com.wfbmall.interceptors.com.test; import java.io.*; public class test01{ public static void main (String[] args) { t 阅读全文
posted @ 2021-04-15 11:07 欣欣姐 阅读(583) 评论(0) 推荐(0) 编辑
摘要:问题: 执行python脚本时,提示IndentationError: unindent does not match any outer indentation level。 原因: 1. 代码格式未对齐,找到提示错误的行,检查是否对齐 2. 是否存在特殊字符 解决方案,将代码复制到nopad++ 阅读全文
posted @ 2021-04-02 11:54 欣欣姐 阅读(2074) 评论(0) 推荐(0) 编辑
摘要:通过flume将日志数据读取到kafka中,然后再利用spark去消费kafka的数据, 1.保证zookeeper服务一直开启 2.配置flume文件,其配置信息如下 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configu 阅读全文
posted @ 2021-04-01 17:57 欣欣姐 阅读(384) 评论(0) 推荐(0) 编辑
摘要:通过flume将日志数据读取到kafka中,然后再利用spark去消费kafka的数据, 1.保证zookeeper服务一直开启 2.配置flume文件,其配置信息如下 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configu 阅读全文
posted @ 2021-04-01 15:25 欣欣姐 阅读(1093) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示