yjyyjy

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

摘要: 使用PySpark sql module 分析Excel 数据 https://www.toutiao.com/i6842580598276489742/ 阅读全文
posted @ 2020-07-01 21:09 闭关49天 阅读(271) 评论(0) 推荐(0) 编辑

摘要: 1. Java 下载Java 1.8 64位版本https://java.com/en/download/. 如果不是64位java,在启动资源节点管理器时会出现错误 Java 安装自选目录, 必须是中间不带空格的目录结构:比如 C:\java64 安装完成后,使用“java -version”命令 阅读全文
posted @ 2020-06-01 08:00 闭关49天 阅读(279) 评论(0) 推荐(0) 编辑

摘要: 优化资源分配 在Spark的集群管理器(Yarn、Mesos和Spark单机)之间,这里的建议和配置略有不同,但是我们只关注Yarn,Cloudera向所有用户推荐Yarn。 Spark(和YARN) 考虑的两个主要资源是CPU和内存。当然,磁盘和网络I/O也对Spark性能有影响,但是Spark和 阅读全文
posted @ 2020-05-17 21:51 闭关49天 阅读(260) 评论(0) 推荐(0) 编辑

摘要: 问题 对于给定的文件,应该使用多少个分区? 例如,假设我有一个10GB 文件,3个执行器,每个执行器有 2 个内核,3G内存。 我应该重新分配吗? 我应该使用多少个分区? 做出选择的更好方法是什么? 会默认重新分区么? 分析 Spark可以为一个RDD的每个分区运行一个并发任务,直到并发任务数等于集 阅读全文
posted @ 2020-05-10 17:53 闭关49天 阅读(601) 评论(0) 推荐(0) 编辑

摘要: GUI里调试Spark JOB 必须先安装好 Spark:https://www.cnblogs.com/yjyyjy/p/12860642.html 视频: https://study.163.com/course/courseLearn.htm?courseId=1210073161&share 阅读全文
posted @ 2020-05-10 05:16 闭关49天 阅读(438) 评论(0) 推荐(0) 编辑

摘要: Spark 高级版本对 python 的支持已经好很多了。喜欢用Python 的小伙伴也可以用Spark 来做高性能的数据分析!环境搭建步骤如下: 视频链接地址: https://study.163.com/course/courseLearn.htm?courseId=1210073161#/le 阅读全文
posted @ 2020-05-09 22:46 闭关49天 阅读(519) 评论(1) 推荐(0) 编辑

摘要: 1. 下载wordcount jar 文件 下载文件夹放置你的目录: https://github.com/yjy24/bigdata_learning/blob/master/hadoopMapRedSimple.zip 2. 启动 hadoop 管理员身份运行window cmd: 启动 Had 阅读全文
posted @ 2020-04-23 20:11 闭关49天 阅读(664) 评论(0) 推荐(0) 编辑

摘要: 视频资料链接: https://study.163.com/course/courseLearn.htm?courseId=1209974322#/learn/video?lessonId=1280760188&courseId=1209974322 1. Java 下载Java 1.8 64位版本 阅读全文
posted @ 2020-04-23 18:42 闭关49天 阅读(1494) 评论(2) 推荐(2) 编辑

2020年12月23日

摘要: curl is a a command line tool that allows to transfer data across the network. It supports lots of protocols out of the box, including HTTP, HTTPS, FT 阅读全文
posted @ 2020-12-23 14:52 闭关49天 阅读(776) 评论(0) 推荐(0) 编辑

2020年11月15日

摘要: 1. 酷狗音乐的大数据平台架构: https://www.infoq.cn/article/kugou-big-data-platform-restructure 2. 滴滴大数据离线和实时平台架构和实践: https://myslide.cn/slides/15307 3. 美图大数据平台lamd 阅读全文
posted @ 2020-11-15 10:15 闭关49天 阅读(239) 评论(0) 推荐(0) 编辑

摘要: 1.3 Lambda架构 Lambda架构算是大数据系统里面举足轻重的架构,大多数架构基本都是Lambda架构或者基于其变种的架构。Lambda的数据通道分为两条分支:实时流和离线。实时流依照流式架构,保障了其实时性,而离线则以批处理方式为主,保证了最终一致性。流式通道处理为保障实效性更多的以增量计 阅读全文
posted @ 2020-11-15 10:12 闭关49天 阅读(346) 评论(0) 推荐(0) 编辑

2020年8月2日

摘要: 【zz:https://www.cnblogs.com/xidongyu/p/10962657.html】 前言 ​ 在 Java 领域,实现并发程序的主要手段就是多线程。线程是操作系统里的一个概念,虽然各种不同的开发语言如 Java、C# 等都对其进行了封装,但是万变不离操作系统。Java 语言里 阅读全文
posted @ 2020-08-02 11:33 闭关49天 阅读(134) 评论(0) 推荐(0) 编辑

2020年7月31日

摘要: 【zz:http://android.52fhy.com/java/2.2.java_io_detail.html】 java.io 包几乎包含了所有操作输入、输出需要的类。所有这些流类代表了输入源和输出目标。 Contents 输入输出流 简介 字节流转换为字符流 示例 文件和I/O 参考 输入输 阅读全文
posted @ 2020-07-31 22:48 闭关49天 阅读(216) 评论(0) 推荐(0) 编辑

摘要: 【ZZ:https://blog.csdn.net/qq_35771266/article/details/97156939】 String,java.util下的集合容器 数组长度限制为 Integer.Integer.MAX_VALUE; String的长度限制: 底层是char 数组 长度 I 阅读全文
posted @ 2020-07-31 22:36 闭关49天 阅读(121) 评论(0) 推荐(0) 编辑

摘要: 【ZZ:https://www.cnblogs.com/HBDanDing/articles/12696889.html】 创建线程方式一:继承Thread类。 步骤:1,定义一个类继承Thread类。2,覆盖Thread类中的run方法。3,直接创建Thread的子类对象创建线程。4,调用star 阅读全文
posted @ 2020-07-31 22:23 闭关49天 阅读(901) 评论(0) 推荐(0) 编辑

摘要: 【ZZ:https://blog.csdn.net/weixin_44460333/article/details/86770169】 前言 Map 这样的 Key Value 在软件开发中是非常经典的结构,常用于在内存中存放数据。 本篇主要想讨论 ConcurrentHashMap 这样一个并发容 阅读全文
posted @ 2020-07-31 22:14 闭关49天 阅读(413) 评论(0) 推荐(0) 编辑

摘要: 【zz https://blog.csdn.net/lmx125254/article/details/88558535】 在理解Synchronized中的锁时,需要先了解一下CAS,CAS在应用中有很多的用途。 什么是CAS? CAS的全名叫做Compare and Swap,翻译过来就是先比较 阅读全文
posted @ 2020-07-31 22:08 闭关49天 阅读(163) 评论(0) 推荐(0) 编辑

摘要: [ZZ: https://www.cnblogs.com/weibanggang/p/9455926.html] java中用于处理字符串常用的有三个类: 1、java.lang.String 2、java.lang.StringBuffer 3、java.lang.StrungBuilder 三者 阅读全文
posted @ 2020-07-31 21:40 闭关49天 阅读(97) 评论(0) 推荐(0) 编辑