随笔分类 - 大数据
摘要:关于大数据的概念,指的是无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。而大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。那么关于大数据的技术大致包含哪些内容? 一、数据采集 ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层
阅读全文
摘要:1. 序经过了一天的修炼,深深被恶心了,在虚拟环境中配置pyspark花式报错,由于本人实在是不想卸载3.6版的python,所以硬刚了一天,终于摸清了配置方法,并且配置成功,不抱怨了,开讲: 2. 需求环境Anaconda3;(我的是最新版的Anaconda4.3.1(64位)) 3. 安装虚拟环
阅读全文
摘要:本篇博客将给大家介绍怎么在PyCharm上编写运行WordCount程序。 第一步 下载安装PyCharm 下载Pycharm PyCharm的下载地址(Linux版本)。下载完成后你将得到一个名叫:pycharm-professional-2018.2.4.tar.gz文件。我们选择的是正版软件,
阅读全文
摘要:当前spark任务都是运行在yarn上,所以不用启动长进程worker,也没有master的HA问题,所以主要的问题在任务执行层面。 作业故障分类故障主要分为版本,内存和权限三方面。 - 各种版本不一致 - 各种内存溢出 - 其他问题 版本不一致1)java版本不一致报错:java.lang.Uns
阅读全文