2017 年 12月随笔档案 - 信方

CM记录-CDH故障修复处理记录

摘要：CDH大数据集群修复记录 1）cm web打不开，查看监听7180端口产生了很多进程，于是kill进程；重启cloudera-cmf-server服务，几秒钟就挂了，查看cloudera-scm-server运行日志是由于mysql服务挂了。 2）查看mysql错误日志，mysql是默认安装在/根分阅读全文

posted @ 2017-12-27 16:20 信方阅读(1909) 评论(0) 推荐(0) 编辑

Spark记录-大数据简介

摘要：什么是大数据 Volume —— 数据量大随着技术的发展，人们收集信息的能力越来越强，随之获取的数据量也呈爆炸式增长。例如百度每日处理的数据量达上百PB，总的数据量规模已经到达EP级。 Velocity —— 处理速度快指的是销售、交易、计量等等人们关心的事件发生的频率。2017年双11，支付成阅读全文

posted @ 2017-12-15 13:55 信方编辑

Spark记录-spark-env.sh配置

摘要：注意: 启动脚本目前不支持Windows。如需在Windows上运行，请手工启动master和workers。 SPARK_MASTER_OPTS支持以下属性： SPARK_WORKER_OPTS支持以下属性：阅读全文

posted @ 2017-12-14 16:14 信方编辑

Spark记录-Spark性能优化解决方案

摘要：Spark性能优化的10大问题及其解决方案近期优化了一个spark流量统计的程序，此程序跑5分钟小数据量日志不到5分钟，但相同的程序跑一天大数据量日志各种失败。经优化，使用160 vcores + 480G memory，一天的日志可在2.5小时内跑完，下面对一些优化的思路方法进行梳理。近期优化阅读全文

posted @ 2017-12-13 17:19 信方编辑

Spark记录-Spark性能优化（开发、资源、数据、shuffle）

摘要：开发调优篇原则一：避免创建重复的RDD 通常来说，我们在开发一个Spark作业时，首先是基于某个数据源（比如Hive表或HDFS文件）创建一个初始的RDD；接着对这个RDD执行某个算子操作，然后得到下一个RDD；以此类推，循环往复，直到计算出最终我们需要的结果。在这个过程中，多个RDD会通过不同的阅读全文

posted @ 2017-12-13 17:09 信方编辑

CM记录-优化配置解决Reduce卡顿问题

摘要：CDH大数据集群问题问题分析与解决方案问题描述：Hive提交任务，一直卡在Reduce阶段，进度缓慢。日志分析：NodeManager节点产生的usercache所在分区空间不足，导致进程异常退出。解决方案：1）调整各个NodeManager节点的配置-/opt/yarn/nm、/spark/ 阅读全文

posted @ 2017-12-13 16:14 信方编辑

Spark记录-SparkSQL远程操作MySQL和ORACLE

摘要：1.项目引入mysql和oracle驱动 2.将mysql和oracle驱动上传到hdfs 3.远程调试源代码如下：阅读全文

posted @ 2017-12-11 15:24 信方编辑

Spark记录-Spark on Yarn框架

摘要：一、客户端进行操作 1、根据yarnConf来初始化yarnClient，并启动yarnClient2、创建客户端Application，并获取Application的ID，进一步判断集群中的资源是否满足executor和ApplicationMaster申请的资源，如果不满足则抛出IllegalA 阅读全文

posted @ 2017-12-08 14:31 信方编辑

Linux记录-重启后磁盘丢失问题解决方案

摘要：1.df -TH 查看挂载情况 2.fdisk -l 查看磁盘情况 3.blkid 查看磁盘文件系统 4.vim /etc/fstab 加入 /dev/xvdf ext4 defaults 0 0 5.保存重启，查看df -TH 阅读全文

posted @ 2017-12-07 15:46 信方编辑

Spark记录-阿里巴巴开源工具DataX数据同步工具使用

摘要：1.官网下载下载地址：https://github.com/alibaba/DataX DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、M 阅读全文

posted @ 2017-12-06 16:25 信方编辑

Spark记录-SparkSql官方文档中文翻译（部分转载）

摘要：1 概述（Overview） Spark SQL是Spark的一个组件，用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象，DataFrames可以充当分布式SQL查询引擎。 2 DataFrames DataFrame是一个分布式的数据集合，该数据集合以命名列的方阅读全文

posted @ 2017-12-06 10:55 信方编辑

Spark记录-SparkSQL一些操作

摘要：scala>val spark=new org.apache.spark.sql.SQLContext(sc) user.json {"age":"45","gender":"M","occupation":"7","userID":"4","zipcode":"02460"}{"age":"1", 阅读全文

posted @ 2017-12-05 15:49 信方编辑

Spark记录-Spark-Shell客户端操作读取Hive数据

摘要：1.拷贝hive-site.xml到spark/conf下，拷贝mysql-connector-java-xxx-bin.jar到hive/lib下 2.开启hive元数据服务：hive --service metastore 3.开启hadoop服务：sh $HADOOP_HOME/sbin/st 阅读全文

posted @ 2017-12-05 11:10 信方编辑

Spark记录-SparkSQL相关学习

摘要：$spark-sql --help 查看帮助命令 $设置任务个数，在这里修改为20个 spark-sql>SET spark.sql.shuffle.partitions=20; $选择数据库 spark-sql>use siat; $查询数据表 spark-sql>select * from te 阅读全文

posted @ 2017-12-04 10:02 信方编辑

信方互联网硬汉

行走互联，硬汉信方

12 2017 档案

公告

搜索

常用链接

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论