08 2019 档案

解决yarn管理资源管理,其他应用起不来
摘要:解决yarn管理资源管理其他应用起不来 第一步: 第二步:进入虚拟机 阅读全文

posted @ 2019-08-30 17:14 来勒 阅读(276) 评论(0) 推荐(0) 编辑

Spark 读取mysql中的数据
摘要:Spark(直接读取mysql中的数据) 两种方法的目的:进行mysql数据的数据清洗 方法一: ①执行 ②执行 若是出现:java.sql.SQLException: No suitable driver 执行: 再重新运行上面代码 方法二: ①创建sqoop,执行sqoop ②进入hive创建外 阅读全文

posted @ 2019-08-21 16:10 来勒 阅读(3706) 评论(0) 推荐(0) 编辑

Spark 配置连接hive 元数据库(mysql)
摘要:Spark 连接hive 元数据库(mysql) 方法一: 方法二: 1)拷贝hive的hive-site.xml文件到spark的conf目录下 2)修改spark中hive-site.xml文件 3)另建窗口启动: 4)启动spark: 5)测试: 阅读全文

posted @ 2019-08-21 11:35 来勒 阅读(3269) 评论(1) 推荐(0) 编辑

Linux安装anaconda和集成PySpark - Configuration
摘要:Linux安装anaconda和集成PySpark - Configuration Linux需要安装jdk,spark 使用curl下载Anaconda(这是一个脚本) curl -O https://repo.continuum.io/archive/Anaconda3-5.1.0-Linux- 阅读全文

posted @ 2019-08-16 13:49 来勒 阅读(1241) 评论(0) 推荐(1) 编辑

python(配置)
摘要:python(配置) 一、环境变量 1)在命令提示符中输入anaconda navigator:启动anaconda进入页面选择Jupyter(launch) 2)conda list 查看安装的库 4)访问网址:http://localhost:8888 两种进入python 生成jupyter文 阅读全文

posted @ 2019-08-14 22:24 来勒 阅读(183) 评论(0) 推荐(0) 编辑

Python 数据爬取(环境变量)
摘要:Python 数据爬取(环境变量) 配置scrapy: 进入setting ——>Project Interpreter——>点击+——>搜索scrapy——>Install Package下载 Anaconda3配置环境变量 1)D:\installation\BigData\java\Anaco 阅读全文

posted @ 2019-08-14 22:20 来勒 阅读(335) 评论(0) 推荐(0) 编辑

Linux_最初指定网址
摘要:最初指定网址: 1)首先新建一个虚拟机: 修改文件:cd /etc/sysconfig/network-scripts/ 2)修改文件:vi ifcfg-enpOs3 3)修改文件:vi ifcfg-enOs8 4)重启网络:systemctl restart network 5)ping www. 阅读全文

posted @ 2019-08-11 14:20 来勒 阅读(165) 评论(0) 推荐(0) 编辑

python_基础
摘要:python(基础) Python的注释方法与常见内置函数 Python注释方法 常见内置函数 变量名的命名原则Python变量的特点 查看Python关键字的方法 数值类型 数值类型包括整型和浮点型 数值类型操作符 列表(list 【】) 列表的特点 创建List的方式 Tuple(元祖) () 阅读全文

posted @ 2019-08-10 23:50 来勒 阅读(306) 评论(0) 推荐(0) 编辑

python_配置
摘要:python(配置) 一、环境变量 1)在命令提示符中输入anaconda navigator:启动anaconda进入页面选择Jupyter(launch) 2)conda list 查看安装的库 两种进入python 生成jupyter文件 1)输入命令:jupyter notebook --g 阅读全文

posted @ 2019-08-10 23:28 来勒 阅读(126) 评论(0) 推荐(0) 编辑

Spark_飞机项目
摘要:Spark_飞机项目 首先将csv文件变成UTF-8 rdd 起始机场编号排名 机场数量/航线数量 计算最长的飞行航线 最大的边属性 找出最繁忙的机场 哪个机场到达航班最多 找出最重要的飞行航线 PageRank prege sampleRDD 找出最便宜的飞行航线 创建顶点 初始化源点(0) 阅读全文

posted @ 2019-08-10 23:17 来勒 阅读(264) 评论(0) 推荐(0) 编辑

Spark GraphX图形数据分析
摘要:Spark GraphX图形数据分析 图(Graph)的基本概念 图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种网状数据结构 图数据很好的表达了数据之间的关系 处理的是有向图 图的术语-4 出度:指从当前顶点指向其他顶点的边的数量 入度:其他顶点指向当前顶点的边的数量 图的 阅读全文

posted @ 2019-08-10 23:13 来勒 阅读(1288) 评论(0) 推荐(0) 编辑

Spark sql
摘要:Spark SQL SchemaRDD/DataFrame 介绍 用于结构化数据 Spark SQL运行原理 Catalyst 优化器:将逻辑计划转化成物理计划 Spark SQL API-1重点 SparkContext Spark SQL的编程入口 SparkSession 合并了SQLCont 阅读全文

posted @ 2019-08-01 22:48 来勒 阅读(200) 评论(0) 推荐(0) 编辑

Spark 分布式计算原理
摘要:Spark 分布式计算原理 Spark Shuffle RDD的依赖关系-1(lineage) RDD的依赖关系-2(lineage)?? 宽依赖对比窄依赖 DAG工作原理 根据RDD之间的依赖关系,形成一个DAG(有向无环) RDD持久化-1 cache: 间数据写入缓存 cache()不能再有其 阅读全文

posted @ 2019-08-01 22:45 来勒 阅读(562) 评论(0) 推荐(0) 编辑

spark 算子实例
摘要:RDD转换算子Transformation(lazy):懒汉模式 (转换) 一个数据集分成两个RDD,两个可能合并 map 输入变换函数应用于RDD中所有元素 val a = sc.parallelize(1 to 8) val b = a.map(s=>(s+1)) b.collect flatM 阅读全文

posted @ 2019-08-01 22:15 来勒 阅读(166) 评论(0) 推荐(0) 编辑

导航