2019 年 8月随笔档案 - 来勒

解决yarn管理资源管理，其他应用起不来

摘要：解决yarn管理资源管理其他应用起不来第一步：第二步：进入虚拟机阅读全文

posted @ 2019-08-30 17:14 来勒阅读(276) 评论(0) 推荐(0) 编辑

Spark 读取mysql中的数据

摘要：Spark（直接读取mysql中的数据）两种方法的目的：进行mysql数据的数据清洗方法一： ①执行 ②执行若是出现：java.sql.SQLException: No suitable driver 执行：再重新运行上面代码方法二： ①创建sqoop,执行sqoop ②进入hive创建外阅读全文

posted @ 2019-08-21 16:10 来勒阅读(3706) 评论(0) 推荐(0) 编辑

Spark 配置连接hive 元数据库(mysql)

摘要：Spark 连接hive 元数据库(mysql) 方法一：方法二： 1）拷贝hive的hive-site.xml文件到spark的conf目录下 2）修改spark中hive-site.xml文件 3）另建窗口启动： 4）启动spark: 5）测试：阅读全文

posted @ 2019-08-21 11:35 来勒阅读(3269) 评论(1) 推荐(0) 编辑

Linux安装anaconda和集成PySpark - Configuration

摘要：Linux安装anaconda和集成PySpark - Configuration Linux需要安装jdk,spark 使用curl下载Anaconda（这是一个脚本） curl -O https://repo.continuum.io/archive/Anaconda3-5.1.0-Linux- 阅读全文

posted @ 2019-08-16 13:49 来勒阅读(1241) 评论(0) 推荐(1) 编辑

python（配置）

摘要：python（配置）一、环境变量 1）在命令提示符中输入anaconda navigator:启动anaconda进入页面选择Jupyter（launch） 2）conda list 查看安装的库 4）访问网址：http://localhost:8888 两种进入python 生成jupyter文阅读全文

posted @ 2019-08-14 22:24 来勒阅读(183) 评论(0) 推荐(0) 编辑

Python 数据爬取（环境变量）

摘要：Python 数据爬取（环境变量）配置scrapy: 进入setting ——>Project Interpreter——>点击+——>搜索scrapy——>Install Package下载 Anaconda3配置环境变量 1）D:\installation\BigData\java\Anaco 阅读全文

posted @ 2019-08-14 22:20 来勒阅读(335) 评论(0) 推荐(0) 编辑

Linux_最初指定网址

摘要：最初指定网址： 1）首先新建一个虚拟机：修改文件：cd /etc/sysconfig/network-scripts/ 2）修改文件：vi ifcfg-enpOs3 3）修改文件：vi ifcfg-enOs8 4）重启网络：systemctl restart network 5）ping www. 阅读全文

posted @ 2019-08-11 14:20 来勒阅读(165) 评论(0) 推荐(0) 编辑

python_基础

摘要：python（基础） Python的注释方法与常见内置函数 Python注释方法常见内置函数变量名的命名原则Python变量的特点查看Python关键字的方法数值类型数值类型包括整型和浮点型数值类型操作符列表（list 【】）列表的特点创建List的方式 Tuple(元祖) （）阅读全文

posted @ 2019-08-10 23:50 来勒阅读(306) 评论(0) 推荐(0) 编辑

python_配置

摘要：python（配置）一、环境变量 1）在命令提示符中输入anaconda navigator:启动anaconda进入页面选择Jupyter（launch） 2）conda list 查看安装的库两种进入python 生成jupyter文件 1）输入命令：jupyter notebook --g 阅读全文

posted @ 2019-08-10 23:28 来勒阅读(126) 评论(0) 推荐(0) 编辑

Spark_飞机项目

摘要：Spark_飞机项目首先将csv文件变成UTF-8 rdd 起始机场编号排名机场数量/航线数量计算最长的飞行航线最大的边属性找出最繁忙的机场哪个机场到达航班最多找出最重要的飞行航线 PageRank prege sampleRDD 找出最便宜的飞行航线创建顶点初始化源点（0）阅读全文

posted @ 2019-08-10 23:17 来勒阅读(264) 评论(0) 推荐(0) 编辑

Spark GraphX图形数据分析

摘要：Spark GraphX图形数据分析图（Graph）的基本概念图是由顶点集合(vertex)及顶点间的关系集合（边edge）组成的一种网状数据结构图数据很好的表达了数据之间的关系处理的是有向图图的术语-4 出度：指从当前顶点指向其他顶点的边的数量入度：其他顶点指向当前顶点的边的数量图的阅读全文

posted @ 2019-08-10 23:13 来勒阅读(1288) 评论(0) 推荐(0) 编辑

Spark sql

摘要：Spark SQL SchemaRDD/DataFrame 介绍用于结构化数据 Spark SQL运行原理 Catalyst 优化器:将逻辑计划转化成物理计划 Spark SQL API-1重点 SparkContext Spark SQL的编程入口 SparkSession 合并了SQLCont 阅读全文

posted @ 2019-08-01 22:48 来勒阅读(200) 评论(0) 推荐(0) 编辑

Spark 分布式计算原理

摘要：Spark 分布式计算原理 Spark Shuffle RDD的依赖关系-1（lineage） RDD的依赖关系-2（lineage）？？宽依赖对比窄依赖 DAG工作原理根据RDD之间的依赖关系，形成一个DAG（有向无环） RDD持久化-1 cache: 间数据写入缓存 cache（）不能再有其阅读全文

posted @ 2019-08-01 22:45 来勒阅读(562) 评论(0) 推荐(0) 编辑

spark 算子实例

摘要：RDD转换算子Transformation（lazy）:懒汉模式（转换）一个数据集分成两个RDD，两个可能合并 map 输入变换函数应用于RDD中所有元素 val a = sc.parallelize(1 to 8) val b = a.map(s=>(s+1)) b.collect flatM 阅读全文

posted @ 2019-08-01 22:15 来勒阅读(166) 评论(0) 推荐(0) 编辑

08 2019 档案