摘要:解决yarn管理资源管理其他应用起不来 第一步: 第二步:进入虚拟机
阅读全文
摘要:Spark(直接读取mysql中的数据) 两种方法的目的:进行mysql数据的数据清洗 方法一: ①执行 ②执行 若是出现:java.sql.SQLException: No suitable driver 执行: 再重新运行上面代码 方法二: ①创建sqoop,执行sqoop ②进入hive创建外
阅读全文
摘要:Spark 连接hive 元数据库(mysql) 方法一: 方法二: 1)拷贝hive的hive-site.xml文件到spark的conf目录下 2)修改spark中hive-site.xml文件 3)另建窗口启动: 4)启动spark: 5)测试:
阅读全文
摘要:Linux安装anaconda和集成PySpark - Configuration Linux需要安装jdk,spark 使用curl下载Anaconda(这是一个脚本) curl -O https://repo.continuum.io/archive/Anaconda3-5.1.0-Linux-
阅读全文
摘要:python(配置) 一、环境变量 1)在命令提示符中输入anaconda navigator:启动anaconda进入页面选择Jupyter(launch) 2)conda list 查看安装的库 4)访问网址:http://localhost:8888 两种进入python 生成jupyter文
阅读全文
摘要:Python 数据爬取(环境变量) 配置scrapy: 进入setting ——>Project Interpreter——>点击+——>搜索scrapy——>Install Package下载 Anaconda3配置环境变量 1)D:\installation\BigData\java\Anaco
阅读全文
摘要:最初指定网址: 1)首先新建一个虚拟机: 修改文件:cd /etc/sysconfig/network-scripts/ 2)修改文件:vi ifcfg-enpOs3 3)修改文件:vi ifcfg-enOs8 4)重启网络:systemctl restart network 5)ping www.
阅读全文
摘要:python(基础) Python的注释方法与常见内置函数 Python注释方法 常见内置函数 变量名的命名原则Python变量的特点 查看Python关键字的方法 数值类型 数值类型包括整型和浮点型 数值类型操作符 列表(list 【】) 列表的特点 创建List的方式 Tuple(元祖) ()
阅读全文
摘要:python(配置) 一、环境变量 1)在命令提示符中输入anaconda navigator:启动anaconda进入页面选择Jupyter(launch) 2)conda list 查看安装的库 两种进入python 生成jupyter文件 1)输入命令:jupyter notebook --g
阅读全文
摘要:Spark_飞机项目 首先将csv文件变成UTF-8 rdd 起始机场编号排名 机场数量/航线数量 计算最长的飞行航线 最大的边属性 找出最繁忙的机场 哪个机场到达航班最多 找出最重要的飞行航线 PageRank prege sampleRDD 找出最便宜的飞行航线 创建顶点 初始化源点(0)
阅读全文
摘要:Spark GraphX图形数据分析 图(Graph)的基本概念 图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种网状数据结构 图数据很好的表达了数据之间的关系 处理的是有向图 图的术语-4 出度:指从当前顶点指向其他顶点的边的数量 入度:其他顶点指向当前顶点的边的数量 图的
阅读全文
摘要:Spark SQL SchemaRDD/DataFrame 介绍 用于结构化数据 Spark SQL运行原理 Catalyst 优化器:将逻辑计划转化成物理计划 Spark SQL API-1重点 SparkContext Spark SQL的编程入口 SparkSession 合并了SQLCont
阅读全文
摘要:Spark 分布式计算原理 Spark Shuffle RDD的依赖关系-1(lineage) RDD的依赖关系-2(lineage)?? 宽依赖对比窄依赖 DAG工作原理 根据RDD之间的依赖关系,形成一个DAG(有向无环) RDD持久化-1 cache: 间数据写入缓存 cache()不能再有其
阅读全文
摘要:RDD转换算子Transformation(lazy):懒汉模式 (转换) 一个数据集分成两个RDD,两个可能合并 map 输入变换函数应用于RDD中所有元素 val a = sc.parallelize(1 to 8) val b = a.map(s=>(s+1)) b.collect flatM
阅读全文