随笔档案「2021年5月」 - 牛奶我只喝现挤的

09 spark连接mysql数据库

摘要：spark连接mysql数据库 1.安装启动检查Mysql服务。netstat -tunlp (3306) 2.spark 连接mysql驱动程序。–cp /usr/local/hive/lib/mysql-connector-java-5.1.40-bin.jar /usr/local/spark 阅读全文

posted @ 2021-05-30 23:55 牛奶我只喝现挤的阅读(118) 评论(0) 推荐(0)

08 学生课程分数的Spark SQL分析

摘要：读学生课程分数文件chapter4-data01.txt，创建DataFrame。 >>> url = "file:///usr/local/spark/mycode/rdd/chapter4-data01.txt" >>> rdd = spark.sparkContext.textFile(url 阅读全文

posted @ 2021-05-20 01:32 牛奶我只喝现挤的阅读(116) 评论(0) 推荐(0)

07 从RDD创建DataFrame

摘要：0.前次作业：从文件创建DataFrame 1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() >>> import pandas as pd>>> import numpy as np> 阅读全文

posted @ 2021-05-13 22:22 牛奶我只喝现挤的阅读(81) 评论(0) 推荐(0)

06 Spark SQL 及其DataFrame的基本操作

摘要：1.Spark SQL出现的原因是什么? spark sql是spark用来处理结构化数据的一个模块，与hive的hql不同，hive需要将hql转化成MapReduce然后提交执行，sparksql将sql语句转换成rdd然后提交集群执行，将执行效率大大提升 2.用spark.read 创建Da 阅读全文

posted @ 2021-05-10 15:36 牛奶我只喝现挤的阅读(83) 评论(0) 推荐(0)

会喷火的杰尼龟

05 2021 档案

公告