05 2021 档案

摘要:spark连接mysql数据库 1.安装启动检查Mysql服务。netstat -tunlp (3306) 2.spark 连接mysql驱动程序。–cp /usr/local/hive/lib/mysql-connector-java-5.1.40-bin.jar /usr/local/spark 阅读全文
posted @ 2021-05-30 23:55 牛奶我只喝现挤的 阅读(118) 评论(0) 推荐(0)
摘要:读学生课程分数文件chapter4-data01.txt,创建DataFrame。 >>> url = "file:///usr/local/spark/mycode/rdd/chapter4-data01.txt" >>> rdd = spark.sparkContext.textFile(url 阅读全文
posted @ 2021-05-20 01:32 牛奶我只喝现挤的 阅读(116) 评论(0) 推荐(0)
摘要:0.前次作业:从文件创建DataFrame 1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() >>> import pandas as pd>>> import numpy as np> 阅读全文
posted @ 2021-05-13 22:22 牛奶我只喝现挤的 阅读(81) 评论(0) 推荐(0)
摘要:1.Spark SQL出现的 原因是什么? spark sql是spark用来处理结构化数据的一个模块,与hive的hql不同,hive需要将hql转化成MapReduce然后提交执行,sparksql将sql语句转换成rdd然后提交集群执行,将执行效率大大提升 2.用spark.read 创建Da 阅读全文
posted @ 2021-05-10 15:36 牛奶我只喝现挤的 阅读(83) 评论(0) 推荐(0)