随笔档案「2021年5月」 - Guhuanyu

09 spark连接mysql数据库

摘要：三、spark连接mysql数据库安装启动检查Mysql服务。netstat -tunlp (3306) spark 连接mysql驱动程序。–cp /usr/local/hive/lib/mysql-connector-java-5.1.40-bin.jar /usr/local/spark/j 阅读全文

posted @ 2021-05-30 00:09 Guhuanyu 阅读(60) 评论(0) 推荐(0)

08 学生课程分数的Spark SQL分析

摘要：读学生课程分数文件chapter4-data01.txt，创建DataFrame。一、用DataFrame的操作完成以下数据分析要求每个分数+5分。总共有多少学生？总共开设了哪些课程？每个学生选修了多少门课？每门课程有多少个学生选？每门课程大于95分的学生人数？ Tom选修了几门课？每阅读全文

posted @ 2021-05-27 17:04 Guhuanyu 阅读(58) 评论(0) 推荐(0)

07 从RDD创建DataFrame

摘要：0.前次作业：从文件创建DataFrame 1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() 答：（1）代码：（2）运行结果： 2. Spark与Pandas中DataFrame对比阅读全文

posted @ 2021-05-12 00:55 Guhuanyu 阅读(57) 评论(0) 推荐(0)

06 Spark SQL 及其DataFrame的基本操作

摘要：1.Spark SQL出现的原因是什么? 答：（1）Shark执行计划优化完全依赖于Hive，不便于添加新的优化策略。（2）Spark是线程级并行，MapReduce是进程级并行，因此，Spark在兼容Hive的实现上存在线程安全问题，导致Shark不得不使用另外一套独立维护的、打了补丁的Hiv 阅读全文

posted @ 2021-05-09 20:44 Guhuanyu 阅读(70) 评论(0) 推荐(0)