2022 年 8月 26 日随笔档案 - jsqup

2022年8月26日

摘要：题目描述 /** * 用户的行为日志数据清洗过滤 * 网站的独立访客数：一个唯一的IP地址就是一个独立访客 * 1、将用户行为日志数据中的IP地址字段获取到返回一个只包含IP地址的RDD * 2、RDD中重复的IP去重 * 3、RDD中的累加值 */ 案例 object A2DataAnaly { 阅读全文

posted @ 2022-08-26 23:02 jsqup 阅读(37) 评论(0) 推荐(0) 编辑

通过createDataFrame方法创建DataFrame对象

摘要：从集合中借助createDataFrame函数创建DataFrame createDataFrame(Seq[T]) 列名会自动生成案例： val dataFrame: DataFrame = session.createDataFrame(Array( ("zs", 20, "男"), ("ls 阅读全文

posted @ 2022-08-26 12:04 jsqup 阅读(338) 评论(0) 推荐(0) 编辑

通过隐式转换创建toDF函数来创建DataFrame对象

摘要：方式一：Scala集合创建DataFrame import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkSession} object CreateSparkSession { def main(ar 阅读全文

posted @ 2022-08-26 12:03 jsqup 阅读(293) 评论(0) 推荐(0) 编辑

创建SparkSQL的项目

摘要：创建项目方式和前面一样 pom依赖不一样无需导入spark_core包，因为spark_sql中包含了spark_core pom.xml文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.or 阅读全文

posted @ 2022-08-26 11:14 jsqup 阅读(25) 评论(0) 推荐(0) 编辑

SparkSQL概述

摘要： 1. SparkSQL支持的数据源 Hive Scala内存中数据--集合支持从RDD读取数据作SQL操作支持从外部存储文件读取数据json，csv，普通结构文本文件支持从关系型数据库读取数据处理（MySQL，SQL Server，Oracle） 2. SparkSQL入口 SQLContex 阅读全文

posted @ 2022-08-26 09:30 jsqup 阅读(14) 评论(0) 推荐(0) 编辑

jsqup

公告