集技术与颜值于一身

日就月将,学有缉熙于光明

导航

2018年7月18日 #

大数据01

摘要: 第一步:下载UltraISO 选择iso镜像文件打开,然后菜单栏的“启动”,选择“写入硬盘映像”,其他的默认,然后写入完成后U盘会变名字。 第二步: 插入U盘,启动的时候按键盘右下角的“DEL”(主板不同可能会不同按键)进入BIOS界面, 选择右下角的“BootMenu”, 选SMI USB DIS 阅读全文

posted @ 2018-07-18 14:11 旷课小王子 阅读(111) 评论(0) 推荐(0) 编辑

2018年5月24日 #

使用java开发spark的wordcount程序(多种实现)

摘要: package spark; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import or... 阅读全文

posted @ 2018-05-24 16:57 旷课小王子 阅读(413) 评论(0) 推荐(0) 编辑

2018年3月2日 #

【慕课网实战】九、以慕课网日志分析为例 进入大数据 Spark SQL 的世界

摘要: 即席查询普通查询 Load Data1) RDD DataFrame/Dataset2) Local Cloud(HDFS/S3) 将数据加载成RDDval masterLog = sc.textFile("file:///home/hadoop/app/spark-2.1.0-bin-2.6.0- 阅读全文

posted @ 2018-03-02 16:08 旷课小王子 阅读(203) 评论(0) 推荐(0) 编辑

【慕课网实战】八、以慕课网日志分析为例 进入大数据 Spark SQL 的世界

摘要: 用户行为日志:用户每次访问网站时所有的行为数据(访问、浏览、搜索、点击...) 用户行为轨迹、流量日志 日志数据内容: 1)访问的系统属性: 操作系统、浏览器等等 2)访问特征:点击的url、从哪个url跳转过来的(referer)、页面上的停留时间等 3)访问信息:session_id、访问ip( 阅读全文

posted @ 2018-03-02 16:06 旷课小王子 阅读(855) 评论(1) 推荐(0) 编辑

【慕课网实战】七、以慕课网日志分析为例 进入大数据 Spark SQL 的世界

摘要: 用户: 方便快速从不同的数据源(json、parquet、rdbms),经过混合处理(json join parquet), 再将处理结果以特定的格式(json、parquet)写回到指定的系统(HDFS、S3)上去 Spark SQL 1.2 ==> 外部数据源API 外部数据源的目的 1)开发人 阅读全文

posted @ 2018-03-02 16:04 旷课小王子 阅读(264) 评论(0) 推荐(0) 编辑

【慕课网实战】六、以慕课网日志分析为例 进入大数据 Spark SQL 的世界

摘要: DataFrame它不是Spark SQL提出的,而是早起在R、Pandas语言就已经有了的。 A Dataset is a distributed collection of data:分布式的数据集 A DataFrame is a Dataset organized into named co 阅读全文

posted @ 2018-03-02 16:03 旷课小王子 阅读(214) 评论(0) 推荐(0) 编辑

【慕课网实战】五、以慕课网日志分析为例 进入大数据 Spark SQL 的世界

摘要: 提交Spark Application到环境中运行spark-submit \--name SQLContextApp \--class com.imooc.spark.SQLContextApp \--master local[2] \/home/hadoop/lib/sql-1.0.jar \/ 阅读全文

posted @ 2018-03-02 16:02 旷课小王子 阅读(217) 评论(0) 推荐(0) 编辑

【慕课网实战】四、以慕课网日志分析为例 进入大数据 Spark SQL 的世界

摘要: 文本文件进行统计分析:id, name, age, city1001,zhangsan,45,beijing1002,lisi,35,shanghai1003,wangwu,29,tianjin....... table定义:personcolumn定义: id:int name:string ag 阅读全文

posted @ 2018-03-02 15:59 旷课小王子 阅读(359) 评论(1) 推荐(0) 编辑

【慕课网实战】三、以慕课网日志分析为例 进入大数据 Spark SQL 的世界

摘要: 前置要求: 1)Building Spark using Maven requires Maven 3.3.9 or newer and Java 7+ 2)export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m" mvn编译命令: ./bu 阅读全文

posted @ 2018-03-02 15:57 旷课小王子 阅读(251) 评论(0) 推荐(0) 编辑

【慕课网实战】二、以慕课网日志分析为例 进入大数据 Spark SQL 的世界

摘要: MapReduce的局限性: 1)代码繁琐; 2)只能够支持map和reduce方法; 3)执行效率低下; 4)不适合迭代多次、交互式、流式的处理; 框架多样化: 1)批处理(离线):MapReduce、Hive、Pig 2)流式处理(实时): Storm、JStorm 3)交互式计算:Impala 阅读全文

posted @ 2018-03-02 15:56 旷课小王子 阅读(192) 评论(0) 推荐(0) 编辑