Live2D
摘要: 推导式 comprehensions(又称解析式),是 python 的一种独有特性。推导式是可以从一个数据序列构建另一个新的数据序列。 1.1列表推导式 语法: 变量名 = [表达式 for 变量 in 列表 for 变量 in xxx] 变量名 = [表达式 for 变量 in 列表 if 条件 阅读全文
posted @ 2019-06-28 20:51 穆梓先生 阅读(8960) 评论(0) 推荐(1) 编辑
摘要: 变量的命名:可以由数字字母下换线组成 ,不能以数字开头,可以使用中文但是不推荐使用中文,不推荐前面使用_ __,不能使用系统的关键字,变量名严格区分大小写 逻辑运算优先级 or<and<not 可以通过小括号提升优先级 print((False or True) and not False) Fal 阅读全文
posted @ 2019-06-25 19:35 穆梓先生 阅读(427) 评论(0) 推荐(0) 编辑
摘要: 1.xsync集群分发脚本 首先确保集群配置了SSH免密登录。(详见5) (a)在/home/atguigu目录下创建bin目录(/home/atguigu/bin),并在bin目录下xsync创建文件,文件内容如下: 在该文件中编写如下代码 (b)修改脚本 xsync 具有执行权限 [atguig 阅读全文
posted @ 2019-04-03 09:33 穆梓先生 阅读(264) 评论(0) 推荐(0) 编辑
摘要: SparkStreaming简介 SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。例如:map,reduce,join,window 。最终,处理后的数据可以存放在文件系统,数据库... 阅读全文
posted @ 2019-04-02 09:30 穆梓先生 阅读(256) 评论(0) 推荐(0) 编辑
摘要: Shark Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hive普遍快2倍以上,当数据全部load在内存的话,将快10倍以上,因此Shark可以作为交互式查询应用服务来使用。除了基于Spark的特性外,Shark是完全兼容Hive的语法,表结构以及UDF函数等,已有的HiveSql可以直接进行迁移至Shark上... 阅读全文
posted @ 2019-04-02 09:29 穆梓先生 阅读(221) 评论(0) 推荐(0) 编辑
摘要: PV是网站分析的一个术语,用以衡量网站用户访问的网页的数量。对于广告主,PV值可预期它可以带来多少广告收入。一般来说,PV与来访者的数量成正比,但是PV并不直接决定页面的真实来访者数量,如同一个来访者通过不断的刷新页面,也可以制造出非常高的PV。 1、什么是PV值 PV(page view)即页面浏 阅读全文
posted @ 2019-04-02 09:28 穆梓先生 阅读(3070) 评论(0) 推荐(0) 编辑
摘要: 广播变量和累加器 广播变量 广播变量理解图 广播变量使用 val conf = new SparkConf() conf.setMaster("local").setAppName("brocast") val sc = new SparkContext(conf) val ... 阅读全文
posted @ 2019-04-02 09:27 穆梓先生 阅读(199) 评论(0) 推荐(0) 编辑
摘要: Standalone模式两种提交任务方式 Standalone-client提交任务方式 提交命令 ./spark-submit --master spark://node1:7077 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 1000或者 ./spark-su... 阅读全文
posted @ 2019-04-02 09:26 穆梓先生 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 补充算子 transformations mapPartitionWithIndex 类似于mapPartitions,除此之外还会携带分区的索引值。 repartition 增加或减少分区。会产生shuffle。(多个分区分到一个分区不会产生shuffle) coalesce coalesce常用来减少分区,第二个参数是减少分区的过程中是否产生shuffle。 true为产生shuffle,fa... 阅读全文
posted @ 2019-04-02 09:26 穆梓先生 阅读(185) 评论(0) 推荐(0) 编辑
摘要: Spark初始 什么是Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要... 阅读全文
posted @ 2019-04-02 09:25 穆梓先生 阅读(286) 评论(0) 推荐(0) 编辑
$(function(){ $('#returnTop').click(function () { $('html,body').animate({ scrollTop: '0px' }, 800); returnfalse; }); });