04 2020 档案
摘要:示例: String [] names ={"James", "Larry", "Tom", "Lacy"}; for(String name: names) { System.out.println(name); }
阅读全文
摘要:访问控制修饰符 Java中,可以使用访问控制符来保护对类、变量、方法和构造方法的访问。Java 支持 4 种不同的访问权限。 default (即默认,什么也不写): 在同一包内可见,不使用任何修饰符。使用对象:类、接口、变量、方法。 private : 在同一类内可见。使用对象:变量、方法。 注意
阅读全文
摘要:Java语言支持的变量类型有: 类变量:独立于方法之外的变量,用 static 修饰。 实例变量:独立于方法之外的变量,不过没有 static 修饰。 局部变量:类的方法中的变量。 局部变量 局部变量声明在方法、构造方法或者语句块中; 局部变量在方法、构造方法、或者语句块被执行的时候创建,当它们执行
阅读全文
摘要:变量就是申请内存来存储值。也就是说,当创建变量的时候,需要在内存中申请空间。 内存管理系统根据变量的类型为变量分配存储空间,分配的空间只能用来储存该类型数据。 Java 的两大数据类型: 内置数据类型 引用数据类型 内置数据类型 Java语言提供了八种基本类型。六种数字类型(四个整数型,两个浮点型)
阅读全文
摘要:类:类是一个模板,它描述一类对象的行为和状态。 对象:对象是类的一个实例 一个类可以包含以下类型变量: 局部变量:在方法、构造方法或者语句块中定义的变量被称为局部变量。变量声明和初始化都是在方法中,方法结束后,变量就会自动销毁。 成员变量:成员变量是定义在类中,方法体之外的变量。这种变量在创建对象的
阅读全文
摘要:包名 所有字母都小写:xxxyyyzzz 类名和接口名 所有单词首字母大写:XxxYyyZzz 变量名和函数名 除第一个单词外所有单词首字母大写:xxxYyyZzz 常量名 所有字母都大写,单词之间用下划线分隔:XXX_YYY_ZZZ
阅读全文
摘要:jvm(java virtual matchine) JVM即为Java虚拟机,它是Java跨平台实现的最核心的部分,所有的Java程序首先被编译成java.class字节码文件,这种文件可以在JVM上执行,JVM在执行字节码文件时,把其翻译成具体平台上的机器指令执行。(一次编译,到处运行) cla
阅读全文
摘要:1.编写源文件 HelloWorld.java class HelloWorld{ public static void main(String[] args){ System.out.println("hello world"); } } 2.编译源文件 javac HelloWorld.java
阅读全文
摘要:\?:查看命令帮助 cmd:进入命令行 dir:查看当前目录文件 cd:切换目录 \:windows路径分割符 cls:clear screen,清屏 mkdir:创建目录 exit:退出 echo:回音 >:重定向,覆盖操作 >>:重定向,追加操作 type:输出文件内容 rmdir:删除文件 t
阅读全文
摘要:package com.bjsxt.scala import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark
阅读全文
摘要:函数基本用法 1.方法定义用def,函数的参数 要写类型,不写类型不可以。2.函数的返回值类型可以不写,会自动推断3.scala会将函数体中最后一行计算的结果当做返回值返回4.可以写“return”,写了return要显式的声明方法体的返回类型。5.定义方法时,如果不写“=”,那么无论方法体中最后一
阅读全文
摘要:1.scala中定义在object中的变量,方法都是静态的,object叫对象,相当于java中的单例对象。object不可以传参,Trait也不可传参。2.scala 中一行代码后可以写“;”也可以不写,会有分号推断机制。多行代码写在一行要用分号隔开。3.定义变量用var,定义常量用val , a
阅读全文
摘要:scala简介 Scala 是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。 Scala 运行在Java虚拟机上,并兼容现有的Java程序。 Scala 源代码被编译成Java字节码,所以它可以运行于JVM之上,并可以调用现有的Java类库
阅读全文
摘要:scala代码: package offline import org.apache.spark.ml.feature.{HashingTF, IDF} import org.apache.spark.ml.linalg.Vectors import org.apache.spark.sql.Spa
阅读全文
摘要:spark实现UserCF package cf import breeze.numerics.{pow, sqrt} import org.apache.spark.sql.SparkSession object UserCF { def main(args: Array[String]): Un
阅读全文
摘要:计算切好词的两个句子的LCS(最长公共子序列) # -*- coding: utf-8 -*- from pyspark.sql.functions import udf from pyspark.sql.types import IntegerType from pyspark.sql impor
阅读全文
摘要:取Hive中的数据写入Hbase中 package hbase import org.apache.hadoop.hbase.{HBaseConfiguration, TableName} import org.apache.hadoop.hbase.client.{HTable, Put} imp
阅读全文
摘要:Spark Streaming简介 Spark Streaming架构 Spark Streaming作业提交 Spark Streaming窗口操作 Spark Streaming全局统计量 Spark Streaming容错性分析 WAL工作原理 Spark Streaming消费Kafka D
阅读全文
摘要:简介 • Kafka是Linkedin于2010年12月份开源的消息系统 • 一种分布式的、基于发布/订阅的消息系统 • 特点: – 消息持久化:通过O(1)的磁盘数据结构提供数据的持久化 – 高吞吐量:每秒百万级的消息读写 – 分布式:扩展能力强 – 多客户端支持:java、php、python、
阅读全文
摘要:Kafka基本命令 #启动server ./bin/kafka-server-start.sh config/server.properties #创建topic(主题)test ./bin/kafka-topics.sh --create --zookeeper localhost:2181 --
阅读全文
摘要:启动命令 ./bin/spark-shell ./bin/spark-shell --master yarn-client //在yarn上启动 操作实例1 val df=sql("select * from default.orders") df.select("user_id").distinc
阅读全文
摘要:Executor的内存分为3块 : • 第一块:让task执行代码时,默认占executor总内存的20% • 第二块:task通过shuffle过程拉取上一个stage的task的输出后,进行聚合等操作时使用 ,默认也是占20% • 第三块:让RDD持久化时使用,默认占executor总内存的60
阅读全文
摘要:Hadoop中: – 一个MapReduce程序就是一个job,而一个job里面可以有一个或多个Task,Task又可以区分为Map Task和Reduce Task – MapReduce中的每个Task分别在自己的进程中运行,当该Task运行完时,进程也就结束 Hadoop中的MapReduce
阅读全文
摘要:Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境.提供了 java,scala, python,R 等语言的调用接口. Hadoop 和 Spark 的关系 Google 在 2003 年和 2004 年先后发表了 Google 文件系统 GFS 和 MapReduce 编
阅读全文
摘要:word count select word,count(*) from( select explode(split(sentence,' ')) as word from article )t group by word; split:数据切分为数组 explode:行转列 统计每个用户购买过多少
阅读全文
摘要:hadoop中map和reduce都是进程(spark中是线程),map和reduce可以部署在同一个机器上也可以部署在不同机器上。 输入数据是hdfs的block,通过一个map函数把它转化为一个个键值对,并同时将这些键值对写入内存缓存区(100M),内存缓存区的数据每满80M就会将这80M数据写
阅读全文