2020 年 4月随笔档案 - xd_xumaomao

摘要：示例： String [] names ={"James", "Larry", "Tom", "Lacy"}; for(String name: names) { System.out.println(name); } 阅读全文

posted @ 2020-04-29 21:48 xd_xumaomao 阅读(78) 评论(0) 推荐(0) 编辑

摘要：访问控制修饰符 Java中，可以使用访问控制符来保护对类、变量、方法和构造方法的访问。Java 支持 4 种不同的访问权限。 default (即默认，什么也不写）: 在同一包内可见，不使用任何修饰符。使用对象：类、接口、变量、方法。 private : 在同一类内可见。使用对象：变量、方法。注意阅读全文

posted @ 2020-04-29 17:30 xd_xumaomao 阅读(131) 评论(0) 推荐(0) 编辑

Java变量类型

摘要：Java语言支持的变量类型有：类变量：独立于方法之外的变量，用 static 修饰。实例变量：独立于方法之外的变量，不过没有 static 修饰。局部变量：类的方法中的变量。局部变量局部变量声明在方法、构造方法或者语句块中；局部变量在方法、构造方法、或者语句块被执行的时候创建，当它们执行阅读全文

posted @ 2020-04-29 16:30 xd_xumaomao 阅读(145) 评论(0) 推荐(0) 编辑

Java基本数据类型

摘要：变量就是申请内存来存储值。也就是说，当创建变量的时候，需要在内存中申请空间。内存管理系统根据变量的类型为变量分配存储空间，分配的空间只能用来储存该类型数据。 Java 的两大数据类型: 内置数据类型引用数据类型内置数据类型 Java语言提供了八种基本类型。六种数字类型（四个整数型，两个浮点型）阅读全文

posted @ 2020-04-29 15:58 xd_xumaomao 阅读(181) 评论(0) 推荐(0) 编辑

java类和对象

摘要：类：类是一个模板，它描述一类对象的行为和状态。对象：对象是类的一个实例一个类可以包含以下类型变量：局部变量：在方法、构造方法或者语句块中定义的变量被称为局部变量。变量声明和初始化都是在方法中，方法结束后，变量就会自动销毁。成员变量：成员变量是定义在类中，方法体之外的变量。这种变量在创建对象的阅读全文

posted @ 2020-04-29 15:40 xd_xumaomao 阅读(131) 评论(0) 推荐(0) 编辑

java命名规范

摘要：包名所有字母都小写：xxxyyyzzz 类名和接口名所有单词首字母大写：XxxYyyZzz 变量名和函数名除第一个单词外所有单词首字母大写：xxxYyyZzz 常量名所有字母都大写，单词之间用下划线分隔：XXX_YYY_ZZZ 阅读全文

posted @ 2020-04-28 16:08 xd_xumaomao 阅读(167) 评论(0) 推荐(0) 编辑

jvm、jre、jdk

摘要：jvm（java virtual matchine） JVM即为Java虚拟机，它是Java跨平台实现的最核心的部分，所有的Java程序首先被编译成java.class字节码文件，这种文件可以在JVM上执行，JVM在执行字节码文件时，把其翻译成具体平台上的机器指令执行。（一次编译，到处运行） cla 阅读全文

posted @ 2020-04-28 15:29 xd_xumaomao 阅读(141) 评论(0) 推荐(0) 编辑

java编译运行

摘要：1.编写源文件 HelloWorld.java class HelloWorld{ public static void main(String[] args){ System.out.println("hello world"); } } 2.编译源文件 javac HelloWorld.java 阅读全文

posted @ 2020-04-28 11:41 xd_xumaomao 阅读(96) 评论(0) 推荐(0) 编辑

dos命令

摘要：\?：查看命令帮助 cmd：进入命令行 dir：查看当前目录文件 cd：切换目录 \：windows路径分割符 cls：clear screen，清屏 mkdir：创建目录 exit：退出 echo：回音 >：重定向，覆盖操作 >>：重定向，追加操作 type：输出文件内容 rmdir：删除文件 t 阅读全文

posted @ 2020-04-28 11:02 xd_xumaomao 阅读(111) 评论(0) 推荐(0) 编辑

spark实现word count

摘要：package com.bjsxt.scala import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark 阅读全文

posted @ 2020-04-25 15:11 xd_xumaomao 阅读(219) 评论(0) 推荐(0) 编辑

scala中的函数

摘要：函数基本用法 1.方法定义用def,函数的参数要写类型，不写类型不可以。2.函数的返回值类型可以不写，会自动推断3.scala会将函数体中最后一行计算的结果当做返回值返回4.可以写“return”,写了return要显式的声明方法体的返回类型。5.定义方法时，如果不写“=”，那么无论方法体中最后一阅读全文

posted @ 2020-04-24 17:45 xd_xumaomao 阅读(165) 评论(0) 推荐(0) 编辑

scala中的类和对象

摘要：1.scala中定义在object中的变量，方法都是静态的,object叫对象，相当于java中的单例对象。object不可以传参,Trait也不可传参。2.scala 中一行代码后可以写“;”也可以不写，会有分号推断机制。多行代码写在一行要用分号隔开。3.定义变量用var,定义常量用val ， a 阅读全文

posted @ 2020-04-24 17:17 xd_xumaomao 阅读(290) 评论(0) 推荐(0) 编辑

scala简介

摘要：scala简介 Scala 是一门多范式（multi-paradigm）的编程语言，设计初衷是要集成面向对象编程和函数式编程的各种特性。 Scala 运行在Java虚拟机上，并兼容现有的Java程序。 Scala 源代码被编译成Java字节码，所以它可以运行于JVM之上，并可以调用现有的Java类库阅读全文

posted @ 2020-04-24 10:31 xd_xumaomao 阅读(144) 评论(0) 推荐(0) 编辑

Spark实现tf-idf

摘要：scala代码： package offline import org.apache.spark.ml.feature.{HashingTF, IDF} import org.apache.spark.ml.linalg.Vectors import org.apache.spark.sql.Spa 阅读全文

posted @ 2020-04-23 20:37 xd_xumaomao 阅读(359) 评论(0) 推荐(0) 编辑

spark实现UserCF

摘要：spark实现UserCF package cf import breeze.numerics.{pow, sqrt} import org.apache.spark.sql.SparkSession object UserCF { def main(args: Array[String]): Un 阅读全文

posted @ 2020-04-22 23:20 xd_xumaomao 阅读(500) 评论(0) 推荐(0) 编辑

pyspark操作实例

摘要：计算切好词的两个句子的LCS（最长公共子序列） # -*- coding: utf-8 -*- from pyspark.sql.functions import udf from pyspark.sql.types import IntegerType from pyspark.sql impor 阅读全文

posted @ 2020-04-22 11:27 xd_xumaomao 阅读(820) 评论(0) 推荐(0) 编辑

Hbase实践

摘要：取Hive中的数据写入Hbase中 package hbase import org.apache.hadoop.hbase.{HBaseConfiguration, TableName} import org.apache.hadoop.hbase.client.{HTable, Put} imp 阅读全文

posted @ 2020-04-21 11:35 xd_xumaomao 阅读(156) 评论(0) 推荐(0) 编辑

Spark Streaming

摘要：Spark Streaming简介 Spark Streaming架构 Spark Streaming作业提交 Spark Streaming窗口操作 Spark Streaming全局统计量 Spark Streaming容错性分析 WAL工作原理 Spark Streaming消费Kafka D 阅读全文

posted @ 2020-04-18 09:56 xd_xumaomao 阅读(94) 评论(0) 推荐(0) 编辑

Kafka

摘要：简介 • Kafka是Linkedin于2010年12月份开源的消息系统 • 一种分布式的、基于发布/订阅的消息系统 • 特点： – 消息持久化：通过O(1)的磁盘数据结构提供数据的持久化 – 高吞吐量：每秒百万级的消息读写 – 分布式：扩展能力强 – 多客户端支持：java、php、python、阅读全文

posted @ 2020-04-15 21:09 xd_xumaomao 阅读(159) 评论(0) 推荐(0) 编辑

kafka基本命令和实践

摘要：Kafka基本命令 #启动server ./bin/kafka-server-start.sh config/server.properties #创建topic(主题)test ./bin/kafka-topics.sh --create --zookeeper localhost:2181 -- 阅读全文

posted @ 2020-04-15 20:54 xd_xumaomao 阅读(153) 评论(0) 推荐(0) 编辑

Flume实践

摘要：参考资料八斗大数据阅读全文

posted @ 2020-04-14 22:32 xd_xumaomao 阅读(84) 评论(0) 推荐(0) 编辑

spark操作实例

摘要：启动命令 ./bin/spark-shell ./bin/spark-shell --master yarn-client //在yarn上启动操作实例1 val df=sql("select * from default.orders") df.select("user_id").distinc 阅读全文

posted @ 2020-04-11 18:04 xd_xumaomao 阅读(311) 评论(0) 推荐(0) 编辑

Spark参数调优

摘要：Executor的内存分为3块： • 第一块：让task执行代码时，默认占executor总内存的20% • 第二块：task通过shuffle过程拉取上一个stage的task的输出后，进行聚合等操作时使用，默认也是占20% • 第三块：让RDD持久化时使用，默认占executor总内存的60 阅读全文

posted @ 2020-04-10 10:53 xd_xumaomao 阅读(225) 评论(0) 推荐(0) 编辑

Spark 和 Hadoop 作业之间的区别

摘要：Hadoop中： – 一个MapReduce程序就是一个job，而一个job里面可以有一个或多个Task，Task又可以区分为Map Task和Reduce Task – MapReduce中的每个Task分别在自己的进程中运行，当该Task运行完时，进程也就结束 Hadoop中的MapReduce 阅读全文

posted @ 2020-04-09 21:24 xd_xumaomao 阅读(235) 评论(0) 推荐(0) 编辑

spark简介

摘要：Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境.提供了 java,scala, python,R 等语言的调用接口. Hadoop 和 Spark 的关系 Google 在 2003 年和 2004 年先后发表了 Google 文件系统 GFS 和 MapReduce 编阅读全文

posted @ 2020-04-09 20:27 xd_xumaomao 阅读(218) 评论(0) 推荐(0) 编辑

hive操作实例

摘要：word count select word,count(*) from( select explode(split(sentence,' ')) as word from article )t group by word; split：数据切分为数组 explode：行转列统计每个用户购买过多少阅读全文

posted @ 2020-04-02 18:03 xd_xumaomao 阅读(246) 评论(0) 推荐(0) 编辑

MapReduce深入

摘要：hadoop中map和reduce都是进程（spark中是线程），map和reduce可以部署在同一个机器上也可以部署在不同机器上。输入数据是hdfs的block，通过一个map函数把它转化为一个个键值对，并同时将这些键值对写入内存缓存区（100M），内存缓存区的数据每满80M就会将这80M数据写阅读全文

posted @ 2020-04-01 00:04 xd_xumaomao 阅读(112) 评论(0) 推荐(0) 编辑

xd_xumaomao

04 2020 档案

公告

搜索

我的标签

随笔档案

阅读排行榜

推荐排行榜

最新评论