08 2019 档案
摘要:Lazy特性 当val被声明为lazy时,它的初始化将被推迟,直到我们首次对它使用时才初始化。 1. Lazy编译时不会初始化变量,所有异常也只有使用时才能发现,如:文件不存在的异常。 2. 节省不必要的资源加载,适用使用可能性不大的资源定义。
阅读全文
摘要:scala def 方法 def 方法名(参数): 返回类型 = {方法体} 方法创建方式 默认参数 可变长参数
阅读全文
摘要:循环 while 略 for break scala import scala.util.control.Breaks._ breakable { for (i
阅读全文
摘要:输入 格式化输出 输出到文件 读取文件 scala import scala.io.Source val inPutFile = Source.fromFile("D:\\大数据技\\Spark_scala\\scala\\data\\readData.txt") val textIter = in
阅读全文
摘要: 数组 定长数组 变长数组 符号使用 方法使用 多维数组 方法 数组合并 map reduce length updated filter sum max min distinct reverse count sort zip mkString toXxx flatten flatMap grou
阅读全文
摘要:默认情况下,如果在一个算子函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量,那么这种方式是做不到的。 Spark为此提供了两种共享变量,一种是Broadcast Variable(广播变量),另一种是
阅读全文
摘要:1、都是基于JVM虚拟机运行的 Scala编译之后的文件也是.class,都要转换为字节码,然后运行在JVM虚拟机之上。 2、Scala和Java相互调用 在Scala中可以直接调用Java的代码,同时在Java中也可以直接调用Scala的代码 数据类型
阅读全文
摘要:创建kafka topic 注: partitions指定topic分区数,replication factor指定topic每个分区的副本数 partitions分区数: partitions :分区数,控制topic将分片成多少个log。可以显示指定,如果不指定则会使用broker(server
阅读全文
摘要:说明 MySQL – HDFS 导入整个数据表 (默认使用MySQL的3306端口) 导入查询结果 MySQL – Hive 实现原理:https://www.cnblogs.com/xuyou551/p/7998846.html 导入 整张数据表 到hive 导入数据表的 指定字段 到hive M
阅读全文
摘要: 数据库操作 内部表 外部表 分区表 创建分区表 导入数据到分区表中 修改分区路径 删除分区 分区表的其他操作:https://www.cnblogs.com/one way/p/7550795.html 创建相同表结构的表 查看表信息 表操作 视图 查询 导入数据 执行脚本 shell使用Hiv
阅读全文
摘要:Hbase常用命令:https://www.cnblogs.com/shadowalker/p/7350484.html
阅读全文
摘要: flume架构介绍 flume之所以这么神奇,是源于它自身的一个设计,这个设计就是agent,agent本身是一个 "Java" 进程,运行在日志收集节点—所谓日志收集节点就是服务器节点。 agent里面包含3个核心的组件:source— channel—– sink,类似生产者、仓库、消费者的
阅读全文
摘要:系统准备 相关软件包下载: 链接:https://pan.baidu.com/s/1EOLUphwZgzwSX01HsDJM0g 提取码:1tsf 说明 特别说明: 教程用的主机名分别为master,slave1,slave2 所以发现有出现主机名为 ” spark1”的主机名 等同于 “maste
阅读全文
摘要:正则表达式基本符号使用 特殊转义字母 | 特殊表达式序列 | 说明 | | | | | \A | 只在字符串开头进行匹配。 | | \b | 匹配位于开头或者结尾的空字符串 | | \B | 匹配不位于开头或者结尾的空字符串 | | \d | 匹配任意十进制数,相当于 [0 9] | | \D |
阅读全文
摘要:安装lxml库 requests和xpath的使用 xpath选择符号 标签转换
阅读全文
摘要:安装bs4库 request和BeautifulSoup组合使用 BeautifulSoup语法 解析器 获取并操作单个标签 获取标签 获取标签文本信息 获取父标签 获取标签属性信息 其他 ~~~python 将第一个找到的a标签下数内容和子节点打包成list lis = s.a.contents
阅读全文
摘要: 安装request库 简单案例 请求方式 获取响应信息 格式化谷歌浏览器复制的请求头信息 cookies的解析和上面的思路类似。 传递请求参数
阅读全文
摘要:数据表的导出和导入: https://blog.csdn.net/wangmx1993328/article/details/82663617
阅读全文
摘要: Yarn cluster 和 Yarn client比较 Yarn client: 用于测试,Driver在本地可以看到所有的log方便调试。但是和yarn通信流量过大。 Yarn cluster:用于生产环境,查看log不方便。
阅读全文
摘要:将窄依赖关系的尽量划分到一个Stage里面,来实现流水线计算提高效率。
阅读全文
摘要:Transformation算子只会记录RDD的转换过程但不会真正执行,只有遇到Action算子才会从头依次执行前面的算子。
阅读全文
摘要: piplines的使用 取消setings.py文件内管道的注释,开启数据管道,使得爬取到的数据可以传送过来。 初始代码解释 利用重写spider的方法实现功能 多个管道处理实现数据流水线处理 创建SpiderdmPipeline_1类 注册SpiderdmPipeline_1类并设置与资源调度
阅读全文
摘要: 设置控制台打印的Log等级 在在爬虫主文件写爬取代码,使用scrapy.Request请求。 运行爬虫结果 使用scrapy.FormRequest请求。 运行结果相同。 两种请求方式的应用场景 scrapy.Request:主要应用GET网页数据时应用。 scrapy.FormRequest:
阅读全文
摘要: 安装说明 scrapy安装需要安装一些第三方依赖库,依赖库的安装与需要和Python版本,Windows位数,所需的电脑插件有关。 参考信息:Python3.6,Windows10 64位 相关软件下载: 链接:https://pan.baidu.com/s/1Vzx8GGeojmUzMSZEx
阅读全文
摘要:https://www.cnblogs.com/chengxs/p/9090819.html
阅读全文
摘要:https://blog.csdn.net/weixin_41704733/article/details/79871950
阅读全文
摘要:https://www.cnblogs.com/Knowledge has no limit/p/7240585.html
阅读全文
摘要:https://blog.csdn.net/hhj724/article/details/79094138
阅读全文
摘要:https://blog.csdn.net/nel0511/article/details/13091163
阅读全文
摘要:系统:Centos6.5 创建需要的文件夹 安装jdk 配置环境变量 Hadoop2.7.3伪分布式配置 yarn配置
阅读全文
摘要: IDEA创建WordCount Maven项目 创建WordCount源文件 words.text 内容 WordCount源码 说明参考: https://www.cnblogs.com/studyNotesSL/p/11367751.html pom.xml源码 选择 Enables Aut
阅读全文
摘要:https://blog.csdn.net/qq_37193537/article/details/81335165
阅读全文
解决selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to be in P
摘要:https://blog.csdn.net/qq_26200629/article/details/86141131
阅读全文
摘要:https://www.cnblogs.com/YangtzeYu/p/7858182.html
阅读全文
摘要:http://dblab.xmu.edu.cn/blog/1096 2/ 安装kafka 修改zookeeper.properties 修改server.properties 测试kafka
阅读全文
摘要:"安装MySQL" 安装HIve 配置环境变量 使用hive默认的元数据 使用MySQL作为元数据 Linux远程连接MySQL (5.1.41版本) 启动hive 参考: "大数据技术原理与应用 第十四章 基于Hadoop的数据仓库Hive 学习指南" "关于hive异常:Unable to in
阅读全文
摘要:本机安装MySQL (非Linux core版本) MySQL默认连接端口:3306 卸载已经安装 使用yum安装MySQL 启动mysql服务 解决初始密码问题 sqoop导入MySQL中文乱码的问题 Linux core连接MySQL 添加MySQL的主机IP映射 安装MySQL的客户端
阅读全文
摘要:准备代码 使用SQL语句查询 查看数据 加载数据到数组 获取指定字段的统计信息 获取n行数据 条件查询 去除重复数据 同字段数据组合(unionAll) 同字段数据行组合(join)
阅读全文
摘要:头代码 RDD创建 保存RDD数据 RDD数据类型转换 RDD逻辑操作方法 去重 分组 累积运算(reduce) 筛选RDD元素 拆分RDD的Map 统计个数 选取元素 排序 RDD合并 RDD分区 分区运算
阅读全文
摘要:[TOC] Spark Dataframe创建 读取json文件 jsData.js 数据 Spark Dataframe创建 Rdd转Dataframe 数据 Spark Dataframe创建 加载到SparkSession Spark DataFrame数据读取和保存 Spark Datafr
阅读全文
摘要:[TOC] 监听文件 定时文件监听 监听文件 结构化数据流 数据 监听端口数据 统计包括历史数据 监听端口结构化数据 监听RDD队列数据 import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apac
阅读全文