摘要: 输入 格式化输出 输出到文件 读取文件 scala import scala.io.Source val inPutFile = Source.fromFile("D:\\大数据技\\Spark_scala\\scala\\data\\readData.txt") val textIter = in 阅读全文
posted @ 2019-08-30 06:15 会走的树 阅读(111) 评论(0) 推荐(0) 编辑
摘要:  数组 定长数组 变长数组 符号使用 方法使用 多维数组 方法 数组合并 map reduce length updated filter sum max min distinct reverse count sort zip mkString toXxx flatten flatMap grou 阅读全文
posted @ 2019-08-30 06:13 会走的树 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 默认情况下,如果在一个算子函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量,那么这种方式是做不到的。 Spark为此提供了两种共享变量,一种是Broadcast Variable(广播变量),另一种是 阅读全文
posted @ 2019-08-30 06:12 会走的树 阅读(522) 评论(0) 推荐(0) 编辑
摘要: 1、都是基于JVM虚拟机运行的 Scala编译之后的文件也是.class,都要转换为字节码,然后运行在JVM虚拟机之上。 2、Scala和Java相互调用 在Scala中可以直接调用Java的代码,同时在Java中也可以直接调用Scala的代码 数据类型 阅读全文
posted @ 2019-08-30 06:06 会走的树 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 创建kafka topic 注: partitions指定topic分区数,replication factor指定topic每个分区的副本数 partitions分区数: partitions :分区数,控制topic将分片成多少个log。可以显示指定,如果不指定则会使用broker(server 阅读全文
posted @ 2019-08-27 18:53 会走的树 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 说明 MySQL – HDFS 导入整个数据表 (默认使用MySQL的3306端口) 导入查询结果 MySQL – Hive 实现原理:https://www.cnblogs.com/xuyou551/p/7998846.html 导入 整张数据表 到hive 导入数据表的 指定字段 到hive M 阅读全文
posted @ 2019-08-27 18:53 会走的树 阅读(139) 评论(0) 推荐(0) 编辑
摘要:  数据库操作 内部表 外部表 分区表 创建分区表 导入数据到分区表中 修改分区路径 删除分区 分区表的其他操作:https://www.cnblogs.com/one way/p/7550795.html 创建相同表结构的表 查看表信息 表操作 视图 查询 导入数据 执行脚本 shell使用Hiv 阅读全文
posted @ 2019-08-27 18:52 会走的树 阅读(245) 评论(0) 推荐(0) 编辑
摘要: Hbase常用命令:https://www.cnblogs.com/shadowalker/p/7350484.html 阅读全文
posted @ 2019-08-27 18:49 会走的树 阅读(73) 评论(0) 推荐(0) 编辑
摘要:  flume架构介绍 flume之所以这么神奇,是源于它自身的一个设计,这个设计就是agent,agent本身是一个 "Java" 进程,运行在日志收集节点—所谓日志收集节点就是服务器节点。 agent里面包含3个核心的组件:source— channel—– sink,类似生产者、仓库、消费者的 阅读全文
posted @ 2019-08-27 18:48 会走的树 阅读(151) 评论(0) 推荐(0) 编辑
摘要: 系统准备 相关软件包下载: 链接:https://pan.baidu.com/s/1EOLUphwZgzwSX01HsDJM0g 提取码:1tsf 说明 特别说明: 教程用的主机名分别为master,slave1,slave2 所以发现有出现主机名为 ” spark1”的主机名 等同于 “maste 阅读全文
posted @ 2019-08-27 12:36 会走的树 阅读(409) 评论(0) 推荐(0) 编辑
摘要: 正则表达式基本符号使用 特殊转义字母 | 特殊表达式序列 | 说明 | | | | | \A | 只在字符串开头进行匹配。 | | \b | 匹配位于开头或者结尾的空字符串 | | \B | 匹配不位于开头或者结尾的空字符串 | | \d | 匹配任意十进制数,相当于 [0 9] | | \D | 阅读全文
posted @ 2019-08-27 11:15 会走的树 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 安装lxml库 requests和xpath的使用 xpath选择符号 标签转换 阅读全文
posted @ 2019-08-27 11:13 会走的树 阅读(400) 评论(0) 推荐(0) 编辑
摘要: 安装bs4库 request和BeautifulSoup组合使用 BeautifulSoup语法 解析器 获取并操作单个标签 获取标签 获取标签文本信息 获取父标签 获取标签属性信息 其他 ~~~python 将第一个找到的a标签下数内容和子节点打包成list lis = s.a.contents 阅读全文
posted @ 2019-08-27 11:12 会走的树 阅读(210) 评论(0) 推荐(0) 编辑
摘要:  安装request库 简单案例 请求方式 获取响应信息 格式化谷歌浏览器复制的请求头信息 cookies的解析和上面的思路类似。 传递请求参数 阅读全文
posted @ 2019-08-27 11:11 会走的树 阅读(339) 评论(0) 推荐(0) 编辑
摘要: 数据表的导出和导入: https://blog.csdn.net/wangmx1993328/article/details/82663617 阅读全文
posted @ 2019-08-25 22:21 会走的树 阅读(93) 评论(0) 推荐(0) 编辑
摘要:  Yarn cluster 和 Yarn client比较 Yarn client: 用于测试,Driver在本地可以看到所有的log方便调试。但是和yarn通信流量过大。 Yarn cluster:用于生产环境,查看log不方便。 阅读全文
posted @ 2019-08-25 22:06 会走的树 阅读(243) 评论(0) 推荐(0) 编辑
摘要: 将窄依赖关系的尽量划分到一个Stage里面,来实现流水线计算提高效率。 阅读全文
posted @ 2019-08-25 22:05 会走的树 阅读(676) 评论(0) 推荐(0) 编辑
摘要: Transformation算子只会记录RDD的转换过程但不会真正执行,只有遇到Action算子才会从头依次执行前面的算子。 阅读全文
posted @ 2019-08-25 22:03 会走的树 阅读(762) 评论(0) 推荐(0) 编辑
摘要:  阅读全文
posted @ 2019-08-25 22:02 会走的树 阅读(114) 评论(0) 推荐(0) 编辑
摘要:  piplines的使用 取消setings.py文件内管道的注释,开启数据管道,使得爬取到的数据可以传送过来。 初始代码解释 利用重写spider的方法实现功能 多个管道处理实现数据流水线处理 创建SpiderdmPipeline_1类 注册SpiderdmPipeline_1类并设置与资源调度 阅读全文
posted @ 2019-08-25 21:50 会走的树 阅读(175) 评论(0) 推荐(0) 编辑