会走的树

2019年8月30日

摘要：输入格式化输出输出到文件读取文件 scala import scala.io.Source val inPutFile = Source.fromFile("D:\\大数据技\\Spark_scala\\scala\\data\\readData.txt") val textIter = in 阅读全文

posted @ 2019-08-30 06:15 会走的树阅读(118) 评论(0) 推荐(0)

集合

摘要：数组定长数组变长数组符号使用方法使用多维数组方法数组合并 map reduce length updated filter sum max min distinct reverse count sort zip mkString toXxx flatten flatMap grou 阅读全文

posted @ 2019-08-30 06:13 会走的树阅读(126) 评论(0) 推荐(0)

共享变量

摘要：默认情况下，如果在一个算子函数中使用到了某个外部的变量，那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量，那么这种方式是做不到的。 Spark为此提供了两种共享变量，一种是Broadcast Variable（广播变量），另一种是阅读全文

posted @ 2019-08-30 06:12 会走的树阅读(546) 评论(0) 推荐(0)

数据类型

摘要： 1、都是基于JVM虚拟机运行的 Scala编译之后的文件也是.class，都要转换为字节码，然后运行在JVM虚拟机之上。 2、Scala和Java相互调用在Scala中可以直接调用Java的代码，同时在Java中也可以直接调用Scala的代码数据类型阅读全文

posted @ 2019-08-30 06:06 会走的树阅读(165) 评论(0) 推荐(0)

2019年8月27日

Sqoop使用

摘要：说明 MySQL – HDFS 导入整个数据表 (默认使用MySQL的3306端口) 导入查询结果 MySQL – Hive 实现原理：https://www.cnblogs.com/xuyou551/p/7998846.html 导入整张数据表到hive 导入数据表的指定字段到hive M 阅读全文

posted @ 2019-08-27 18:53 会走的树阅读(157) 评论(0) 推荐(0)

kafka使用

摘要：创建kafka topic 注： partitions指定topic分区数，replication factor指定topic每个分区的副本数 partitions分区数: partitions ：分区数，控制topic将分片成多少个log。可以显示指定，如果不指定则会使用broker(server 阅读全文

posted @ 2019-08-27 18:53 会走的树阅读(164) 评论(0) 推荐(0)

Hive使用

摘要：数据库操作内部表外部表分区表创建分区表导入数据到分区表中修改分区路径删除分区分区表的其他操作：https://www.cnblogs.com/one way/p/7550795.html 创建相同表结构的表查看表信息表操作视图查询导入数据执行脚本 shell使用Hiv 阅读全文

posted @ 2019-08-27 18:52 会走的树阅读(276) 评论(0) 推荐(0)

Hbase使用

摘要： Hbase常用命令：https://www.cnblogs.com/shadowalker/p/7350484.html 阅读全文

posted @ 2019-08-27 18:49 会走的树阅读(83) 评论(0) 推荐(0)

Flume使用

摘要： flume架构介绍 flume之所以这么神奇，是源于它自身的一个设计，这个设计就是agent，agent本身是一个 "Java" 进程，运行在日志收集节点—所谓日志收集节点就是服务器节点。 agent里面包含3个核心的组件：source— channel—– sink,类似生产者、仓库、消费者的阅读全文

posted @ 2019-08-27 18:48 会走的树阅读(162) 评论(0) 推荐(0)

分布式集群搭建大全

摘要：系统准备相关软件包下载：链接：https://pan.baidu.com/s/1EOLUphwZgzwSX01HsDJM0g 提取码：1tsf 说明特别说明: 教程用的主机名分别为master,slave1,slave2 所以发现有出现主机名为 ” spark1”的主机名等同于 “maste 阅读全文

posted @ 2019-08-27 12:36 会走的树阅读(454) 评论(0) 推荐(0)

Python正则表达式

摘要：正则表达式基本符号使用特殊转义字母 | 特殊表达式序列 | 说明 | | | | | \A | 只在字符串开头进行匹配。 | | \b | 匹配位于开头或者结尾的空字符串 | | \B | 匹配不位于开头或者结尾的空字符串 | | \d | 匹配任意十进制数，相当于 [0 9] | | \D | 阅读全文

posted @ 2019-08-27 11:15 会走的树阅读(214) 评论(0) 推荐(0)

xpath的使用

摘要：安装lxml库 requests和xpath的使用 xpath选择符号标签转换阅读全文

posted @ 2019-08-27 11:13 会走的树阅读(443) 评论(0) 推荐(0)

BeautifulSoup的使用

摘要：安装bs4库 request和BeautifulSoup组合使用 BeautifulSoup语法解析器获取并操作单个标签获取标签获取标签文本信息获取父标签获取标签属性信息其他 ~~~python 将第一个找到的a标签下数内容和子节点打包成list lis = s.a.contents 阅读全文

posted @ 2019-08-27 11:12 会走的树阅读(238) 评论(0) 推荐(0)

requests的使用

摘要：安装request库简单案例请求方式获取响应信息格式化谷歌浏览器复制的请求头信息 cookies的解析和上面的思路类似。传递请求参数阅读全文

posted @ 2019-08-27 11:11 会走的树阅读(357) 评论(0) 推荐(0)

2019年8月25日

MongoDB

摘要：数据表的导出和导入: https://blog.csdn.net/wangmx1993328/article/details/82663617 阅读全文

posted @ 2019-08-25 22:21 会走的树阅读(103) 评论(0) 推荐(0)

yarn的两种提交方式原理

摘要： Yarn cluster 和 Yarn client比较 Yarn client：用于测试，Driver在本地可以看到所有的log方便调试。但是和yarn通信流量过大。 Yarn cluster：用于生产环境，查看log不方便。阅读全文

posted @ 2019-08-25 22:06 会走的树阅读(257) 评论(0) 推荐(0)

Stage划分原理

摘要：将窄依赖关系的尽量划分到一个Stage里面，来实现流水线计算提高效率。阅读全文

posted @ 2019-08-25 22:05 会走的树阅读(691) 评论(0) 推荐(0)

Spark转换和动作算子

摘要： Transformation算子只会记录RDD的转换过程但不会真正执行，只有遇到Action算子才会从头依次执行前面的算子。阅读全文

posted @ 2019-08-25 22:03 会走的树阅读(795) 评论(0) 推荐(0)

Spark运行原理

摘要：阅读全文

posted @ 2019-08-25 22:02 会走的树阅读(122) 评论(0) 推荐(0)

Scrapy数据持久化

摘要： piplines的使用取消setings.py文件内管道的注释，开启数据管道，使得爬取到的数据可以传送过来。初始代码解释利用重写spider的方法实现功能多个管道处理实现数据流水线处理创建SpiderdmPipeline_1类注册SpiderdmPipeline_1类并设置与资源调度阅读全文

posted @ 2019-08-25 21:50 会走的树阅读(188) 评论(0) 推荐(0)

公告