2019 年 8月随笔档案 - 会走的树

Lazy

摘要：Lazy特性当val被声明为lazy时，它的初始化将被推迟，直到我们首次对它使用时才初始化。 1. Lazy编译时不会初始化变量,所有异常也只有使用时才能发现，如：文件不存在的异常。 2. 节省不必要的资源加载，适用使用可能性不大的资源定义。阅读全文

posted @ 2019-08-30 06:18 会走的树阅读(279) 评论(0) 推荐(0) 编辑

def 方法

摘要：scala def 方法 def 方法名(参数): 返回类型 = {方法体} 方法创建方式默认参数可变长参数阅读全文

posted @ 2019-08-30 06:17 会走的树阅读(726) 评论(0) 推荐(0) 编辑

循环

摘要：循环 while 略 for break scala import scala.util.control.Breaks._ breakable { for (i 阅读全文

posted @ 2019-08-30 06:16 会走的树阅读(100) 评论(0) 推荐(0) 编辑

异常

摘要：异常阅读全文

posted @ 2019-08-30 06:16 会走的树阅读(71) 评论(0) 推荐(0) 编辑

输入输出

摘要：输入格式化输出输出到文件读取文件 scala import scala.io.Source val inPutFile = Source.fromFile("D:\\大数据技\\Spark_scala\\scala\\data\\readData.txt") val textIter = in 阅读全文

posted @ 2019-08-30 06:15 会走的树阅读(112) 评论(0) 推荐(0) 编辑

集合

摘要：数组定长数组变长数组符号使用方法使用多维数组方法数组合并 map reduce length updated filter sum max min distinct reverse count sort zip mkString toXxx flatten flatMap grou 阅读全文

posted @ 2019-08-30 06:13 会走的树阅读(118) 评论(0) 推荐(0) 编辑

共享变量

摘要：默认情况下，如果在一个算子函数中使用到了某个外部的变量，那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量，那么这种方式是做不到的。 Spark为此提供了两种共享变量，一种是Broadcast Variable（广播变量），另一种是阅读全文

posted @ 2019-08-30 06:12 会走的树阅读(535) 评论(0) 推荐(0) 编辑

数据类型

摘要：1、都是基于JVM虚拟机运行的 Scala编译之后的文件也是.class，都要转换为字节码，然后运行在JVM虚拟机之上。 2、Scala和Java相互调用在Scala中可以直接调用Java的代码，同时在Java中也可以直接调用Scala的代码数据类型阅读全文

posted @ 2019-08-30 06:06 会走的树阅读(160) 评论(0) 推荐(0) 编辑

kafka使用

摘要：创建kafka topic 注： partitions指定topic分区数，replication factor指定topic每个分区的副本数 partitions分区数: partitions ：分区数，控制topic将分片成多少个log。可以显示指定，如果不指定则会使用broker(server 阅读全文

posted @ 2019-08-27 18:53 会走的树阅读(158) 评论(0) 推荐(0) 编辑

Sqoop使用

摘要：说明 MySQL – HDFS 导入整个数据表 (默认使用MySQL的3306端口) 导入查询结果 MySQL – Hive 实现原理：https://www.cnblogs.com/xuyou551/p/7998846.html 导入整张数据表到hive 导入数据表的指定字段到hive M 阅读全文

posted @ 2019-08-27 18:53 会走的树阅读(140) 评论(0) 推荐(0) 编辑

Hive使用

摘要：数据库操作内部表外部表分区表创建分区表导入数据到分区表中修改分区路径删除分区分区表的其他操作：https://www.cnblogs.com/one way/p/7550795.html 创建相同表结构的表查看表信息表操作视图查询导入数据执行脚本 shell使用Hiv 阅读全文

posted @ 2019-08-27 18:52 会走的树阅读(260) 评论(0) 推荐(0) 编辑

Hbase使用

摘要：Hbase常用命令：https://www.cnblogs.com/shadowalker/p/7350484.html 阅读全文

posted @ 2019-08-27 18:49 会走的树阅读(75) 评论(0) 推荐(0) 编辑

Flume使用

摘要： flume架构介绍 flume之所以这么神奇，是源于它自身的一个设计，这个设计就是agent，agent本身是一个 "Java" 进程，运行在日志收集节点—所谓日志收集节点就是服务器节点。 agent里面包含3个核心的组件：source— channel—– sink,类似生产者、仓库、消费者的阅读全文

posted @ 2019-08-27 18:48 会走的树阅读(154) 评论(0) 推荐(0) 编辑

分布式集群搭建大全

摘要：系统准备相关软件包下载：链接：https://pan.baidu.com/s/1EOLUphwZgzwSX01HsDJM0g 提取码：1tsf 说明特别说明: 教程用的主机名分别为master,slave1,slave2 所以发现有出现主机名为 ” spark1”的主机名等同于 “maste 阅读全文

posted @ 2019-08-27 12:36 会走的树阅读(440) 评论(0) 推荐(0) 编辑

Python正则表达式

摘要：正则表达式基本符号使用特殊转义字母 | 特殊表达式序列 | 说明 | | | | | \A | 只在字符串开头进行匹配。 | | \b | 匹配位于开头或者结尾的空字符串 | | \B | 匹配不位于开头或者结尾的空字符串 | | \d | 匹配任意十进制数，相当于 [0 9] | | \D | 阅读全文

posted @ 2019-08-27 11:15 会走的树阅读(176) 评论(0) 推荐(0) 编辑

xpath的使用

摘要：安装lxml库 requests和xpath的使用 xpath选择符号标签转换阅读全文

posted @ 2019-08-27 11:13 会走的树阅读(408) 评论(0) 推荐(0) 编辑

BeautifulSoup的使用

摘要：安装bs4库 request和BeautifulSoup组合使用 BeautifulSoup语法解析器获取并操作单个标签获取标签获取标签文本信息获取父标签获取标签属性信息其他 ~~~python 将第一个找到的a标签下数内容和子节点打包成list lis = s.a.contents 阅读全文

posted @ 2019-08-27 11:12 会走的树阅读(216) 评论(0) 推荐(0) 编辑

requests的使用

摘要：安装request库简单案例请求方式获取响应信息格式化谷歌浏览器复制的请求头信息 cookies的解析和上面的思路类似。传递请求参数阅读全文

posted @ 2019-08-27 11:11 会走的树阅读(346) 评论(0) 推荐(0) 编辑

MongoDB

摘要：数据表的导出和导入: https://blog.csdn.net/wangmx1993328/article/details/82663617 阅读全文

posted @ 2019-08-25 22:21 会走的树阅读(94) 评论(0) 推荐(0) 编辑

yarn的两种提交方式原理

摘要： Yarn cluster 和 Yarn client比较 Yarn client：用于测试，Driver在本地可以看到所有的log方便调试。但是和yarn通信流量过大。 Yarn cluster：用于生产环境，查看log不方便。阅读全文

posted @ 2019-08-25 22:06 会走的树阅读(245) 评论(0) 推荐(0) 编辑

Stage划分原理

摘要：将窄依赖关系的尽量划分到一个Stage里面，来实现流水线计算提高效率。阅读全文

posted @ 2019-08-25 22:05 会走的树阅读(681) 评论(0) 推荐(0) 编辑

Spark转换和动作算子

摘要：Transformation算子只会记录RDD的转换过程但不会真正执行，只有遇到Action算子才会从头依次执行前面的算子。阅读全文

posted @ 2019-08-25 22:03 会走的树阅读(769) 评论(0) 推荐(0) 编辑

Spark运行原理

摘要：阅读全文

posted @ 2019-08-25 22:02 会走的树阅读(116) 评论(0) 推荐(0) 编辑

Scrapy数据持久化

摘要： piplines的使用取消setings.py文件内管道的注释，开启数据管道，使得爬取到的数据可以传送过来。初始代码解释利用重写spider的方法实现功能多个管道处理实现数据流水线处理创建SpiderdmPipeline_1类注册SpiderdmPipeline_1类并设置与资源调度阅读全文

posted @ 2019-08-25 21:50 会走的树阅读(178) 评论(0) 推荐(0) 编辑

ScrapySpider的使用

摘要：设置控制台打印的Log等级在在爬虫主文件写爬取代码，使用scrapy.Request请求。运行爬虫结果使用scrapy.FormRequest请求。运行结果相同。两种请求方式的应用场景 scrapy.Request：主要应用GET网页数据时应用。 scrapy.FormRequest：阅读全文

posted @ 2019-08-25 21:50 会走的树阅读(280) 评论(0) 推荐(0) 编辑

Scrapy安装和项目创建

摘要：安装说明 scrapy安装需要安装一些第三方依赖库，依赖库的安装与需要和Python版本，Windows位数，所需的电脑插件有关。参考信息：Python3.6，Windows10 64位相关软件下载：链接：https://pan.baidu.com/s/1Vzx8GGeojmUzMSZEx 阅读全文

posted @ 2019-08-25 21:49 会走的树阅读(366) 评论(0) 推荐(0) 编辑

安装window下的redis，redis可视化管理工具

摘要：https://www.cnblogs.com/chengxs/p/9090819.html 阅读全文

posted @ 2019-08-19 23:59 会走的树阅读(464) 评论(0) 推荐(0) 编辑

eclipse环境下如何配置tomcat，并且把项目部署到Tomcat服务器上

摘要：https://blog.csdn.net/weixin_41704733/article/details/79871950 阅读全文

posted @ 2019-08-19 23:30 会走的树阅读(169) 评论(0) 推荐(0) 编辑

使用IntelliJ IDEA配置Tomcat（入门）

摘要：https://www.cnblogs.com/Knowledge has no limit/p/7240585.html 阅读全文

posted @ 2019-08-19 23:29 会走的树阅读(133) 评论(0) 推荐(0) 编辑

关于hive异常：Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStor

摘要：https://blog.csdn.net/hhj724/article/details/79094138 阅读全文

posted @ 2019-08-19 23:27 会走的树阅读(10982) 评论(0) 推荐(0) 编辑

完整过程解决 ERROR 1045 (28000): Access denied for user 'mysql'@'localhost' (using password: NO)

摘要：https://blog.csdn.net/nel0511/article/details/13091163 阅读全文

posted @ 2019-08-19 23:25 会走的树阅读(193) 评论(0) 推荐(0) 编辑

Hadoop伪分布式配置

摘要：系统:Centos6.5 创建需要的文件夹安装jdk 配置环境变量 Hadoop2.7.3伪分布式配置 yarn配置阅读全文

posted @ 2019-08-19 15:21 会走的树阅读(3986) 评论(0) 推荐(0) 编辑

Spark_scala_Maven项目创建

摘要： IDEA创建WordCount Maven项目创建WordCount源文件 words.text 内容 WordCount源码说明参考： https://www.cnblogs.com/studyNotesSL/p/11367751.html pom.xml源码选择 Enables Aut 阅读全文

posted @ 2019-08-19 14:56 会走的树阅读(875) 评论(0) 推荐(0) 编辑

tesseract-ocr的安装及使用

摘要：https://blog.csdn.net/qq_37193537/article/details/81335165 阅读全文

posted @ 2019-08-18 18:24 会走的树阅读(162) 评论(0) 推荐(0) 编辑

解决selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to be in P

摘要：https://blog.csdn.net/qq_26200629/article/details/86141131 阅读全文

posted @ 2019-08-18 18:21 会走的树阅读(4846) 评论(0) 推荐(0) 编辑

python第三方库资源

摘要：https://www.cnblogs.com/YangtzeYu/p/7858182.html 阅读全文

posted @ 2019-08-18 16:34 会走的树阅读(222) 评论(0) 推荐(0) 编辑

kafka伪分布式配置

摘要：http://dblab.xmu.edu.cn/blog/1096 2/ 安装kafka 修改zookeeper.properties 修改server.properties 测试kafka 阅读全文

posted @ 2019-08-18 14:27 会走的树阅读(217) 评论(0) 推荐(0) 编辑

Sqoop伪分布式配置

摘要：阅读全文

posted @ 2019-08-17 12:58 会走的树阅读(346) 评论(0) 推荐(0) 编辑

Spark伪分布式配置

摘要：阅读全文

posted @ 2019-08-17 11:31 会走的树阅读(493) 评论(0) 推荐(0) 编辑

Hive伪分布式配置

摘要："安装MySQL" 安装HIve 配置环境变量使用hive默认的元数据使用MySQL作为元数据 Linux远程连接MySQL (5.1.41版本) 启动hive 参考: "大数据技术原理与应用第十四章基于Hadoop的数据仓库Hive 学习指南" "关于hive异常：Unable to in 阅读全文

posted @ 2019-08-17 10:50 会走的树阅读(574) 评论(0) 推荐(0) 编辑

MySQL配置及常见问题解决

摘要：本机安装MySQL (非Linux core版本) MySQL默认连接端口：3306 卸载已经安装使用yum安装MySQL 启动mysql服务解决初始密码问题 sqoop导入MySQL中文乱码的问题 Linux core连接MySQL 添加MySQL的主机IP映射安装MySQL的客户端阅读全文

posted @ 2019-08-17 10:46 会走的树阅读(387) 评论(0) 推荐(0) 编辑

Spark-WordCount

摘要：words.txt 数据阅读全文

posted @ 2019-08-17 10:43 会走的树阅读(222) 评论(0) 推荐(0) 编辑

Spark-Dataframe操作

摘要：准备代码使用SQL语句查询查看数据加载数据到数组获取指定字段的统计信息获取n行数据条件查询去除重复数据同字段数据组合(unionAll) 同字段数据行组合(join) 阅读全文

posted @ 2019-08-17 10:39 会走的树阅读(1116) 评论(0) 推荐(0) 编辑

Spark-RDD

摘要：头代码 RDD创建保存RDD数据 RDD数据类型转换 RDD逻辑操作方法去重分组累积运算(reduce) 筛选RDD元素拆分RDD的Map 统计个数选取元素排序 RDD合并 RDD分区分区运算阅读全文

posted @ 2019-08-14 15:49 会走的树阅读(240) 评论(0) 推荐(0) 编辑

Spark-Dataframe(SQL)

摘要：[TOC] Spark Dataframe创建读取json文件 jsData.js 数据 Spark Dataframe创建 Rdd转Dataframe 数据 Spark Dataframe创建加载到SparkSession Spark DataFrame数据读取和保存 Spark Datafr 阅读全文

posted @ 2019-08-12 17:36 会走的树阅读(262) 评论(0) 推荐(0) 编辑

spark-Streaming

摘要：[TOC] 监听文件定时文件监听监听文件结构化数据流数据监听端口数据统计包括历史数据监听端口结构化数据监听RDD队列数据 import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apac 阅读全文

posted @ 2019-08-12 17:30 会走的树阅读(250) 评论(0) 推荐(0) 编辑

会走的树

08 2019 档案

公告