2019 年 10月随笔档案 - 泡代码的小二黑

谈谈RDD、DataFrame、Dataset的区别和各自的优势

摘要：在spark中，RDD、DataFrame、Dataset是最常用的数据类型，本博文给出笔者在使用的过程中体会到的区别和各自的优势共性： 1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利 2、三者都有惰性机制，在进行创建、转换，如ma 阅读全文

posted @ 2019-10-24 11:12 泡代码的小二黑阅读(611) 评论(1) 推荐(0) 编辑

spark基本概念-Spark中Task，Partition，RDD、节点数、Executor数、core数目的关系和Application，Driver，Job，Task，Stage理解

摘要：梳理一下Spark中关于并发度涉及的几个概念File，Block，Split，Task，Partition，RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体阅读全文

posted @ 2019-10-21 10:37 泡代码的小二黑阅读(2017) 评论(0) 推荐(1) 编辑

SQL去除回车符，换行符，空格和水平制表符

摘要：MS SQL去除回车符，换行符，空格和水平制表符，参考下面语句，一般情况是SQL接受富文本或是textarea的内容。在数据库接收到这些数据之后，还是对其做一些处理。其中： char(9) 水平制表符 char(10) 换行 char(13) 回车阅读全文

posted @ 2019-10-18 16:06 泡代码的小二黑阅读(647) 评论(0) 推荐(0) 编辑

Spark读取mysql数据作为DataFrame

摘要：在日常工作中，有时候需要读取mysql的数据作为DataFrame数据源进行后期的Spark处理,Spark自带了一些方法供我们使用，读取mysql我们可以直接使用表的结构信息，而不需要自己再去定义每个字段信息。下面是我的实现方式。 1.mysql的信息： mysql的信息我保存在了外部的配置文件，阅读全文

posted @ 2019-10-17 20:29 泡代码的小二黑阅读(1303) 评论(0) 推荐(0) 编辑

es实现and与or查询

摘要：实现 "name"=="a" and ("city" == "b" or "city" == "c") 阅读全文

posted @ 2019-10-16 11:41 泡代码的小二黑阅读(16242) 评论(2) 推荐(1) 编辑

Elasticsearch 7.x Nested 嵌套类型查询 | ES 干货

摘要：一、什么是 ES Nested 嵌套 Elasticsearch 有很多数据类型，大致如下：基本数据类型： string 类型。ES 7.x 中，string 类型会升级为：text 和 keyword。keyword 可以排序；text 默认分词，不可以排序。数据类型：integer、long 阅读全文

posted @ 2019-10-16 10:30 泡代码的小二黑阅读(5863) 评论(0) 推荐(1) 编辑

spark dataframe 正则表达式匹配

摘要：spark的正则表达式匹配暂时只找到一个可用于dataframe处理数据的函数 ————————————————原文链接：https://blog.csdn.net/qingumeng4466/article/details/78932970 阅读全文

posted @ 2019-10-15 21:44 泡代码的小二黑阅读(2585) 评论(0) 推荐(0) 编辑

JVM申请的memory不够导致无法启动SparkContext

摘要：java.lang.IllegalArgumentException: System memory 259522560 must be at least 471859200. Please increase heap size using the --driver-memory option or 阅读全文

posted @ 2019-10-15 21:06 泡代码的小二黑阅读(1024) 评论(0) 推荐(0) 编辑

<scope>provided</scope> 关于maven依赖中的scope的作用和用法

摘要：举例如下：<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-tomcat</artifactId> <scope>provided</scope></dependency> 阅读全文

posted @ 2019-10-15 20:53 泡代码的小二黑阅读(6572) 评论(0) 推荐(0) 编辑

无法运行scala

摘要：idea 运行scala代码报错：Exception in thread "main" java.lang.NoClassDefFoundError: scala/Predef$ java.lang.NoClassDefFoundError: scala/Function0 Error: A JN 阅读全文

posted @ 2019-10-15 20:45 泡代码的小二黑阅读(590) 评论(0) 推荐(0) 编辑

10 2019 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论