10 2019 档案
摘要:在spark中,RDD、DataFrame、Dataset是最常用的数据类型,本博文给出笔者在使用的过程中体会到的区别和各自的优势 共性: 1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利 2、三者都有惰性机制,在进行创建、转换,如ma
阅读全文
摘要:梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。 输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体
阅读全文
摘要:MS SQL去除回车符,换行符,空格和水平制表符,参考下面语句,一般情况是SQL接受富文本或是textarea的内容。在数据库接收到这些数据之后,还是对其做一些处理。 其中: char(9) 水平制表符 char(10) 换行 char(13) 回车
阅读全文
摘要:在日常工作中,有时候需要读取mysql的数据作为DataFrame数据源进行后期的Spark处理,Spark自带了一些方法供我们使用,读取mysql我们可以直接使用表的结构信息,而不需要自己再去定义每个字段信息。下面是我的实现方式。 1.mysql的信息: mysql的信息我保存在了外部的配置文件,
阅读全文
摘要:实现 "name"=="a" and ("city" == "b" or "city" == "c")
阅读全文
摘要:一、什么是 ES Nested 嵌套 Elasticsearch 有很多数据类型,大致如下: 基本数据类型: string 类型。ES 7.x 中,string 类型会升级为:text 和 keyword。keyword 可以排序;text 默认分词,不可以排序。 数据类型:integer、long
阅读全文
摘要:spark的正则表达式匹配暂时只找到一个可用于dataframe处理数据的函数 ————————————————原文链接:https://blog.csdn.net/qingumeng4466/article/details/78932970
阅读全文
摘要:java.lang.IllegalArgumentException: System memory 259522560 must be at least 471859200. Please increase heap size using the --driver-memory option or
阅读全文
摘要:举例如下:<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-tomcat</artifactId> <scope>provided</scope></dependency>
阅读全文
摘要:idea 运行scala代码 报错:Exception in thread "main" java.lang.NoClassDefFoundError: scala/Predef$ java.lang.NoClassDefFoundError: scala/Function0 Error: A JN
阅读全文