个人博客转至:tybai.com

无聊就想打码,打码使我快乐


Fork me on GitHub

随笔分类 -  Scala

spark dataframe 转换 json
摘要:首先新建一个 打印结构是: spark 自带函数 列表型json 但是如果想得到第一列为 ,第二列为 ,那么写法是这样子的: 合并JSONArray key:value 但是上面发现每一个 都放在一个括号里面,怎么把他们合并成起来?只需要文本处理一下: 怎么把这个字符串变成 通过 值来取得 ?定义一 阅读全文

posted @ 2020-04-14 15:41 TTyb 阅读(2426) 评论(0) 推荐(0) 编辑

spark org.apache.spark.ml.linalg.DenseVector cannot be cast to org.apache.spark.ml.linalg.SparseVector
摘要:在使用 转换特征后,想要放入 去训练的时候出现错误: 修改如下: 阅读全文

posted @ 2019-07-05 10:13 TTyb 阅读(2076) 评论(0) 推荐(2) 编辑

DataFrameNaFunctions无fill方法
摘要:当我使用 ,为了填补 里面的 值转换为 ,代码如下所示: 出现如下错误 : 原来在 版本暂时不支持 写法,因此查询众多方式得到解决: 阅读全文

posted @ 2019-03-06 09:56 TTyb 阅读(728) 评论(0) 推荐(0) 编辑

dataframe行变换为列
摘要:新建一个 : 需要将 的内容按照 分割,得到如下效果: 目前有两种方式实现。 方式一 使用 里面的函数,具体的方式可以看 "functions" : 方式二 使用 ,具体的方式可以看 "spark使用udf给dataFrame新增列" 阅读全文

posted @ 2018-09-28 10:57 TTyb 阅读(1078) 评论(0) 推荐(0) 编辑

scala获取某个时间间隔的时间
摘要:原始 : 还可以是 、 、 、 等等,打印结果如下: 阅读全文

posted @ 2018-09-28 10:56 TTyb 阅读(1848) 评论(0) 推荐(0) 编辑

spark按某几列删除dataframe重复行
摘要:新建一个 : 想根据 和 来删除重复行,即删掉 且 的重复行。利用 无法删除 利用 可以根据 来删除: 阅读全文

posted @ 2018-03-05 09:12 TTyb 阅读(7161) 评论(0) 推荐(0) 编辑

spark调用hdfsAPI
摘要:`spark hdfs API` 查询文件名字、删除文件: 获取HDFS上面某个路径下的所有文件的名字 删除HDFS上面某个文件 阅读全文

posted @ 2018-01-24 09:10 TTyb 阅读(921) 评论(0) 推荐(0) 编辑

dataframe的select传入不定参数
摘要:在提取 里面的列时,需要传入不定参数,即 。例如某个 如下: 一般提取某列或者某几列的时候是这样子写的: 但是有需求需要传入不定参数提取不定的列,则可以将需要提取的列放入到一个 中,再如此调用: 因为 官方定义的时候是支持传入不定参数的: 唯一的要求是 里面元素的类型是 类型。 阅读全文

posted @ 2018-01-11 09:04 TTyb 阅读(2229) 评论(0) 推荐(0) 编辑

spark System memory must be at least
摘要:运行 程序的时候出现错误: 在 里面找到: 设置大小: 阅读全文

posted @ 2017-12-26 09:53 TTyb 阅读(628) 评论(0) 推荐(0) 编辑

spark计算两个DataFrame的差集、交集、合集
摘要:`spark dataframe dataframe` : 差集 except + + |sentence| + + |f8934y | + + 交集 intersect + + |sentence| + + | asf| | 2143| + + 合集 union + + |sentence| + 阅读全文

posted @ 2017-12-06 11:47 TTyb 阅读(16171) 评论(0) 推荐(1) 编辑

dataframe去除null、NaN和空字符串
摘要:去除null、NaN 去除 中的 、 有方法 ,用 找出带有 、 的行,用 删除行: 去除空字符串 去除空字符串用 : 阅读全文

posted @ 2017-10-12 11:00 TTyb 阅读(9008) 评论(0) 推荐(0) 编辑

scala时间和时间戳互转
摘要:时间转换为时间戳: 时间戳转化为时间: 阅读全文

posted @ 2017-08-08 17:15 TTyb 阅读(19056) 评论(0) 推荐(0) 编辑

Spark No FileSystem for scheme file 解决方法
摘要:在给代码带包成jar后,放到环境中运行出现如下错误: 这是因为 的配置文件没写好,更改方式如下: 找到自己项目保存库的位置,依次点击: File Settings Build,Execution,Deployment Build Tools Maven Local repository 这里的 就是 阅读全文

posted @ 2017-08-04 09:54 TTyb 阅读(4226) 评论(0) 推荐(0) 编辑

spark使用udf给dataFrame新增列
摘要:在 中给 增加一列的方法一般使用 打印结果如下: 可以看到 很依赖原来 的结构,但是假设没有 这一列,那么增加列的时候灵活度就降低了很多,假设原始 如下: 这样可以用 写自定义函数进行增加列: 得到结果: 还可以写下更多的逻辑判断: 阅读全文

posted @ 2017-07-14 11:23 TTyb 阅读(8885) 评论(0) 推荐(0) 编辑

scala查询dataFrame结构
摘要:``` println(dataFrame.printSchema) ``` ![](http://images2015.cnblogs.com/blog/996148/201707/996148-20170711135355962-1459151524.png) 阅读全文

posted @ 2017-07-11 13:54 TTyb 阅读(631) 评论(0) 推荐(0) 编辑

Spark中SQL列和并为一行
摘要:在使用数据库的时候,需要将查询出来的一列按照逗号合并成一行。 原表名字为 ,表中的部分原始数据为: 查询代码为: 得到部分结果为: 但是在 中没有 命令,查找后发现命令 : 得到结果: 也可以用另一个方法: 但是得到的结果为 : 阅读全文

posted @ 2017-06-28 14:52 TTyb 阅读(759) 评论(0) 推荐(0) 编辑

scala用ssh2连接Linux
摘要:这个需要安装库: 首先用 和 创建连接: 判断这个连接是否连接上了,这个用了一个 类型判断: 如果连接成功的话,那么就将命令发送过去,命令发送只需要建立一个会话即可,执行命令返回的值保存在 中: 最后就是处理解析 中的返回结果就行了: 完整的类封装成: 在 函数中调用这个类即可: 这个方法能发送的 阅读全文

posted @ 2017-05-22 21:12 TTyb 阅读(442) 评论(0) 推荐(0) 编辑

scala调用Linux命令行
摘要:在 里面存在 调用 命令行的函数: 执行的方法也不难: 需要注意的是,这个库只能调用 的命令行,在 下不行 阅读全文

posted @ 2017-05-22 20:57 TTyb 阅读(1312) 评论(0) 推荐(0) 编辑

scala的reduce
摘要:`spark reduce reduce dataframe dataframe` : 假设要将 这一列拼接成一长串字符串,则: 要是将 这一列拼接一个 ,则: 阅读全文

posted @ 2017-05-17 14:42 TTyb 阅读(893) 评论(0) 推荐(0) 编辑

scala转换date提取年月日时分秒
摘要:从数据库提取出来的时间为 格式,现在需要转换为 并提取出里面的 小时 时间段: 阅读全文

posted @ 2017-04-25 10:16 TTyb 阅读(1543) 评论(1) 推荐(1) 编辑

导航


不用多久

我就会升职加薪

当上总经理

出任CEO

迎娶白富美

走上人生巅峰

Pulpit rock

喜欢请打赏

扫描二维码打赏

了解更多

点击右上角即可分享
微信分享提示