Spark中自定义函数

UDF可以将一个或者多个列作为输入，同时也可以返回一个或者多个列。在一般情况下，这些函数被注册为SparkSession或者Countext的临时函数。

案例：向UDF中注册一个3次幂函数的自定函数
函数：

  def pow3(number:Double)={
    number*number*number
  }

  def pow3(number:Double)={
    number*number*number
  }

上面的方法只能将pow3udf在DataFrame中使用，而不能在字符串表达式中使用。

  def pow3(number:Double)={
    number*number*number
  }

作者：ALINGMAOMAO

版权：本作品采用「署名-非商业性使用-相同方式共享 4.0 国际」许可协议进行许可。

posted @ 2023-02-13 22:41 青山新雨阅读(56) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· spark DataFrame聚合操作

· Spark对复杂结构的处理

· （4）SparkSQL中如何定义UDF和使用UDF

· 1/30 学习进度笔记

· 自定义UDAF函数(多对一函数)

阅读排行：
· 单线程的Redis速度为什么快？
· 展开说说关于C#中ORM框架的用法！
· 阿里最新开源QwQ-32B，效果媲美deepseek-r1满血版，部署成本又又又降低了！
· Pantheons：用 TypeScript 打造主流大模型对话的一站式集成库
· SQL Server 2025 AI相关能力初探

Loading