Spark中自定义函数

UDF可以将一个或者多个列作为输入,同时也可以返回一个或者多个列。在一般情况下,这些函数被注册为SparkSession或者Countext的临时函数。

注册成DataFrame的函数#

案例:向UDF中注册一个3次幂函数的自定函数
函数:

  def pow3(number:Double)={
    number*number*number
  }

注册:

  def pow3(number:Double)={
    number*number*number
  }

上面的方法只能将pow3udf在DataFrame中使用,而不能在字符串表达式中使用。

Spark SQL函数#

  def pow3(number:Double)={
    number*number*number
  }

作者:ALINGMAOMAO

出处:https://www.cnblogs.com/ALINGMAOMAO/p/17118159.html

版权:本作品采用「署名-非商业性使用-相同方式共享 4.0 国际」许可协议进行许可。

posted @   青山新雨  阅读(56)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 单线程的Redis速度为什么快?
· 展开说说关于C#中ORM框架的用法!
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库
· SQL Server 2025 AI相关能力初探
more_horiz
keyboard_arrow_up light_mode palette
选择主题
menu
点击右上角即可分享
微信分享提示