Hive的row_number和regexp_extract结合带来的乱码问题

复制代码

select
            userid,
            from_unixtime(createtime,'yyyy-MM-dd') as dateid,
            regexp_extract(browser,'^([^\\(]*).*$',1) as browser,
            operationsystem,
            device,
            row_number() over (partition by userid order by createtime) as rn
        from ods_log_full
        where module='user'
        and action='login_success'
        and from_unixtime(createtime,'yyyy-MM-dd')='2023-07-26'

复制代码

如果这样的话，那么中文会出现乱码。

暂时的解决办法时，使用hive的regexp_replace函数。这个函数没有上述的问题。

posted @ 2024-04-01 12:14 啦啦啦one 阅读(23) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

公告

昵称：啦啦啦one
园龄： 3年4个月
粉丝： 4
关注： 8

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5