emoji字符的范围、正则替换Emoji字符

Emoji与Unicode、UTF8

Emoji是一种特殊的字符,而不是像QQ表情一样的普通字符的转义表示。在Unicode编码中,占用了U+1F300U+1F64F中的部分范围

Emoji字符的特殊之处在于,其使用的Unicode字符超出了通常使用的三字节UTF-8编码的Unicode范围,即BMP范围U+0000U+FFFF。按照UTF-8编码规范,Emoji字符属于辅助平面范围,通常对应4字节的UTF-8编码。

hive sql正则替换Emoji字符

select regexp_replace('abch🤫 🤔 🤐 ij', '[^\u0000-\uFFFF]', '');

posted @   阿灿呀  阅读(747)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具
点击右上角即可分享
微信分享提示