【python】or【php】网页中字符编码转换,将反斜杠u \u字符串转为unicode/utf8

有的时候我们用python来抓取网页会得到类似 '\\u003C\\u0066\\u0072\\u006F\\u006D\\u003E' 或者 '%u003c%u0062%u0072%u003e%u003c%u0064%u0069%u0076%u0020%u0063%u006c......' 那么应该怎么处理呢?

1|0python

这种情况就是把 unicode直接输出到文本中了,现在需要把它还原回去。

解决:

In [23]: s1 Out[23]: '\\u003C\\u0066\\u0072\\u006F\\u006D\\u003E' In [24]: s2 Out[24]: '%u003c%u0062%u0072%u003e%u003c%u0064%u0069%u0076%u0020%u0063%u006c......' In [25]: print s1.decode('unicode-escape') <from> In [26]: print s2.replace("%", "\\").decode('unicode-escape') <br><div cl......

另一种方式是使用json

def to_chinese(unicode_str): x = json.loads('{"chinese":"%s"}' % unicode_str) return x['chinese']

 

2|0php

$str = preg_replace("/\\\\u([0-9a-f]{3,4})/i", "&#x\\1;", $str); $str = html_entity_decode($str, null, 'UTF-8');

 


__EOF__

本文作者komomon
本文链接https://www.cnblogs.com/forforever/p/12713907.html
关于博主:喜欢读书、旅行、爬山。评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角推荐一下。您的鼓励是博主的最大动力!
posted @   komomon  阅读(825)  评论(0编辑  收藏  举报
编辑推荐:
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
阅读排行:
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 提示词工程——AI应用必不可少的技术
· .NET周刊【3月第1期 2025-03-02】
点击右上角即可分享
微信分享提示