2020 年 5月 3 日随笔档案 - Eeyhan

2020年5月3日

摘要：不管我怎么搞都解码不出来，查了下，说的是在 Node 层利用 cheerio 解析网页时，输出的中文内容都是以 &#x 开头的一堆像乱码一样的东西，尝试过各种编码都无效，而且神奇的是，将这一堆“乱码”保存成网页后，通过浏览器打开又可以正常显示，凭我多年的爬虫分析经验来看，这应该就是我要的东西，并不是随机生成的，想了很久，我突然想起了一种html的页码表现形式，有没有觉得很像那种html的特征码，比如空格就是以上的数据，格式是是不是非常像阅读全文

posted @ 2020-05-03 18:57 Eeyhan 阅读(842) 评论(0) 推荐(0) 编辑

geekbyte

公告