摘要: 不管我怎么搞都解码不出来,查了下,说的是在 Node 层利用 cheerio 解析网页时,输出的中文内容都是以 &#x 开头的一堆像乱码一样的东西,尝试过各种编码都无效,而且神奇的是,将这一堆“乱码”保存成网页后,通过浏览器打开又可以正常显示,凭我多年的爬虫分析经验来看,这应该就是我要的东西,并不是随机生成的,想了很久,我突然想起了一种html的页码表现形式,有没有觉得很像那种html的特征码,比如 空格就是   以上的数据,格式是是不是非常像 阅读全文
posted @ 2020-05-03 18:57 Eeyhan 阅读(824) 评论(0) 推荐(0) 编辑