使用ruby爬虫提取数据的特殊字符以及乱码(已解决)

情况一:在html中有些字符是预留的,例如'<'小于号就会显示'&amp;lt;',我们要把这些预留的符号转成我们想要的,包括一些不可见的字符,应该怎么做呢

           首先 我们 gem install htmlentities  安装这个gem ,下面看这个例子

1 require 'htmlentities'
2 HTMLEntities.new.decode "&iexcl;I&#39;m highly&nbsp;annoyed with character references!"
3 "¡I'm highly annoyed with character references!"

  再看一个例子

 

情况二:有些编码是ASCII-8BIT  我们不能使用它来存进数据库,会报错

首先,可以将它转换成name.force_encoding("Shift_JIS") 然后就ok啦

 

 

         

   

 

posted @ 2018-10-12 10:27  WangHello  阅读(669)  评论(0编辑  收藏  举报