使用ruby爬虫提取数据的特殊字符以及乱码(已解决)
情况一:在html中有些字符是预留的,例如'<'小于号就会显示'&lt;',我们要把这些预留的符号转成我们想要的,包括一些不可见的字符,应该怎么做呢
首先 我们 gem install htmlentities 安装这个gem ,下面看这个例子
1 require 'htmlentities' 2 HTMLEntities.new.decode "¡I'm highly annoyed with character references!" 3 "¡I'm highly annoyed with character references!"
再看一个例子
情况二:有些编码是ASCII-8BIT 我们不能使用它来存进数据库,会报错
首先,可以将它转换成name.force_encoding("Shift_JIS") 然后就ok啦