R读取中文文件的问题
用R读取中文文本(UTF-8),经常无端出错,常常指定了sep="\t“,结果仍然有字段内部仍然包含"\t"。分隔符换成 ”,"也不行!
更郁闷的是,read.table 读出来的域数量,竟然比 count.fields 返回的少。
最终解决的方法是,在分隔符前后加上空格。读取的时候再把空格去掉,这样问题就解决了。有相同问题的可以试试。
cat data.csv | iconv -f UTF-16 -t UTF-8 | sed "s/\t/ \t /g" > df.csv read.csv("df.csv", sep="\t", header=TRUE, encoding="UTF-8", strip.white=TRUE)
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步