摘要: 首先本文参考了上述两篇文章,爬取豆瓣电影栏目上“看不见的客人短评”,并将其导入cvs。 关于正则匹配多行html,实际上需要在原有基础上加入re.S。 这样,每行行末尾将通过“\n+空格”的形式呈现出来。 而实际上匹配可以通过.*?直接过滤掉。 详情可看第13行。 另说python的pandas模块 阅读全文
posted @ 2017-10-17 10:17 编程好累啊! 阅读(2201) 评论(0) 推荐(0) 编辑