会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
编程好累啊!
博客园
首页
新随笔
联系
订阅
管理
2017年10月17日
关于html的多行匹配,正则re.S的使用(爬取豆瓣电影短评)
摘要: 首先本文参考了上述两篇文章,爬取豆瓣电影栏目上“看不见的客人短评”,并将其导入cvs。 关于正则匹配多行html,实际上需要在原有基础上加入re.S。 这样,每行行末尾将通过“\n+空格”的形式呈现出来。 而实际上匹配可以通过.*?直接过滤掉。 详情可看第13行。 另说python的pandas模块
阅读全文
posted @ 2017-10-17 10:17 编程好累啊!
阅读(2201)
评论(0)
推荐(0)
编辑
2017年10月15日
关于正则表达式的完整整理(python)
摘要: 上传图片,以示清白。 正则(Regular Expression) 在python的运用当中,正则表达式可是非常重要的,无论是进行爬虫,或者是进行某些判定,都必不可少,接下来,我们谈谈正则表达式。望各位兄多多指教。 就是这样,re 导入,来波分割线,开始进入正题。 首先是正则表达式的单字符匹配(字符
阅读全文
posted @ 2017-10-15 21:19 编程好累啊!
阅读(601)
评论(0)
推荐(0)
编辑
判断网页能否打开?python
摘要: 针对批量判断http网站是否打开,如果为https,再跑一次。
阅读全文
posted @ 2017-10-15 15:23 编程好累啊!
阅读(4627)
评论(0)
推荐(0)
编辑
利用python爬取点小图片,满足私欲(爬虫)
摘要: 望兄多提意见,相互进步
阅读全文
posted @ 2017-10-15 15:16 编程好累啊!
阅读(883)
评论(3)
推荐(1)
编辑
公告