摘要: 首先来个小知识点,利用非贪婪匹配出我们的目标字符串:<div>yuan<img></div> 看代码: 知道这点之后,我们就可以开始爬虫网站了。 爬取网站:https://movie.douban.com/top250 想要爬取的内容:电影名称、排名、评分等。 其中<em class="">1</e 阅读全文
posted @ 2017-07-03 17:40 始怡 阅读(327) 评论(0) 推荐(0) 编辑
摘要: re模块 就其本质而言,正则表达式(或 RE)是一种小型的、高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现。正则表达式模式被编译成一系列的字节码,然后由用 C 编写的匹配引擎执行。 字符串是编程时涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在 阅读全文
posted @ 2017-07-03 16:41 始怡 阅读(275) 评论(0) 推荐(0) 编辑