摘要: 读者可能会奇怪我标题怎么理成这个鬼样子,主要是单单写 lxml 与 bs4 这两个 py 模块名可能并不能一下引起大众的注意,一般讲到网页解析技术,提到的关键词更多的是 BeautifulSoup 和 xpath ,而它们各自所在的模块(python 中是叫做模块,但其他平台下更多地是称作库),很少 阅读全文
posted @ 2017-04-01 16:43 笑叹词穷 阅读(5955) 评论(0) 推荐(7) 编辑
摘要: 前言 从新数据库 mongodb 到基于内存的 key-value 数据库 Redis,从 scrapy 爬虫框架到 re 正则表达式模块,尤其正则,以前不会写的时候总是依赖 string 的各种方法,部分时候显得有些繁琐,会正则了之后在字符串的匹配、查找、替换、分隔方面打开了另一扇便捷之窗。另外, 阅读全文
posted @ 2017-04-01 14:20 笑叹词穷 阅读(5295) 评论(0) 推荐(0) 编辑