摘要:
读者可能会奇怪我标题怎么理成这个鬼样子,主要是单单写 lxml 与 bs4 这两个 py 模块名可能并不能一下引起大众的注意,一般讲到网页解析技术,提到的关键词更多的是 BeautifulSoup 和 xpath ,而它们各自所在的模块(python 中是叫做模块,但其他平台下更多地是称作库),很少 阅读全文
摘要:
前言 从新数据库 mongodb 到基于内存的 key-value 数据库 Redis,从 scrapy 爬虫框架到 re 正则表达式模块,尤其正则,以前不会写的时候总是依赖 string 的各种方法,部分时候显得有些繁琐,会正则了之后在字符串的匹配、查找、替换、分隔方面打开了另一扇便捷之窗。另外, 阅读全文