随笔分类 - Web Crawler
摘要:TXT文件: txt是微软在操作系统上附带的一种文本格式,文件以.txt为后缀。 从txt文件中读取数据: with open ('xxx.txt') as file: data=file.readlines() 此外,还可以用pandas的read_table功能:pd.read_table(fi
阅读全文
摘要:在《爬虫基础以及一个简单的实例》一文中,我们使用了正则表达式来解析爬取的网页。但是正则表达式有些繁琐,使用起来不是那么方便。这次我们试一下用Xpath选择器来解析网页。 首先,什么是XPath?XPath即XML路径语言(XML Path Language),用于在XML文档中查找信息(在XML文档
阅读全文
摘要:以下摘录了爬虫经常用的正则表达式,如需更详细的信息,请查看崔庆才的个人网页: https://cuiqingcai.com/5530.html。 使用Python的re模块: 导入re模块: re.complie(pattern) 将正则字符串编译成正则表达式对象 re.findall(patter
阅读全文
摘要:最近在看爬虫方面的知识,看到崔庆才所著的《Python3网络爬虫开发实战》一书讲的比较系统,果断入手学习。下面根据书中的内容,简单总结一下爬虫的基础知识,并且实际练习一下。详细内容请见:https://cuiqingcai.com/5465.html(作者已把书的前几章内容对外公开)。 在写爬虫程序
阅读全文