Web Crawler - 随笔分类 - HuZihu

一些常用的文本文件格式（TXT，JSON，CSV）以及如何从这些文件中读取和写入数据

摘要：TXT文件： txt是微软在操作系统上附带的一种文本格式，文件以.txt为后缀。从txt文件中读取数据： with open ('xxx.txt') as file: data=file.readlines() 此外，还可以用pandas的read_table功能：pd.read_table(fi 阅读全文

posted @ 2019-07-14 21:34 HuZihu 阅读(7760) 评论(0) 推荐(0)

用Xpath选择器解析网页（lxml）

摘要：在《爬虫基础以及一个简单的实例》一文中，我们使用了正则表达式来解析爬取的网页。但是正则表达式有些繁琐，使用起来不是那么方便。这次我们试一下用Xpath选择器来解析网页。首先，什么是XPath？XPath即XML路径语言（XML Path Language），用于在XML文档中查找信息（在XML文档阅读全文

posted @ 2019-07-11 11:04 HuZihu 阅读(5208) 评论(0) 推荐(0)

正则表达式（Regular Expression）

摘要：以下摘录了爬虫经常用的正则表达式，如需更详细的信息，请查看崔庆才的个人网页： https://cuiqingcai.com/5530.html。使用Python的re模块：导入re模块： re.complie(pattern) 将正则字符串编译成正则表达式对象 re.findall(patter 阅读全文

posted @ 2019-01-04 15:33 HuZihu 阅读(501) 评论(0) 推荐(0)

爬虫基础以及一个简单的实例（requests，re）

摘要：最近在看爬虫方面的知识，看到崔庆才所著的《Python3网络爬虫开发实战》一书讲的比较系统，果断入手学习。下面根据书中的内容，简单总结一下爬虫的基础知识，并且实际练习一下。详细内容请见：https://cuiqingcai.com/5465.html（作者已把书的前几章内容对外公开）。在写爬虫程序阅读全文

posted @ 2019-01-01 15:34 HuZihu 阅读(3517) 评论(0) 推荐(0)

HuZihu

随笔分类 - Web Crawler

公告