摘要: 糗事百科爬虫实例: 地址:http://www.qiushibaike.com/8hr/page/1 需求: 使用requests获取页面信息,用XPath / re 做数据提取 获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数 保存到 json 文件内 Queue(队列对象) 阅读全文
posted @ 2018-08-11 22:07 Nice1949 阅读(560) 评论(0) 推荐(0) 编辑
摘要: JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。 官方文档:http://docs.python.org/library/jso 阅读全文
posted @ 2018-08-11 20:26 Nice1949 阅读(231) 评论(0) 推荐(0) 编辑
摘要: CSS 选择器:BeautifulSoup4 Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。 pip 安装:pip install beautifulsoup4 官方文档:http://beautifulsoup.readthe 阅读全文
posted @ 2018-08-11 19:37 Nice1949 阅读(301) 评论(0) 推荐(0) 编辑