上一页 1 2 3 4 5 6 ··· 10 下一页
摘要: 自己在学习崔庆才老师爬虫课程中文本存储一节中,看到崔老师以爬取知乎搜索为例进行演示,但是其使用的是pyquery解析库来解析网页,自己在网上看到有文章说xpath是最好的解析库,也想使用xpath来完成网页的解析,但是其中遇到了问题。 崔老师的源代码 使用崔老师的代码能够完整爬取网页上的内容 自己遇 阅读全文
posted @ 2019-05-23 23:30 舒畅123 阅读(713) 评论(0) 推荐(0) 编辑
摘要: 当我们用解析器解析出数据之后,接下来的一步就是对数据进行存储了,保存的形式可以多种多样,最简单的形式可以直接保存为文本文件,如 TXT、Json、CSV 等等,另外还可以保存到数据库中,如关系型数据库 MySQL,非关系型数据库 MongoDB、Redis 等等。 优点:操作简单,且可以兼容几乎所有 阅读全文
posted @ 2019-05-23 00:20 舒畅123 阅读(860) 评论(0) 推荐(0) 编辑
摘要: 在爬取豆瓣电影中使用的是正则表达式,但是正则表达式比较麻烦,除了正则以外还有 LXML、BeautifulSoup、PyQuery 等多个解析库,这些解析库相比正则更为简便,能够有效提高爬虫的爬取效率。 XPATH 简介 定义 XPath,全称 XML Path Language,即 XML 路径语 阅读全文
posted @ 2019-05-21 18:12 舒畅123 阅读(240) 评论(0) 推荐(0) 编辑
摘要: 自己仔细研读了崔庆才老师的书爬取猫眼电影这一节深有感触,自己实际上在一年前就看过这一节的视频,但是当时没看懂(因为当时基础知识太差),经过大半年的积累,终于基本上能够看明白代码基础意思,按照崔庆才老师的博客写出自己的第一个爬虫代码。 https://germey.gitbooks.io/python 阅读全文
posted @ 2019-05-20 18:15 舒畅123 阅读(105) 评论(0) 推荐(0) 编辑
摘要: 注意自己使用的是百分浏览器,在安装Chromedriver的时候始终有问题,后来改安装Chrome浏览器以后,解决了问题。关键点就是Chromedriver要放在和python同级的目录下。 完全模拟浏览器的操作。 虽然在使用requests的时候已经能够完成网页源代码的获取,但是在涉及到网页翻页或 阅读全文
posted @ 2019-05-15 22:11 舒畅123 阅读(109) 评论(0) 推荐(0) 编辑
摘要: Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库。因为urllib存在着诸多的不便,而requests的出现能够帮助解决大量的难题。 请求 以get请求为例,一般请求格式为: 注意:在上面的例子中使用response.text和 阅读全文
posted @ 2019-05-13 22:52 舒畅123 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 一、python基础教程 https://morvanzhou.github.io/ 二、爬虫教程 https://www.yuanrenxue.com/crawler/principle-of-web-crawler.html https://www.cnblogs.com/zhaof/tag/% 阅读全文
posted @ 2019-05-13 10:37 舒畅123 阅读(116) 评论(0) 推荐(0) 编辑
摘要: Beautiful Soup 名气大,整合了一些常用爬虫需求。缺点:不能加载JS。 Scrapy 看起来很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这 阅读全文
posted @ 2019-05-13 10:03 舒畅123 阅读(9769) 评论(0) 推荐(0) 编辑
摘要: 爬虫入门知识: 爬虫的定义 抓取网页数据的程序;爬虫怎么抓取网页数据: 如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序;从技术层面来说就是 通过程序模拟浏览器请求站 阅读全文
posted @ 2019-05-11 11:37 舒畅123 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 定义: BOM(Browser Object Model)是指浏览器对象模型,它使 JavaScript 有能力与浏览器进行“对话”。 DOM (Document Object Model)是指文档对象模型,通过它,可以访问HTML文档的所有元素。 window的子对象 location对象 常用属 阅读全文
posted @ 2019-05-10 00:41 舒畅123 阅读(110) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 10 下一页