上一页 1 2 3 4 5 6 7 8 ··· 18 下一页
摘要: 数据分析三剑客:Numpy Pandas Matplotlib 二维数组取值: attr=np.random.randint(0,100,size=(5,6)) attr[[1,2]] #取数组中的1行到2行 atr[0:3] #从第一行到第三行 attr[;,2:4] #从第3列到第4列 关于数组 阅读全文
posted @ 2019-06-06 11:39 青红*皂了个白 阅读(205) 评论(0) 推荐(0) 编辑
摘要: 增加并发: 默认scrapy开启的线程数为32个,可以适当进行增加,在seeting配置文件中修改councurrent_requests=100 降低日志等级: 在运行scrapy运行时,会有大量日志输出,为了减少cpu的使用率,可将日志等级设置为log=error或log=info 禁用cook 阅读全文
posted @ 2019-06-04 12:17 青红*皂了个白 阅读(317) 评论(0) 推荐(0) 编辑
摘要: 此处采用函数执行鼠标滑动操作,最终完成动态数据的加载(懒加载) 原理:设置 一个空列表用于存储每次鼠标拖动后的瞬间页面最大高度。每次追加页面的最新高度 在每次拖动后,重新去获取一下,当前页面的最大高度 如果获取的页面最大高度等于了列表最后的那个最大高度,说明页面到底了,跳出循环。 否则会将当前获取的 阅读全文
posted @ 2019-06-03 18:22 青红*皂了个白 阅读(787) 评论(0) 推荐(0) 编辑
摘要: scrapy框架的中间件主要有两个,一个是spiderMiddleware(爬虫中间件),一个是DownloaderMiddleware(下载中间件) 通常由于在请求对象和相应对象数据在下载中间件就能处理好,一般不会去使用爬虫中间件。 下载中间件主要用到的方法有三个: process_request 阅读全文
posted @ 2019-06-03 10:55 青红*皂了个白 阅读(294) 评论(0) 推荐(0) 编辑
摘要: 不推荐使用scrapy框架发送post请求,配置复杂,如果在数据量大 的情况下,可以通过如下代码来实现: 方法一:就是重写scrapy下面的start_requests方法 方法二:将URL链接写在外部,然后手动去发送请求 scrapy.FormRequest(url=url,formdata=da 阅读全文
posted @ 2019-06-01 16:54 青红*皂了个白 阅读(8956) 评论(0) 推荐(1) 编辑
摘要: 本次目标地址为梨视频:https://www.pearvideo.com/category_59 在实现数据抓取的时候需要注意以下几点: 视频资源数据大多数网站都是加密或者隐藏在js文件或者某个文件下面的,很少有在页面能够直接解析到源地址的。 在已知视频路径的情况下,避免使用有界面浏览器或者无界面浏 阅读全文
posted @ 2019-05-31 23:44 青红*皂了个白 阅读(240) 评论(0) 推荐(0) 编辑
摘要: selenium是浏览器自动化测试框架,使用前可直接pip install selenium安装 需要选择与当前使用浏览器匹配的驱动下载调用。本次采用Chrome 74版,Chrome驱动下载地址:http://chromedriver.storage.googleapis.com/index.ht 阅读全文
posted @ 2019-05-31 12:21 青红*皂了个白 阅读(340) 评论(0) 推荐(0) 编辑
摘要: 本次登录站点为古诗文网 URL:https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx 对于验证码的解析:采用云打码API接口实现 http://www.yundama.com 主页面 阅读全文
posted @ 2019-05-30 23:17 青红*皂了个白 阅读(1375) 评论(0) 推荐(0) 编辑
摘要: 爬虫类型:通用爬虫、聚焦爬虫、增量式爬虫 在使用fiddler工具抓包时,需要注意下:因为它需要安装证书,在项目请求HTTPS页面是会ssl要求提供安全证书,可能会被拒绝请求 可以在发送requests请求时,关闭安全认证,或者暂时关闭fiddler代理。末尾也会提到,这个坑…… 使用 Beauti 阅读全文
posted @ 2019-05-27 10:47 青红*皂了个白 阅读(188) 评论(0) 推荐(0) 编辑
摘要: Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。 Conda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同版本的软件包及其依赖 Jupyter notebook基于web的交互式计算环境,可以编辑易于人们阅读的文档,用于 阅读全文
posted @ 2019-05-27 09:12 青红*皂了个白 阅读(635) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 18 下一页