扎西德勒119 - 博客园

2020年4月23日

摘要：我采用的事Python来使用selenium库，同时jiava也可以使用，但不如python操作起来方便，下文都会以python学习selenium过程中收集到的方法。一：安装首先python先要安装selenium pip install Selenium 第二步，下载对应的浏览器驱动，我这里阅读全文

posted @ 2020-04-23 15:02 扎西德勒119 阅读(272) 评论(0) 推荐(0)

2020年1月3日

git

摘要：工作区：当前的编辑位置缓存区： add 之后的区域版本库： commit之后的区域就是版本库 git init . 初始化 git add . 将工作区的所有文件添加到缓存区 git commit -m “提交信息” 将缓存区的内容添加到版本库 git status 查看当前的状态 git r 阅读全文

posted @ 2020-01-03 10:14 扎西德勒119 阅读(106) 评论(0) 推荐(0)

2019年12月13日

Python-requests请求的超时时间

摘要： python程序根据url从互联网上批量下载图片时，设置HTTP或Socket超时，来防止爬虫爬取某个页面时间过长，导致程序卡置不前。一种解决方案是全局设置： import socketsocket.setdefaulttimeout(t)t：代表经过t秒后，如果还未下载成功，自动跳入下一次操作，阅读全文

posted @ 2019-12-13 10:53 扎西德勒119 阅读(4834) 评论(0) 推荐(0)

2019年9月25日

Python中使用pip安装一些库时出现ERROR

摘要： ERROR: No matching distribution found for tensorflow的情况这可能是因为网络的问题，这时我们使用国内的镜像源来加速输入命令：python -m pip install requests(如果你安装的是别的库，请输入别的库名） -i http://py 阅读全文

posted @ 2019-09-25 11:41 扎西德勒119 阅读(538) 评论(0) 推荐(0)

2019年9月16日

05.scrapy框架的UA池和代理池

摘要：一:下载中间件 scrapy框架图下载中间件(Downloader Middlewares)位于scrapy引擎和下载器之间的一层作用: 1.引擎将请求传递给下载器过程中,下载中间件可以对请求进行一系列处理.比如设置请求的User-Agent,设置代理等 2.在下载器完成将response传递给阅读全文

posted @ 2019-09-16 00:36 扎西德勒119 阅读(226) 评论(0) 推荐(0)

04scrapy框架的日志等级和请求传参

摘要：一.scrapy的日志等级 -在使用scrapy crawl spiderFileName运行程序时,在终端打印输出的就是scrapy的日志信息. -日志信息的种类: ERROR:一般错误 WARNING:警告 INFO:一般的信息 DEBUG: 调试信息 -在设置日志信息指定输出: 在settin 阅读全文

posted @ 2019-09-16 00:25 扎西德勒119 阅读(169) 评论(0) 推荐(0)

03.scrapy框架之递归解析和post请求

摘要： 1.递归爬取解析多页页面数据 -需求:将糗事百科页面的作业和段子内容数据进行爬取持久化存储 -需求分析:每一个页面对应一个url,则scrapy工程需要对每一个页面对应的url依次发起请求,然后通过对应的解析方法进行作者和段子内容的解析实现方法: 1.将每一个页面对应的url存放到爬取文件的其实u 阅读全文

posted @ 2019-09-16 00:07 扎西德勒119 阅读(193) 评论(0) 推荐(0)

2019年9月15日

02.scrapy框架持久化存储

摘要： 1.基于终端指令的持久化存储保证爬虫文件parse方法中有可迭代对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作执行输出指定格式进行存储:将爬取到的数据写入不同格式的文件中进行存储 scrapy crawl 爬虫名称 -o xxx.json sc 阅读全文

posted @ 2019-09-15 23:52 扎西德勒119 阅读(128) 评论(0) 推荐(0)

2019年9月12日

git

摘要： Git是什么？ Git是目前世界上最先进的分布式版本控制系统。一. 上传新源码 // 1.初始化git init // 2.创建.gitignore文件.ideatarget*.iml // 3.添加远程库git remote add origin https://gitlab.zfibs.com 阅读全文

posted @ 2019-09-12 18:00 扎西德勒119 阅读(95) 评论(0) 推荐(0)

01.scrapy框架简介和基础应用

摘要：一:什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板,对于框架的学习,重点是要学习其框架的特性,各种功能的用法即可: 二:安装阅读全文

posted @ 2019-09-12 01:52 扎西德勒119 阅读(148) 评论(0) 推荐(0)

扎西德勒

公告