11 2018 档案

摘要:一.os模块 1.os.getcmd() 获取当前的工作目录,当前Python脚本的工作路径。 2.os.chdir(r’路径’) 改变当前脚本的工作目录,相当于Linux下的cd命令 3.os.curdir 返回当前目录,不知道有啥用。。。 4.os.pardir 获取当前目录的父目录 8.os. 阅读全文
posted @ 2018-11-29 22:56 炫风真是风 阅读(212) 评论(0) 推荐(0)
摘要:pychram的激活请点击这里。 1.添加或者修改文件模板 2. Python版本切换 File->settings->Prgject ->project interpreter 3、已有文件重命名 右击要重命名的文件->refactor->rename 4、Python模块安装 File->set 阅读全文
posted @ 2018-11-26 22:15 炫风真是风 阅读(387) 评论(0) 推荐(0)
摘要:传智播客爬虫学习笔记。。 1.Scrapy介绍 1.1 Scrapy框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 阅读全文
posted @ 2018-11-14 19:58 炫风真是风 阅读(322) 评论(0) 推荐(0)
摘要:案例:腾讯招聘网自动翻页采集 来自传智播客的爬虫学习视频 1.创建一个新的爬虫: 2.编写items.py 获取职位名称、详细信息 3.编写tencent.py 4.编写pipeline.py文件 5.在 setting.py 里设置ITEM_PIPELINES 6.执行爬虫:scrapy craw 阅读全文
posted @ 2018-11-13 23:32 炫风真是风 阅读(439) 评论(0) 推荐(0)
摘要:1.为什么会被反爬虫? 对于一个经常使用爬虫程序获取网页数据的人来说,遭遇到网站的“反爬虫”已经是司空见惯。 为什么网站要反爬虫? l 爬虫并不是一个真正用户的流量,爬虫会浪费网站的流量,也就是会浪费钱。 l 数据对于每家公司来说都是宝贵的资源。在大数据时代,数据的价值越来越突出,它是很多公司的战略 阅读全文
posted @ 2018-11-09 22:20 炫风真是风 阅读(340) 评论(0) 推荐(0)
摘要:multiprocessing python中的多线程其实并不是真正的多线程,如果想要充分地使用多核CPU的资源,在python中大部分情况需要使用多进程。Python提供了非常好用的多进程包multiprocessing,只需要定义一个函数,Python会完成其他所有事情。借助这个包,可以轻松完成 阅读全文
posted @ 2018-11-08 00:04 炫风真是风 阅读(726) 评论(0) 推荐(1)
摘要:多线程和多进程爬虫 一.线程 1.什么是线程。 线程是操作系统能够进行运算调度的最小单位。它被包含在进程中,是进城中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流,一个线程可以并发多个线程,每条线程执行不同的任务。 2.线程常用的方法 方法 说明 start() 线程准备就绪,等待CPU调 阅读全文
posted @ 2018-11-05 21:35 炫风真是风 阅读(1423) 评论(0) 推荐(1)