摘要: 一.os模块 1.os.getcmd() 获取当前的工作目录,当前Python脚本的工作路径。 2.os.chdir(r’路径’) 改变当前脚本的工作目录,相当于Linux下的cd命令 3.os.curdir 返回当前目录,不知道有啥用。。。 4.os.pardir 获取当前目录的父目录 8.os. 阅读全文
posted @ 2018-11-29 22:56 炫风真是风 阅读(189) 评论(0) 推荐(0) 编辑
摘要: pychram的激活请点击这里。 1.添加或者修改文件模板 2. Python版本切换 File->settings->Prgject ->project interpreter 3、已有文件重命名 右击要重命名的文件->refactor->rename 4、Python模块安装 File->set 阅读全文
posted @ 2018-11-26 22:15 炫风真是风 阅读(348) 评论(0) 推荐(0) 编辑
摘要: 传智播客爬虫学习笔记。。 1.Scrapy介绍 1.1 Scrapy框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 阅读全文
posted @ 2018-11-14 19:58 炫风真是风 阅读(294) 评论(0) 推荐(0) 编辑
摘要: 案例:腾讯招聘网自动翻页采集 来自传智播客的爬虫学习视频 1.创建一个新的爬虫: 2.编写items.py 获取职位名称、详细信息 3.编写tencent.py 4.编写pipeline.py文件 5.在 setting.py 里设置ITEM_PIPELINES 6.执行爬虫:scrapy craw 阅读全文
posted @ 2018-11-13 23:32 炫风真是风 阅读(422) 评论(0) 推荐(0) 编辑
摘要: 1.为什么会被反爬虫? 对于一个经常使用爬虫程序获取网页数据的人来说,遭遇到网站的“反爬虫”已经是司空见惯。 为什么网站要反爬虫? l 爬虫并不是一个真正用户的流量,爬虫会浪费网站的流量,也就是会浪费钱。 l 数据对于每家公司来说都是宝贵的资源。在大数据时代,数据的价值越来越突出,它是很多公司的战略 阅读全文
posted @ 2018-11-09 22:20 炫风真是风 阅读(305) 评论(0) 推荐(0) 编辑
摘要: multiprocessing python中的多线程其实并不是真正的多线程,如果想要充分地使用多核CPU的资源,在python中大部分情况需要使用多进程。Python提供了非常好用的多进程包multiprocessing,只需要定义一个函数,Python会完成其他所有事情。借助这个包,可以轻松完成 阅读全文
posted @ 2018-11-08 00:04 炫风真是风 阅读(709) 评论(0) 推荐(1) 编辑
摘要: 多线程和多进程爬虫 一.线程 1.什么是线程。 线程是操作系统能够进行运算调度的最小单位。它被包含在进程中,是进城中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流,一个线程可以并发多个线程,每条线程执行不同的任务。 2.线程常用的方法 方法 说明 start() 线程准备就绪,等待CPU调 阅读全文
posted @ 2018-11-05 21:35 炫风真是风 阅读(1393) 评论(0) 推荐(1) 编辑
摘要: 1.爬虫为什么要学习正则表达式 爬虫爬取数据时大概可以分为4步: (1) 明确要爬取的目标(知道要去爬取哪个网站) (2)将目标网站的的内容全部爬下来 (3)将我们需要的数据解析出来 (4)数据的存储和使用 2. 什么是正则表达式 正则表达式,通常是用来检索、替换那些符合某个规则的文本。所以通过正则 阅读全文
posted @ 2018-10-31 19:39 炫风真是风 阅读(202) 评论(0) 推荐(0) 编辑
摘要: 1.什么是XPath? XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。 W3School官方文档:http://www.w3school.com.cn/xpath/index.asp 2.XPath 开发工具 阅读全文
posted @ 2018-10-29 22:08 炫风真是风 阅读(1629) 评论(0) 推荐(0) 编辑
摘要: BeautifulSoup是一个HTML/XML的解析器,主要的功能是如何解析和提取HTML/XML的数据。 官方文档:http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0 1.BeautifulSoup的安装 BeautifulSoup的安装非常简单简单 阅读全文
posted @ 2018-10-28 18:48 炫风真是风 阅读(229) 评论(0) 推荐(0) 编辑