随笔档案「2018年11月」 - 炫风真是风

os模块

摘要：一.os模块 1.os.getcmd() 获取当前的工作目录，当前Python脚本的工作路径。 2.os.chdir(r’路径’) 改变当前脚本的工作目录，相当于Linux下的cd命令 3.os.curdir 返回当前目录，不知道有啥用。。。 4.os.pardir 获取当前目录的父目录 8.os. 阅读全文

posted @ 2018-11-29 22:56 炫风真是风阅读(212) 评论(0) 推荐(0)

pychram的简单使用

摘要：pychram的激活请点击这里。 1.添加或者修改文件模板 2. Python版本切换 File->settings->Prgject ->project interpreter 3、已有文件重命名右击要重命名的文件->refactor->rename 4、Python模块安装 File->set 阅读全文

posted @ 2018-11-26 22:15 炫风真是风阅读(387) 评论(0) 推荐(0)

scrapy框架

摘要：传智播客爬虫学习笔记。。 1.Scrapy介绍 1.1 Scrapy框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。 Scrapy 阅读全文

posted @ 2018-11-14 19:58 炫风真是风阅读(322) 评论(0) 推荐(0)

腾讯招聘爬虫

摘要：案例：腾讯招聘网自动翻页采集来自传智播客的爬虫学习视频 1.创建一个新的爬虫： 2.编写items.py 获取职位名称、详细信息 3.编写tencent.py 4.编写pipeline.py文件 5.在 setting.py 里设置ITEM_PIPELINES 6.执行爬虫：scrapy craw 阅读全文

posted @ 2018-11-13 23:32 炫风真是风阅读(439) 评论(0) 推荐(0)

反爬虫相关

摘要：1.为什么会被反爬虫？对于一个经常使用爬虫程序获取网页数据的人来说，遭遇到网站的“反爬虫”已经是司空见惯。为什么网站要反爬虫？ l 爬虫并不是一个真正用户的流量，爬虫会浪费网站的流量，也就是会浪费钱。 l 数据对于每家公司来说都是宝贵的资源。在大数据时代，数据的价值越来越突出，它是很多公司的战略阅读全文

posted @ 2018-11-09 22:20 炫风真是风阅读(340) 评论(0) 推荐(0)

爬虫多进程

摘要：multiprocessing python中的多线程其实并不是真正的多线程，如果想要充分地使用多核CPU的资源，在python中大部分情况需要使用多进程。Python提供了非常好用的多进程包multiprocessing，只需要定义一个函数，Python会完成其他所有事情。借助这个包，可以轻松完成阅读全文

posted @ 2018-11-08 00:04 炫风真是风阅读(726) 评论(0) 推荐(1)

爬虫与多线程

摘要：多线程和多进程爬虫一.线程 1.什么是线程。线程是操作系统能够进行运算调度的最小单位。它被包含在进程中，是进城中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流，一个线程可以并发多个线程，每条线程执行不同的任务。 2.线程常用的方法方法说明 start() 线程准备就绪，等待CPU调阅读全文

posted @ 2018-11-05 21:35 炫风真是风阅读(1423) 评论(0) 推荐(1)

python学习过程

11 2018 档案

公告