坚强的小蚂蚁

2018年10月31日

摘要：一. 线程同步之信号量--semaphore 作用：控制进入数量的锁举个例子：写文件的时候，一般只用于一个线程写；读文件的时候可以用多个线程读，我们可以用信号量来控制多少个线程读文件做爬虫的时候，也可以用信号量来控制并发数量，以免访问量过多而被反爬，如下面代码 import threading 阅读全文

posted @ 2018-10-31 09:43 坚强的小蚂蚁阅读(179) 评论(0) 推荐(0)

多线程和多进程1

摘要：一. GIL 1. 基本概念 GIL：global interpreter lock （cpython下） python中一个线程对应于c语言中的一个线程，GIL使得同一时刻只有一个线程在一个CPU上执行字节码，无法将多个线程映射到多个CPU上执行 2. GIL释放 1）GIL会根据执行的字节码行数阅读全文

posted @ 2018-10-31 09:42 坚强的小蚂蚁阅读(143) 评论(0) 推荐(0)

元类编程

摘要：一. property动态属性 1. 首先来个例子，需求是根据出生年月日，得到某人的年龄 from datetime import date, datetime class User: def __init__(self, name, birthday): self.name = name self 阅读全文

posted @ 2018-10-31 09:40 坚强的小蚂蚁阅读(217) 评论(0) 推荐(0)

collections模块

摘要：一. tuple功能特点：不可变，可迭代，可拆包，但tuple不可变性不是绝对的其实只要类里包含__iter__或者__getitem__任一个魔法函数都是可迭代的 1. 拆包 1.1 基本用法 name = ("jack", "hong") # 按位置赋值给变量 name1, name2 = 阅读全文

posted @ 2018-10-31 09:39 坚强的小蚂蚁阅读(198) 评论(0) 推荐(0)

深入set和dict

摘要：一. 浅拷贝和深拷贝浅拷贝：就是创建一个具有相同类型，相同值但不同id的新对象。浅拷贝产生的新对象中可变对象的值在发生改变时，会对原对象的值也做出改变，因为这些值是同一个引用。 a = [1, 2] b = [3, 4, a] c = b.copy() a[0] = 0 print(b) pri 阅读全文

posted @ 2018-10-31 09:37 坚强的小蚂蚁阅读(323) 评论(0) 推荐(0)

深入类和对象

摘要： 1. 鸭子类型鸭子类型：多个类都有一个相同的方法，我们可以分别实例化一个对象，定义另外一个函数统一调用多个类中的相同方法 class Person: def walk(self): print("i walk use my foot") class Bird: def walk(self): pr 阅读全文

posted @ 2018-10-31 09:31 坚强的小蚂蚁阅读(166) 评论(0) 推荐(0)

2018年9月28日

第八天，scrapy的几个小技巧

摘要：一. 微博模拟登陆 1. 百度搜微博开放平台可满足爬取量不大的情况 2. 微博模拟登陆和下拉鼠标应对ajax加载 from selenium import webdriver import time browser = webdriver.Chrome() browser.get('https:// 阅读全文

posted @ 2018-09-28 15:33 坚强的小蚂蚁阅读(1050) 评论(0) 推荐(0)

第七天，反爬

摘要： DOWNLOAD_DELAY: 同一网站下个页面下载延迟时间一. 爬虫和反爬虫的斗争小技巧： 1. 在网页中右键查看源码和用F12查看是有区别的如果网页中大量使用ajax来加载数据，那么右键查看源码的方式只能看到ajax加载前的信息，F12看到的是ajax加载后的信息，我们一般用爬虫爬取的都是阅读全文

posted @ 2018-09-28 15:30 坚强的小蚂蚁阅读(242) 评论(0) 推荐(0)

第六天，拉勾网整站爬取

摘要：对应github地址：知乎和拉钩小技巧 1. cmder：模拟linux终端 2. 添加windows路径到pycharm环境中 import sys import os sys.path.insert(0, "E:\python_workshop\Article")，其中的0表示路径查找顺序另阅读全文

posted @ 2018-09-28 15:27 坚强的小蚂蚁阅读(682) 评论(0) 推荐(0)

第五天，知乎问题和回答字段提取和存入数据库

摘要：对应github地址：知乎和拉钩摘要： 1. Scrapy的Request类支持设置cookie属性，要在爬虫请求中带上cookie，可以重载Spider的start_requests方法。start_requests()方法可以返回一个请求给爬虫的起始网站，这个返回的请求相当于start_url 阅读全文

posted @ 2018-09-28 15:25 坚强的小蚂蚁阅读(661) 评论(0) 推荐(0)

坚强的小蚂蚁

每天都要有收获

公告