py---------迭代器与生成器

一，迭代器

1、什么是可迭代对象？

字符串、列表、元组、字典、集合 都可以被for循环，说明他们都是可迭代的。

我们怎么来证明这一点呢？

from collections import Iterable

l = [1,2,3,4]
t = (1,2,3,4)
d = {1:2,3:4}
s = {1,2,3,4}

print(isinstance(l,Iterable))     #,Iterable 是否可迭代
print(isinstance(t,Iterable))
print(isinstance(d,Iterable))
print(isinstance(s,Iterable))

将某个数据内的数据一个挨着一个取出来就叫迭代。如for循环。

2、可迭代协议

我们现在是从结果分析原因，能被for循环的就是“可迭代的”，但是如果正着想，for怎么知道谁是可迭代的呢？

假如我们自己写了一个数据类型，希望这个数据类型里的东西也可以使用for被一个一个的取出来，那我们就必须满足for的要求。这个要求就叫做 “协议”。

可以被迭代要满足的要求就叫做可迭代协议。，就是内部实现了 __iter__ 方法。

迭代：是一个重复的过程，每一次重复，都是基于上一次结果而来的。

接下来我们就来验证一下：

print(dir([1,2]))
print(dir((2,3)))
print(dir({1:2}))
print(dir({1,2}))

C:\python36\python3.exe E:/lnh/day03/2.py
['__add__', '__class__', '__contains__', '__delattr__', '__delitem__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__imul__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__reversed__', '__rmul__', '__setattr__', '__setitem__', '__sizeof__', '__str__', '__subclasshook__', 'append', 'clear', 'copy', 'count', 'extend', 'index', 'insert', 'pop', 'remove', 'reverse', 'sort']
['__add__', '__class__', '__contains__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getnewargs__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__rmul__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'count', 'index']
['__class__', '__contains__', '__delattr__', '__delitem__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setitem__', '__sizeof__', '__str__', '__subclasshook__', 'clear', 'copy', 'fromkeys', 'get', 'items', 'keys', 'pop', 'popitem', 'setdefault', 'update', 'values']
['__and__', '__class__', '__contains__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__iand__', '__init__', '__init_subclass__', '__ior__', '__isub__', '__iter__', '__ixor__', '__le__', '__len__', '__lt__', '__ne__', '__new__', '__or__', '__rand__', '__reduce__', '__reduce_ex__', '__repr__', '__ror__', '__rsub__', '__rxor__', '__setattr__', '__sizeof__', '__str__', '__sub__', '__subclasshook__', '__xor__', 'add', 'clear', 'copy', 'difference', 'difference_update', 'discard', 'intersection', 'intersection_update', 'isdisjoint', 'issubset', 'issuperset', 'pop', 'remove', 'symmetric_difference', 'symmetric_difference_update', 'union', 'update']

进程已结束,退出代码0

结果

总结一下我们现在所知道的：可以被for循环的都是可迭代的，要想可迭代，内部必须有一个__iter__方法。

接着分析，__iter__方法做了什么事情呢？

print([1,2].__iter__())

#结果
<list_iterator object at 0x0000000001E87400>

执行了list([1,2])的__iter__方法，我们好像得到了一个list_iterator，现在我们又得到了一个新名词——iterator。

(iterator:迭代器，可迭代程序)

3、迭代器

既什么叫“可迭代”之后，又一个历史新难题，什么叫“迭代器”？

虽然我们不知道什么叫迭代器，但是我们现在已经有一个迭代器了，这个迭代器是一个列表的迭代器。

我们来看看这个列表的迭代器比起列表来说实现了哪些新方法，这样就能揭开迭代器的神秘面纱了吧？

'''
dir([1,2].__iter__())是列表迭代器中实现的所有方法，dir([1,2])是列表中实现的所有方法,都是以列表的形式返回给我们的，为了看的更清楚，我们分别把他们转换成集合，
然后取差集。
'''
#print(dir([1,2].__iter__()))
#print(dir([1,2]))
print(set(dir([1,2].__iter__()))-set(dir([1,2])))

结果：
{'__length_hint__', '__next__', '__setstate__'}

我们看到在列表迭代器中多了三个方法，那么这三个方法都分别做了什么事呢？

iter_l = [1,2,3,4,5].__iter__()
#获取迭代器中的元素的长度

print(iter_l.__length_hint__())
#根据索引值指定哪里开始迭代

print('*',iter_l.__setstate__(4))
#一个一个取值

print('**',iter_l.__next__)
print('***',iter_l.__next__)

这三个方法中，能让我们一个一个取值的神奇方法是谁？

没错！就是__next__

在for循环中，就是在内部调用了__next__方法才能取到一个一个的值。

那接下来我们就用迭代器的 __next__ 方法来写一个不依赖for的遍历。

l = [1,2,3,4]
l_iter = l.__iter__()  # 将可迭代的转化成迭代器
item = l_iter.__next__()  #或 itrm = next(l_iter) 结果相同
print(item)
item = l_iter.__next__()
print(item)
item = l_iter.__next__()
print(item)
item = l_iter.__next__()
print(item)
item = l_iter.__next__()          #取第五个没有值了报异常
print(item)

这是一段会报错的代码，如果我们一直取next取到迭代器里已经没有元素了，就会抛出一个异常 StopIteration，告诉我们，列表中已经没有有效的元素了。

这个时候，我们就要使用异常处理机制来把这个异常处理掉。模拟for循环

for循环，能遍历一个可迭代对象，他的内部到底进行了什么？

将可迭代对象转化成迭代器。（可迭代对象.__iter__()）
内部使用__next__方法，一个一个取值。
加了异常处理功能，取值到底后自动停止。

用while循环模拟for循环：

#例1 取列表
l = [1,2,3,4]
l_iter = l.__iter__()       #用__iter__把 l 编程迭代器
while True:
    try:
        item = l_iter.__next__()
        print(item)
    except StopIteration:
        break



#例2 取字典
dic = {'name':"wukong",'sex':"monkey",'age':18}
d_iter = dic.__iter__()       #用__iter__把 l 编程迭代器
while True:
    try:
        item = d_iter.__next__()
        #print(item)             #取key值
        print(item,dic[item])    #取key 和 value值
    except StopIteration:
        break

那现在我们就使用while循环实现了原本for循环做的事情，我们是从谁那儿获取一个一个的值呀？是不是就是 l_iter？好了，这个 l_iter 就是一个迭代器。

迭代器遵循迭代器协议：必须拥有__iter__方法和__next__方法。

还账：next和iter方法

如此一来，关于迭代器和生成器的方法我们就还清了两个，最后我们来看看range()是个啥。首先，它肯定是一个可迭代的对象，但是它是否是一个迭代器？我们来测试一下

print('__next__' in dir(range(12)))  #查看'__next__'是不是在range()方法执行之后内部是否有__next__
print('__iter__' in dir(range(12)))  #查看'__next__'是不是在range()方法执行之后内部是否有__next__

from collections import Iterator
print(isinstance(range(100000000),Iterator))  #验证range执行之后得到的结果不是一个迭代器

range函数返回值是一个可迭代对象

4、为什么要有for循环？

基于上面讲的列表这一大堆遍历方式，聪明的你立马看除了端倪，于是你不知死活大声喊道，你这不逗我玩呢么，有了下标的访问方式，我可以这样遍历一个列表啊

l=[1,2,3]

index=0
while index < len(l):
    print(l[index])
    index+=1

#要毛线for循环，要毛线可迭代，要毛线迭代器

？？？要毛线for循环，要毛线可迭代，要毛线迭代器

没错，序列类型字符串，列表，元组都有下标，你用上述的方式访问，perfect！但是你可曾想过非序列类型像字典，集合，文件对象的感受，所以嘛，年轻人，for循环就是基于迭代器协议提供了一个统一的可以遍历所有对象的方法，即在遍历之前，先调用对象的__iter__方法将其转换成一个迭代器，然后使用迭代器协议去实现循环访问，这样所有的对象就都可以通过for循环来遍历了，而且你看到的效果也确实如此，这就是无所不能的for循环，最重要的一点，转化成迭代器，在循环时，同一时刻在内存中只出现一条数据，极大限度的节省了内存~觉悟吧，悟空。

二，生成器

1、初始生成器

我们知道的迭代器有两种：一种是调用方法直接返回的，一种是可迭代对象通过执行 __iter __方法得到的，迭代器有的好处是可以节省内存。

如果在某些情况下，我们也需要节省内存,就只能自己写。我们自己写的这个能实现迭代器功能的东西就叫 生成器。

# 当函数代码块中遇到 yield 关键字的时候，这个函数就是一个生成器函数

Python中提供的生成器：

1.生成器函数：常规函数定义，但是，使用 yield 语句而不是 return 语句返回结果。yield 语句一次返回一个结果，在每个结果中间，挂起保存函数的状态，以便下次重它离开的地方继续执行。

2.生成器表达式：类似于列表推导，但是，生成器返回按需产生结果的一个对象，而不是一次构建一个结果列表

生成器Generator：

　　本质：迭代器(所以自带了__iter__方法和__next__方法，不需要我们去实现)

　　特点：惰性运算,开发者自定义

------举例详将生成器执行步骤---------

#凡是带有yield的函数就是一个生成器

def func():
    print('****')
    yield 1
    print("222222")
    yield 2      #记录当前位置，不会执行。等待下一次next来触发函数的状态

g = func()
print('----->',next(g))             #
print()

#结果
****
-----> 1

# 生成器函数的调用不会触发代码的执行，而是会返回一个生成器(迭代器)
# 想要生成器函数执行，需要用 next

2、生成器函数

一个包含 yield关键字 的函数就是一个生成器函数。yield 可以为我们从函数中返回值，但是 yield 又不同于 return，return 的执行意味着程序的结束，调用生成器函数不会得到返回的具体的值，而是得到一个可迭代的对象。每一次获取这个可迭代对象的值，就能推动函数的执行，获取新的返回值。直到函数执行结束。

import time
def genrator_func1():
    a = 1
    print('现在定义了a变量')
    yield a
    b = 2
    print('现在定义了b')
    yield b

g1 = genrator_func1()
print('g1:',g1)     #打印g1可以发现g1就是一个生成器
print('-'*20)    #我是分割线
print(next(g1))
time.sleep(1)       #sleep一秒看清执行过程
print(next(g1))

初始生成器函数

生成器有什么好处呢？就是不会一下子在内存中生成太多数据

假如我想让工厂给学生做校服，生产2000000件衣服，我和工厂一说，工厂应该是先答应下来，然后再去生产，我可以一件一件的要，也可以根据学生一批一批的找工厂拿。
而不能是一说要生产2000000件衣服，工厂就先去做生产2000000件衣服，等回来做好了，学生都毕业了。。。

def produce():
    """生产衣服"""
    for i in range(1,2000000):
        yield "生产了第%s件衣服"%i

produce_g = produce()
print(produce_g.__next__())     #要一件衣服
print(produce_g.__next__())     #再要一件衣服
print(produce_g.__next__())     #再要一件衣服
num = 0

for i in produce_g:             # 要一批衣服，比如4件
    print(i)
    num += 1
    if num == 4:
        break
#到这里我们找工厂拿了7件衣服，我一共让我的生产函数(也就是produce生成器函数)生产2000000件衣服。
#剩下的还有很多衣服，我们可以一直拿，也可以放着等想拿的时候再拿

初始生成器2

import time

def tail(filename):
    f = open(filename)
    f.seek(0, 2) #从文件末尾算起
    while True:
        line = f.readline()  # 读取文件中新的文本行
        if not line:
            time.sleep(0.1)
            continue
        yield line

tail_g = tail('tmp')       #在当前目录下创建tmp文件，检测文件输入内容变化
for line in tail_g:
    print(line)

生成器监听文件输入

import time
def lister_file():
    with open('userinfo') as f:
        while True:
            line = f.readline()
            if line.strip():
                yield line
            time.sleep(0.1)
g = lister_file()
for line in g:
    print(line)

监听文件升级版

3、send

两个例子详讲解：

def func():
    print(11111)
    ret1=yield 1
    print(22222,'ret1:',ret1)  #ret1是yield 返回结果
    ret2 =  yield 2
    print(33333,'ret2:',ret2)
    yield 3

g = func()
ret = g.__next__()     #结果 11111
print(ret)             #1
print(g.send('tangseng'))  #send 在执行next的过程中 给上一个yield的位置传递一个数据 
print(g.send("金老板"))   #结果 33333 ret1: 金老板  3

#像生成器中传值 有一个激活的过程 第一次必须用next 触发这个生成器

#结果
11111
1
22222 ret1: tangseng
2
33333 ret1: 金老板
3

def generator():
    print(123)
    content = yield 1
    print('=======',content)
    print(456)
    yield 2

g = generator()
ret = g.__next__()
print('***',ret)
ret = g.send('hello')   #send的效果和next一样
print('***',ret)

#send 获取下一个值的效果和next基本一致
#只是在获取下一个值的时候，给上一yield的位置传递一个数据
#使用send的注意事项
    # 第一次使用生成器的时候 是用next获取下一个值
    # 最后一个yield不能接受外部的值

def averager():
    total = 0.0
    count = 0
    average = None
    while True:
        term = yield average
        total += term
        count += 1
        average = total/count


g_avg = averager()
next(g_avg)
print(g_avg.send(10))
print(g_avg.send(30))
print(g_avg.send(5))

计算移动平均值(1)

计算平均值1

def average():    #1
    sum_money = 0     #4        #总钱数
    day = 0     #5                    #天数
    avg = None   #6                #平均值
    while True:
        money= yield avg  #7  #9赋值 money = 200   #13  #16 在原来基础又赋值300   #20
        sum_money += money  #10   #17
        day += 1     #11     #18
        avg = sum_money/money   #12 200除以1  #19

g_avg = average()     #2
next(g_avg)       #3
print(g_avg.send(200))   #8  #14
print(g_avg.send(300))  #15  #21

计算平均值1详步骤

def init(func):  #在调用被装饰生成器函数的时候首先用next激活生成器
    def inner(*args,**kwargs):
        g = func(*args,**kwargs)
        next(g)
        return g
    return inner

@init
def averager():
    total = 0.0
    count = 0
    average = None
    while True:
        term = yield average
        total += term
        count += 1
        average = total/count


g_avg = averager()
# next(g_avg)   在装饰器中执行了next方法
print(g_avg.send(10))
print(g_avg.send(30))
print(g_avg.send(5))

计算移动平均值(2)_预激协程的装饰器

计算平均值2_预激携程的装饰器

yield from

def gen1():
    for c in 'AB':
        yield c
    for i in range(3):
        yield i

print(list(gen1()))

def gen2():
    yield from 'AB'
    yield from range(3)

print(list(gen2()))

yield from

yield from

三，列表推导式和生成器表达式

#老男孩由于峰哥的强势加盟很快走上了上市之路,alex思来想去决定下几个鸡蛋来报答峰哥

egg_list=['鸡蛋%s' %i for i in range(10)] #列表解析
print(egg_list)



#峰哥瞅着alex下的一筐鸡蛋,捂住了鼻子,说了句:哥,你还是给我只母鸡吧,我自己回家下
laomuji=('鸡蛋%s' %i for i in range(10))#生成器表达式
print(laomuji)
print(next(laomuji)) #next本质就是调用__next__
print(next(laomuji))
print(laomuji.__next__())

阿峰要蛋的故事

l = [i for i in range(10)]
print(l)
l1 = ['选项%s'%i for i in range(10)]
print(l1)

1.把列表解析的[]换成()得到的就是生成器表达式

2.列表解析与生成器表达式都是一种便利的编程方式，只不过生成器表达式更节省内存

3.Python不但使用迭代器协议，让for循环变得更加通用。大部分内置函数，也是使用迭代器协议访问对象的。例如， sum函数是Python的内置函数，该函数使用迭代器协议访问对象，而生成器实现了迭代器协议，所以，我们可以直接这样计算一系列值的和：

sum(x ** 2 for x in range(4))

with open('db.txt',encoding='utf-8') as f:
    l=[]
    for line in f:
       goods=line.split()
       price=float(goods[1])   #单价
       count=int(goods[2])     #个数
       cost=price * count      #求总价
       l.append(cost)
    print(sum(l))


with open('db.txt',encoding='utf-8') as f:
    l = ((float(line.split()[1])*int(line.split()[2]) )for line in f)
    print(sum(l))


#196060.0

#db.txt
# apple 10 3
# tesla 100000 1
# mac 3000 2
# lenovo 30000 3
# chicken 10 3

求单价*数量和

with open('db.txt',encoding='utf-8') as f:
    info=[{'name':line.split()[0],
      'price':float(line.split()[1]),
      'count':int(line.split()[2])} for line in f if float(line.split()[1]) >= 30000]
    print(info)

字典形式

各种推导式：http://www.cnblogs.com/edeny/p/8945238.html

本章小结

可迭代对象：

　　拥有__iter__方法

　　特点：惰性运算

　　例如:range(),str,list,tuple,dict,set

迭代器Iterator：

　　拥有__iter__方法和__next__方法

　　例如:iter(range()),iter(str),iter(list),iter(tuple),iter(dict),iter(set),reversed(list_o),map(func,list_o),filter(func,list_o),file_o

生成器Generator：

　　本质：迭代器，所以拥有__iter__方法和__next__方法

　　特点：惰性运算,开发者自定义

使用生成器的优点：

1.延迟计算，一次返回一个结果。也就是说，它不会一次生成所有的结果，这对于大数据量处理，将会非常有用。

#列表解析
sum([i for i in range(100000000)])#内存占用大,机器容易卡死
 
#生成器表达式
sum(i for i in range(100000000))#几乎不占内存

列表表达式和生成器表达式

生成器相关的面试题

生成器在编程中发生了很多的作用，善用生成器可以帮助我们解决很多复杂的问题

除此之外，生成器也是面试题中的重点，在完成一些功能之外，人们也想出了很多魔性的面试题。
接下来我们就来看一看～

def demo():
    for i in range(4):
        yield i

g=demo()

g1=(i for i in g)
g2=(i for i in g1)

print(list(g1))
print(list(g2))

面试题1

def add(n,i):
    return n+i

def test():
    for i in range(4):
        yield i

g=test()
for n in [1,10]:
    g=(add(n,i) for i in g)

print(list(g))

面试题2

面试题2

import os

def init(func):
    def wrapper(*args,**kwargs):
        g=func(*args,**kwargs)
        next(g)
        return g
    return wrapper

@init
def list_files(target):
    while 1:
        dir_to_search=yield
        for top_dir,dir,files in os.walk(dir_to_search):
            for file in files:
                target.send(os.path.join(top_dir,file))
@init
def opener(target):
    while 1:
        file=yield
        fn=open(file)
        target.send((file,fn))
@init
def cat(target):
    while 1:
        file,fn=yield
        for line in fn:
            target.send((file,line))

@init
def grep(pattern,target):
    while 1:
        file,line=yield
        if pattern in line:
            target.send(file)
@init
def printer():
    while 1:
        file=yield
        if file:
            print(file)

g=list_files(opener(cat(grep('python',printer()))))

g.send('/test1')

协程应用：grep -rl /dir

tail&grep

tail grep

posted @ 2018-04-24 13:51 王竹笙阅读(281) 评论(0) 收藏举报

刷新页面返回顶部

王竹笙

纵浪大化中，不喜亦不忧，应尽便须尽，无复独多虑。

py---------迭代器与生成器

一，迭代器

1、什么是可迭代对象？

2、可迭代协议

3、迭代器

4、为什么要有for循环？

二，生成器

1、初始生成器

2、生成器函数

3、send

yield from

三，列表推导式和生成器表达式

本章小结

生成器相关的面试题

公告