Python进阶————迭代器与生成器

迭代器与生成器

前言
一、迭代器
二、生成器
- 2.1 创建生成器的两种方式
- - 2.1.1 生成器推导式
  - 2.1.2 yield关键字
- 2.2 使用生成器生成批次数据
三、区别与联系
- 3.1 区别
- 3.2 联系
总结

前言

我们之前学习遍历的时候，系统会一下子给我们显示所有的数据，我们希望当我们需要数据的时候再给我们数据，那么，我们就需要迭代器与生成器的帮助。
迭代器和生成器在Python中都是用来处理数据序列的重要工具，它们之间的主要区别在于实现方式和使用场景的不同。

一、迭代器

迭代器是一个实现了迭代协议的对象。迭代协议意味着迭代器必须拥有__iter__和__next__方法。当一个对象实现了这两个方法，我们就称它为迭代器。
__iter__方法返回迭代器自身，而__next__方法返回序列中的下一个值。
如果序列已经到了末尾，则抛出StopIteration异常。
迭代器的一个重要特点是它们是“状态感知”的，也就是说它们记得上次停留的位置，允许用户继续从停止的地方开始。

自定义代码实现迭代器（示例）：

# 导包, sys: 系统模块
import sys# 定义1个类, 模拟: 迭代器.
class MyIterator:# 1. 初始化属性def __init__(self, limit):self.limit = limit      # 表示迭代次数(即: 你要的值的范围)self.current = 0        # 表示当前的元素.# 2. 返回迭代器对象本身.def __iter__(self):return self     # self = 迭代器对象.# 3. 自定义代码, 表示: 迭代器的规则, 即: 获取下一个元素.def __next__(self):# 3.1 判断, 数据不合法, 就停止迭代.if self.current >= self.limit:# raise: 抛出异常, 并终止程序运行的.raise StopIteration     # 抛出异常, StopIteration: 迭代结束.# raise ValueError('迭代器中没有数据了, 你还迭代, 我就报错了.')# raise ValueError('停止迭代!')# 3.2 获取下个元素, 并返回即可.self.current += 1return self.currentif __name__ == '__main__':# 案例1: 名词解释, 迭代: 逐个的获取容器中每个元素的过程称之为: 迭代, 也叫遍历.list1 = [1, 2, 3]# 迭代for i in list1:print(i)print('-' * 30)# 案例2: 演示自定义的迭代器# 1. 创建迭代器对象.my_iter = MyIterator(5)     # 底层调用 iter魔法方法, 返回本身(迭代器对象本身)print(type(my_iter))        # <class '__main__.MyIterator'># 2. 从迭代器中获取元素.print(next(my_iter))        # 底层调用 next魔法方法, 返回下一个元素print('-' * 30)# 还可以遍历.for i in my_iter:           # 底层调用 next魔法方法, 返回下一个元素print(i)print('-' * 30)# 遍历完后, 迭代器已经没有元素了, 继续迭代会报错.print(next(my_iter))        # 底层调用 next魔法方法, 返回下一个元素

二、生成器

生成器是Python中的一种特殊类型的迭代器，它通常由包含yield语句的函数来定义。与常规函数不同，生成器不会一次性返回所有结果，而是返回一个迭代器对象。
当调用生成器函数时，它返回一个未执行的生成器对象，当这个对象的__next__方法被调用时，函数开始执行直到遇到yield语句，此时函数的状态会被保存，并返回一个值。当再次调用__next__时，函数从上次停止的地方继续执行，直到再次遇到yield或抛出StopIteration异常

2.1 创建生成器的两种方式

2.1.1 生成器推导式

案例1：回顾之前的列表推导式，集合推导式

# 需求: 生成 1 ~ 5 的数据.
my_list = [i for i in range(1, 6)]
print(my_list, type(my_list))   # [1, 2, 3, 4, 5] <class 'list'>my_set = {i for i in range(1, 6)}
print(my_set, type(my_set))     # {1, 2, 3, 4, 5} <class 'set'>

案例2：演示生成器写法1，推导式写法

# 尝试写一下, "元组"推导式, 发现打印的结果不是元组, 而是对象, 因为这种写法叫: 生成器.
my_tuple = (i for i in range(1, 6))print(my_tuple)             # <generator object <genexpr> at 0x0000024C90F056D0>    生成器对象
print(type(my_tuple))       # <class 'generator'>       生成器类型
print('-' * 30)# 案例3: 如何从生成器对象中获取数据呢?
# 1. 定义生成器, 获取 1 ~ 5的数字.
my_generator = (i for i in range(1, 6))# 2. 从生成器中获取数据.
# 格式1: for循环遍历 获取全部
for i in my_generator:print(i)# 格式 2: next()函数, 逐个获取.
print(next(my_generator))       # 1
print(next(my_generator))       # 2

2.1.2 yield关键字

代码演示 yield关键字方式，获取生成器

# 需求: 自定义 get_generator()函数, 获取 包括: 1 ~ 5之间的整数 生成器.
# 1. 定义函数.
def get_generator():"""用于演示 yield关键字的用法:return: 生成器对象."""# 思路1: 自定义列表, 添加指定元素, 并返回.# my_list = []# for i in range(1, 6):#     my_list.append(i)# return my_list# 思路2: yield写法, 即: 如下的代码, 效果同上.for i in range(1, 6):yield i     # yield会记录每个生成的数据, 然后逐个的放到生成器对象中, 最终返回生成器对象.# 在main中测试.
if __name__ == '__main__':# 2. 调用函数, 获取生成器对象.my_generator = get_generator()# 3. 从生成器中获取每个元素.print(next(my_generator))   # 1print(next(my_generator))   # 2print('-' * 30)# 4. 遍历, 获取每个元素.for i in my_generator:print(i)

2.2 使用生成器生成批次数据

代码用生成器生成批次数据：

# 需求: 读取项目下的  jaychou_lyrics.txt文件(其中有5000多条 歌词数据), 按照8个 / 批次, 获取生成器, 并从中获取数据.
import math# 需求1: 铺垫知识,  math.ceil(数字):  获取指定数字的天花板数(向上取整), 即: 比这个数字大的所有整数中, 最小的哪个整数.
# print(math.ceil(5.1))       # 6
# print(math.ceil(5.6))       # 6
# print(math.ceil(5.0))       # 5# 需求2: 获取生成器对象, 从文件中读数据数据, n条 / 批次
# 1. 定义函数 dataset_loader(batch_size), 表示: 数据生成器, 按照 batch_size条 分批.
def dataset_loader(batch_size):     # 假设: batch_size = 8"""该函数用于获取生成器对象, 每条数据都是一批次的数据. 即: 生成器(8条, 8条, 8条...):param batch_size: 每批次有多少条数据:return: 返回生成器对象."""# 1.1 读取文件, 获取到每条(每行)数据.with open("./jaychou_lyrics.txt", 'r', encoding='utf-8') as f:# 一次读取所有行, 每行封装成字符串, 整体放到列表中.data_lines = f.readlines()      # 结果: [第一行, 第二行, 第三行...]# 1.2 根据上述的数据, 计算出: 数据的总条数(总行数), 假设: 100行(条)line_count = len(data_lines)# 1.3 基于上述的总条数 和 batch_size(每批次的条数), 获取: 批次总数(即: 总共多少批)batch_count = math.ceil(line_count / batch_size)        # 例如: math.ceil(100 / 8) = 13# 1.4 具体的获取每批次数据的动作, 用 yield包裹, 放到生成器中, 并最终返回生成器(对象)即可.for i in range(batch_count):        # batch_count的值: 13,  i的值: 0, 1, 2, 3, 4, 5, .... 12# 1.5 yield会记录每批次数据, 封装到生成器中, 并返回(生成器对象)"""推理过程:i = 0, 代表第1批次数据, 想要 第 1 条   ~~~~  第 8 条数据,    即:  data_lines[0:8]      i = 1, 代表第2批次数据, 想要 第 9 条   ~~~~  第 16 条数据,   即:  data_lines[8:16]      i = 2, 代表第3批次数据, 想要 第 17 条   ~~~~  第 24 条数据,  即:  data_lines[16:24]......      """yield data_lines[i * batch_size: i * batch_size + batch_size]# 在main中, 测试调用
if __name__ == '__main__':# 2. 获取生成器对象.my_generator = dataset_loader(13)# 3. 从生成器中获取第 1 批数据.print(next(my_generator))# 从第一批次中, 获取具体的每一条数据.for line in next(my_generator):print(line, end='')print('-' * 31)# 从第二批次中, 获取具体的每一条数据.for line in next(my_generator):print(line, end='')print('-' * 31)# 4. 查看具体的每一批数据.for batch_data in my_generator:print(batch_data)

三、区别与联系

3.1 区别

内存效率：生成器比迭代器更加内存友好。迭代器可能会一次性加载所有数据到内存中，而生成器则是按需生成数据。
使用场景：迭代器通常用于遍历已存在的集合，而生成器则用于生成可能无限大的序列，或者在需要时才计算值的情况。
生命周期：生成器只能被遍历一次，因为它们在每次迭代之后会保留状态，一旦到达序列的末尾就会抛出StopIteration异常并关闭自身。而迭代器理论上可以被多次遍历，尽管实际上许多迭代器设计为只遍历一次。
创建方式：迭代器可以通过实现特定接口来创建，而生成器通常是通过带有yield语句的函数来创建。

3.2 联系

都是迭代协议的实现：无论是迭代器还是生成器，它们都遵循迭代协议，即实现了__iter__和__next__方法。
都可以被迭代：由于生成器本身就是迭代器的一种，所以它们都可以使用for循环或其他迭代机制来访问。
都支持懒加载：两者都支持懒加载模式，即在需要时才生成数据，这对于处理大数据集尤其有用。

总结

总结来说，迭代器和生成器在Python中都是用来处理数据序列的重要工具，它们之间的主要区别在于实现方式和使用场景的不同。

Python进阶————迭代器与生成器

迭代器与生成器

前言

一、迭代器

二、生成器

2.1 创建生成器的两种方式

2.1.1 生成器推导式

2.1.2 yield关键字

2.2 使用生成器生成批次数据

三、区别与联系

3.1 区别

3.2 联系

总结

最新新闻

热搜词

Python进阶————迭代器与生成器

迭代器与生成器

前言

一、迭代器

二、生成器

2.1 创建生成器的两种方式

2.1.1 生成器推导式

2.1.2 yield关键字

2.2 使用生成器 生成批次数据

三、区别与联系

3.1 区别

3.2 联系

总结

最新新闻

热搜词

2.2 使用生成器生成批次数据