Pandas数据集的分块读取的实现

一、直接用分块方式读取数据集文件（更直接）

分块读取数据集文件是指用read_xxx()方法读取存储数据的文件时采用分块的方式，这里以.csv文件为例，在read_csv()中加入chunksize参数即可实现分块读取：

reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName', 'skillLables'],
                     chunksize=10)

此时，返回的reader不是DataFrame，而是一个可迭代对象（iteration），需要注意的是，这个可迭代对象不能用下标访问。下面遍历这个对象：

for r in reader:
    print(r)

遍历结果如下图所示：

Pandas数据集的分块读取的实现

这种分块读取方式比较直接，但是由于一开始就定义了分块大小，后续处理起来不够灵活。因此提供了第二种读取方法。

这种方法将数据集文件读取为时可迭代对象不定义分块，用分块的方式读取read_csv()方法返回的可迭代对象。实现第一步要在read_csv()方法中指定参数iterator为True：

reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName'],
                    iterator=True)

以下是用分块方式遍历reader，注意使用到的get_chunk()方法和里面的参数，参数定义分块大小，可以灵活调节：

while True:
    try:
        print(reader.get_chunk(10))
    except StopIteration:
        break

综上所述，两种方法都能用pandas实现数据的分块读取，对于数据量较大的数据集还是比较实用的。两种方法的优劣体现在直接性和灵活性上，可以根据实际需求自行选择。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。