利用Python和PyTorch处理面向对象的数据集（1）-电子发烧友网

机器学习中一个常见问题是判定与数据交互的最佳方式。

在本文中，我们将提供一种高效方法，用于完成数据的交互、组织以及最终变换（预处理）。随后，我们将讲解如何在训练过程中正确地把数据输入给模型。

PyTorch 框架将帮助我们实现此目标，我们还将从头开始编写几个类。PyTorch 可提供更完整的原生类，但创建我们自己的类可帮助我们加速学习。

第 1 部分：原始数据和数据集

首先我们把尚未经过组织的所有样本称为“原始数据”。

把“数据集”定义为现成可用的数据，即含标签以及基本函数接口（以便于使用原始数据信息）的原始数据。

此处我们使用一种简单的原始数据形式：1 个包含图像和标签的文件夹。

但此方法可扩展至任意性质的样本（可以是图片、录音、视频等）以及包含标签的文件。

标签文件中的每一行都用于描述 1 个样本和相关标签，格式如下：

file_sample_1 label1

file_sample_2 label2

file_sample_3 label3

（。..）

当能够完成一些基本信息查询（已有样本数量、返回特定编号的样本、预处理每个样本等）时，说明我们已从原始数据集创建了 1 个数据集。

此方法基于面向对象编程以及创建用于数据处理的 “类”。

对于一组简单的图像和标签而言，此方法可能看上去略显杀鸡用牛刀（实际上，此用例通常是通过创建分别用于训练、验证和测试的独立文件夹来进行处理的）。但如果要选择标准交互方法，则此方法将来可复用于多种不同用例，以节省时间。

在 Python 中处理数据

在 Python 中所有一切都是对象：整数、列表、字典都是如此。

构建含标准属性和方法的“数据集”对象的原因多种多样。我认为，代码的精致要求就足以合理化这一选择，但我理解这是品味的问题。可移植性、速度和代码模块化可能是最重要的原因。

在许多示例以及编码书籍中，我发现了面向对象的编码（尤以类为甚）的其它有趣的功能和优势，总结如下：

• 类可提供继承

• 继承可提供复用

• 继承可提供数据类型扩展

• 继承支持多态现象

• 继承是面向对象的编码的特有功能

■输入［1］：

import torch

from torchvision import transforms

to_tensor = transforms.ToTensor（）

from collections import namedtuple

import functools

import copy

import csv

from PIL import Image

from matplotlib import pyplot as plt

import numpy as np

import os

import datetime

import torch.optim as optim

在我们的示例中，所有原始样本都存储在文件夹中。此文件夹的地址在 raw_data_path 变量中声明。

■输入［2］：

raw_data_path = ‘。/raw_data/data_images’

构建模块

数据集接口需要一些函数和类。数据集本身就是一个对象，因此我们将创建 MyDataset 类来包含所有重要函数和变量。

首先，我们需要读取标签文件，然后可对样本在其原始格式（此处为 PIL 图像）以及最终的张量格式应用某些变换。

我们需要使用以下函数来读取 1 次标签文件，然后创建包含所有样本名称和标签的元组。

内存中缓存可提升性能，但如果标签文件发生更改，请务必更新缓存内容。

■ 输入［113］：

DataInfoTuple = namedtuple（‘Sample’，‘SampleName， SampleLabel’）

def myFunc（e）：

return e.SampleLabel

# in memory caching decorator： ref https://dbader.org/blog/python-memoization

@functools.lru_cache（1）

def getSampleInfoList（raw_data_path）：

sample_list = ［］

with open（str（raw_data_path） + ‘/labels.txt’， mode = ‘r’） as f：

reader = csv.reader（f， delimiter = ‘ ’）

for i， row in enumerate（reader）：

imgname = row［0］

label = int（row［1］）

sample_list.append（DataInfoTuple（imgname， label））

sample_list.sort（reverse=False， key=myFunc）

# print（“DataInfoTouple： samples list length = {}”.format（len（sample_list）））

return sample_list

如需直接变换 PIL 图像，那么以下类很实用。

该类仅含 1 种方法：resize。resize 方法能够改变 PIL 图像的原始大小，并对其进行重新采样。如需其它预处理（翻转、剪切、旋转等），需在此类种添加方法。

当 PIL 图像完成预处理后，即可将其转换为张量。此外还可对张量执行进一步的处理步骤。

在以下示例种，可以看到这两种变换：

■ 输入［4］：

class PilTransform（）：

“”“generic transformation of a pil image”“”

def resize（self， img， **kwargs）：

img = img.resize（（ kwargs.get（‘width’）， kwargs.get（‘height’））， resample=Image.NEAREST）

return img

# creation of the object pil_transform， having all powers inherited by the class PilTransform

pil_transform = PilTransform（）

以下是类 PilTransform 的实操示例：

■ 输入［5］：

path = raw_data_path + “/img_00000600.JPEG”

print（path）

im1 = Image.open（path， mode=‘r’）

plt.imshow（im1）

。/raw_data/data_images/img_00000600.JPEG

■ 输出［5］：

■ 输入［6］：

im2 = pil_transform.resize（im1， width=128， height=128）

# im2.show（）

plt.imshow（im2）

■ 输出［6］：

最后，我们定义一个类，用于实现与原始数据的交互。

类 MyDataset 主要提供了 2 个方法：

__len__ 可提供原始样本的数量。

__getitem__ 可使对象变为可迭代类型，并按张量格式返回请求的样本（已完成预处理）。

__getitem__ 步骤：

1）打开来自文件的样本。

2）按样本的原始格式对其进行预处理。

3）将样本变换为张量。

4）以张量格式对样本进行预处理。

此处添加的预处理仅作为示例。

此类可对张量进行归一化（求平均值和标准差），这有助于加速训练过程。

请注意，PIL 图像由范围 0-255 内的整数值组成，而张量则为范围 0-1 内的浮点数矩阵。

该类会返回包含两个元素的列表：在位置［0］返回张量，在位置［1］返回包含 SampleName 和 SampleLabel 的命名元组。

■ 输入［109］：

class MyDataset（）：

“”“Interface class to raw data， providing the total number of samples in the dataset and a preprocessed item”“”

def __init__（self，

isValSet_bool = None，

raw_data_path = ‘。/’，

SampleInfoList = DataInfoTuple，norm = False，

resize = False，

newsize = （32， 32）

）：

self.raw_data_path = raw_data_path

self.SampleInfoList = copy.copy（getSampleInfoList（self.raw_data_path））

self.isValSet_bool = isValSet_bool

self.norm = norm

self.resize = resize

self.newsize = newsize

def __str__（self）：

return ‘Path of raw data is ’ + self.raw_data_path + ‘/’ + ‘’

def __len__（self）：

return len（self.SampleInfoList）

def __getitem__（self， ndx）：

SampleInfoList_tup = self.SampleInfoList［ndx］

filepath = self.raw_data_path + ‘/’ + str（SampleInfoList_tup.SampleName）

if os.path.exists（filepath）：

img = Image.open（filepath）

# PIL image preprocess （examples）

#resize

if self.resize：

width， height = img.size

if （width 》= height） & （self.newsize［0］》= self.newsize［1］）：

img = pil_transform.resize（img， width=self.newsize［0］， height=self.newsize［1］）

elif （width 》= height） & （self.newsize［0］《 self.newsize［1］）：

img = pil_transform.resize（img， width=self.newsize［1］， height=self.newsize［0］）

elif （width 《 height） & （self.newsize［0］《= self.newsize［1］）：

img = pil_transform.resize（img， width=self.newsize［0］， height=self.newsize［1］）

elif （width 《 height） & （self.newsize［0］》 self.newsize［1］）：

img = pil_transform.resize（img， width=self.newsize［1］， height=self.newsize［0］）

else：

print（“ERROR”）

# from pil image to tensor

img_t = to_tensor（img）

# tensor preprocess （examples）

#rotation

ratio = img_t.shape［1］/img_t.shape［2］

if ratio 》 1：

img_t = torch.rot90（img_t， 1，［1， 2］）

#normalization requires the knowledge of all tensors

if self.norm：

img_t = normalize（img_t）

#return img_t， SampleInfoList_tup

return img_t， SampleInfoList_tup.SampleLabel

else：

print（‘［WARNING］ file {} does not exist’.format（str（SampleInfoList_tup.SampleName）））

return None

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器学习

机器学习

+关注

关注
66

文章
8411

浏览量
132597
python

python

+关注

关注
56

文章
4795

浏览量
84647
pytorch

pytorch

+关注

关注
2

文章
808

浏览量
13216

利用Arm Kleidi威廉希尔官方网站实现PyTorch优化

PyTorch 是一个广泛应用的开源机器学习 (ML) 库。近年来，Arm 与合作伙伴通力协作，持续改进 PyTorch 的推理性能。本文将详细介绍如何利用 Arm Kleidi 威廉希尔官方网站提升 Arm

发表于 12-23 09:19 •98次阅读

<b class='flag-5'>利用</b>Arm Kleidi威廉希尔官方网站
实现<b class='flag-5'>PyTorch</b>优化

PyTorch 数据加载与处理方法

PyTorch 是一个流行的开源机器学习库，它提供了强大的工具来构建和训练深度学习模型。在构建模型之前，一个重要的步骤是加载和处理数据。 1. Py

发表于 11-05 17:37 •394次阅读

如何在 PyTorch 中训练模型

准备好数据集。PyTorch 提供了 torch.utils.data.Dataset 和 torch.utils.data.DataLoader 两个类来帮助我们加载和批量处理

发表于 11-05 17:36 •327次阅读

pycharm配置pytorch运行环境

在PyCharm中配置PyTorch运行环境主要包括安装PyCharm、安装Python（如果尚未安装）、配置PyTorch环境以及验证安装等步骤。以下是详细的步骤说明：一、安装PyCharm

发表于 08-01 16:25 •1597次阅读

pytorch怎么在pycharm中运行

PyTorch。以下是安装PyTorch的步骤：打开终端或命令提示符。根据你的系统和需求，选择适当的安装命令。例如，如果你使用的是Python 3.8和CUDA 10.2，可以使用以下命令： pip

发表于 08-01 16:22 •1391次阅读

pycharm如何调用pytorch

引言 PyTorch是一个开源的机器学习库，广泛用于计算机视觉、自然语言处理等领域。PyCharm是一个流行的Python集成开发环境（IDE），提供了代码编辑、调试、测试等功能。将PyTor

发表于 08-01 15:41 •593次阅读

pytorch环境搭建详细步骤

了conda、Python等180多个科学包及其依赖项，非常适合用于科学计算（数据科学、机器学习应用、大数据处理

发表于 08-01 15:38 •812次阅读

pytorch和python的关系是什么

在当今的人工智能领域，Python已经成为了最受欢迎的编程语言之一。Python的易学易用、丰富的库和框架以及强大的社区支持，使其成为了数据科学、机器学习和深度学习等领域的首选语言。而在深度学习领域

发表于 08-01 15:27 •1909次阅读

Python建模算法与应用

Python作为一种功能强大、免费、开源且面向对象的编程语言，在科学计算、数学建模、数据分析等领域展现出了卓越的性能。其简洁的语法、对动态输入的支持以及解释性语言的本质，使得

发表于 07-24 10:41 •542次阅读

pytorch如何训练自己的数据

本文将详细介绍如何使用PyTorch框架来训练自己的数据。我们将从数据准备、模型构建、训练过程、评估和测试等方面进行讲解。环境搭建首先，我们需要安装PyTorch。可以通过访问

发表于 07-11 10:04 •524次阅读

PyTorch的介绍与使用案例

PyTorch是一个基于Python的开源机器学习库，它主要面向深度学习和科学计算领域。PyTorch由Meta Platforms（原Facebook）的人工智能研究团队开发，并逐渐

发表于 07-10 14:19 •394次阅读

PyTorch的特性和使用方法

PyTorch是一个开源的Python机器学习库，由Meta Platforms（前身为Facebook）的人工智能研究团队开发，并于2017年1月正式推出。PyTorch基于Torc

发表于 07-02 14:27 •551次阅读

PyTorch如何训练自己的数据集

PyTorch是一个广泛使用的深度学习框架，它以其灵活性、易用性和强大的动态图特性而闻名。在训练深度学习模型时，数据集是不可或缺的组成部分。然而，很多时候，我们可能需要使用自己的数据

发表于 07-02 14:09 •1669次阅读

如何使用PyTorch建立网络模型

PyTorch是一个基于Python的开源机器学习库，因其易用性、灵活性和强大的动态图特性，在深度学习领域得到了广泛应用。本文将从PyTorch的基本概念、网络模型构建、优化方法、实际应用等多个方面，深入探讨使用

发表于 07-02 14:08 •410次阅读

PyTorch与PyCharm的区别

在深入探讨PyTorch与PyCharm的区别时，我们首先需要明确两者在计算机科学和数据科学领域中的不同定位和功能。PyTorch是一个开源的深度学习库，而PyCharm则是一款功能强大

发表于 07-02 12:36 •3028次阅读

搜索历史

利用Python和PyTorch处理面向对象的数据集（1）

评论

利用Arm Kleidi威廉希尔官方网站实现PyTorch优化

PyTorch 数据加载与处理方法

如何在 PyTorch 中训练模型

pycharm配置pytorch运行环境

pytorch怎么在pycharm中运行

pycharm如何调用pytorch

pytorch环境搭建详细步骤

pytorch和python的关系是什么

Python建模算法与应用

pytorch如何训练自己的数据

PyTorch的介绍与使用案例

PyTorch的特性和使用方法

PyTorch如何训练自己的数据集

如何使用PyTorch建立网络模型

PyTorch与PyCharm的区别