使用 Python 实现一个简单的图像分类模型（基于卷积神经网络）

2025-06-25 72阅读

在当今的人工智能领域，图像分类是一个非常基础且重要的任务。图像分类的目标是将一张图片归类到预定义的类别中。随着深度学习的发展，卷积神经网络（CNN）已经成为处理图像分类任务的主要工具。

本文将介绍如何使用 Python 和 PyTorch 框架来实现一个简单的图像分类模型。我们将使用经典的 CIFAR-10 数据集，这是一个包含 60,000 张 32x32 彩色图像的数据集，分为 10 个类别：飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。

环境准备

首先，确保你的开发环境中安装了以下库：

Python >= 3.8PyTorchTorchvisionMatplotlib

可以通过以下命令安装所需的库：

pip install torch torchvision matplotlib

数据加载与预处理

PyTorch 提供了 torchvision 库，其中包含了常用的计算机视觉数据集和变换工具。我们可以利用它快速地加载 CIFAR-10 数据集并进行预处理。

import torchimport torchvisionimport torchvision.transforms as transforms# 数据预处理：将像素值归一化到 [-1, 1]transform = transforms.Compose([    transforms.ToTensor(),    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])# 加载训练集和测试集trainset = torchvision.datasets.CIFAR10(root='./data', train=True,                                        download=True, transform=transform)trainloader = torch.utils.data.DataLoader(trainset, batch_size=4,                                          shuffle=True, num_workers=2)testset = torchvision.datasets.CIFAR10(root='./data', train=False,                                       download=True, transform=transform)testloader = torch.utils.data.DataLoader(testset, batch_size=4,                                         shuffle=False, num_workers=2)classes = ('plane', 'car', 'bird', 'cat',           'deer', 'dog', 'frog', 'horse', 'ship', 'truck')

我们使用 transforms.Normalize() 对图像进行了标准化处理，以提高模型的收敛速度。

构建卷积神经网络模型

接下来，我们定义一个简单的 CNN 模型。该模型包括两个卷积层、两个池化层和三个全连接层。

import torch.nn as nnimport torch.nn.functional as Fclass SimpleCNN(nn.Module):    def __init__(self):        super(SimpleCNN, self).__init__()        self.conv1 = nn.Conv2d(3, 6, 5)   # 输入通道3，输出通道6，卷积核大小5x5        self.pool = nn.MaxPool2d(2, 2)    # 最大池化层        self.conv2 = nn.Conv2d(6, 16, 5)  # 第二层卷积        self.fc1 = nn.Linear(16 * 5 * 5, 120)  # 全连接层        self.fc2 = nn.Linear(120, 84)        self.fc3 = nn.Linear(84, 10)    def forward(self, x):        x = self.pool(F.relu(self.conv1(x)))  # 卷积 -> ReLU -> 池化        x = self.pool(F.relu(self.conv2(x)))        x = x.view(-1, 16 * 5 * 5)     # 展平张量        x = F.relu(self.fc1(x))        x = F.relu(self.fc2(x))        x = self.fc3(x)        return xnet = SimpleCNN()

这个模型结构虽然简单，但对于初学者理解 CNN 的基本流程非常有帮助。

定义损失函数和优化器

我们使用交叉熵损失函数（CrossEntropyLoss）和随机梯度下降优化器（SGD）来进行训练。

import torch.optim as optimcriterion = nn.CrossEntropyLoss()optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

训练模型

现在我们开始训练模型。每个 epoch 表示整个训练集被遍历一次。

for epoch in range(2):  # 训练两次完整数据集    running_loss = 0.0    for i, data in enumerate(trainloader, 0):        inputs, labels = data        optimizer.zero_grad()         # 清空梯度        outputs = net(inputs)         # 前向传播        loss = criterion(outputs, labels)  # 计算损失        loss.backward()               # 反向传播        optimizer.step()              # 更新参数        running_loss += loss.item()        if i % 2000 == 1999:    # 每2000个小批量打印一次            print(f'[Epoch {epoch + 1}, Batch {i + 1}] loss: {running_loss / 2000:.3f}')            running_loss = 0.0print('Finished Training')

注意：这里只训练了两个 epoch，实际应用中可以增加到更多轮次以获得更好的性能。

测试模型性能

训练完成后，我们可以在测试集上评估模型的表现。

correct = 0total = 0with torch.no_grad():  # 不需要计算梯度    for data in testloader:        images, labels = data        outputs = net(images)        _, predicted = torch.max(outputs.data, 1)        total += labels.size(0)        correct += (predicted == labels).sum().item()print(f'Accuracy of the network on the 10000 test images: {100 * correct / total:.2f}%')

可视化部分预测结果

为了更直观地查看模型的预测效果，我们可以使用 matplotlib 显示一些测试图像及其预测标签。

import matplotlib.pyplot as pltimport numpy as npdef imshow(img):    img = img / 2 + 0.5     # 反归一化    npimg = img.numpy()    plt.imshow(np.transpose(npimg, (1, 2, 0)))    plt.show()# 获取一批测试图像dataiter = iter(testloader)images, labels = next(dataiter)# 显示图像imshow(torchvision.utils.make_grid(images))# 预测outputs = net(images)_, predicted = torch.max(outputs, 1)# 打印真实标签和预测标签print('GroundTruth: ', ' '.join(f'{classes[labels[j]]}' for j in range(4)))print('Predicted:   ', ' '.join(f'{classes[predicted[j]]}' for j in range(4)))

总结与展望

通过本文的学习，你已经掌握了以下内容：

如何使用 PyTorch 加载图像数据集；如何构建一个简单的卷积神经网络；如何训练和评估模型；如何对模型预测结果进行可视化。

当然，这个模型还有很多改进空间。例如：

使用更复杂的网络结构（如 ResNet、VGG 等）；使用 GPU 进行加速训练；添加数据增强技术提升泛化能力；使用早停法或学习率调度器优化训练过程。

希望这篇文章能够帮助你入门图像分类任务，并激发你对深度学习的兴趣。

如果你有兴趣，也可以尝试使用 TensorFlow/Keras 或者其他框架实现类似的功能，对比不同框架之间的差异与优势。

📌 项目源码可在 GitHub 上托管，方便后续扩展与复用。
示例地址：https://github.com/yourname/image-classifier

参考资料：

PyTorch 官方教程 CIFAR-10 Dataset《深度学习》——Ian Goodfellow 等著

如果你喜欢这类技术文章，欢迎继续关注我的博客，我会持续分享更多人工智能、机器学习和深度学习相关的内容！

免责声明：本文来自网站作者，不代表CIUIC的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：ciuic@ciuic.com