【AI 进阶笔记】单阶多层检测器：SSD-369IT编程

admin管理员组
文章数量:1033369

【AI 进阶笔记】单阶多层检测器：SSD

一、引子

在咱们的日常生活中，找东西有时也是个“高难度操作”。比如，当你急着找手机时，总会翻箱倒柜；同样，计算机在海量图片中寻找目标也需要聪明的算法。SSD（Single Shot MultiBox Detector）就是这样一个能够“一次过”完成目标定位与分类的高效检测器。它的出现让目标检测的速度和精度都得到了大幅提升，简直就像神探夏洛克一次扫视就能锁定罪犯！而且，相比于两阶段检测器，它省去了繁琐的候选区域生成过程，直接“抛砖引玉”，一举将所有目标同时搞定。

本文将从SSD的设计思路、核心架构、关键技术原理等多方面进行“逐层剥洋葱式”的解析，并通过PyTorch代码示例一步步实现SSD的基本流程。文章力求通俗易懂，避免晦涩的数学公式和复杂的理论推导，让你在轻松愉快的氛围中，感受到计算机视觉的魅力与乐趣。

二、SSD是什么？为什么SSD这么牛？

2.1 什么是SSD？

SSD，全称“Single Shot MultiBox Detector”，顾名思义，“Single Shot”意味着它只需要一次前向传播就能同时完成目标定位和类别预测；而“MultiBox”则暗示了它在不同尺度上会生成多个候选框。相比传统的目标检测方法（比如RCNN系列），SSD的主要优点有以下几点：

速度快：一次前向传播就搞定检测，适合实时应用。
端到端训练：不需要复杂的候选区域生成、特征池化等操作，整体网络可联合优化。
多尺度检测：通过在不同层次上提取特征，实现对大、中、小目标的检测。

2.2 为什么SSD这么牛？

想象一下：如果你正在开发一个自动驾驶系统，需要实时检测路上的行人、车辆等目标，那么速度无疑是头等大事。SSD凭借其高效的设计，可以在不牺牲精度的前提下，实现超快的检测速度。而且它的多尺度特征机制，使得即便目标大小不一，也能保持较好的检测效果。再者，SSD结构简单、易于部署，对于初学者和开发者来说，上手门槛也大大降低。这些优势共同构成了SSD在目标检测领域中的“王牌”地位。

三、SSD的核心思想与设计原理

让我们来深入了解一下SSD背后的设计理念。其实，SSD的设计可以说是集多种智慧于一身，下面我们分步骤来揭开这些神秘面纱。

在这里插入图片描述

3.1 单阶段检测

传统的目标检测算法往往分为两个阶段：第一阶段生成候选区域（Region Proposal），第二阶段对候选区域进行分类与回归。虽然这种方法效果不错，但速度往往较慢。而SSD采用单阶段检测方式，直接在网络的多个特征层上进行预测，省去了候选区域生成这一“中间环节”。就好比你在超市买菜，直接选中货架上的食材，而不是先拿个篮子再挑选，简单快捷多了！

3.2 多层特征融合

在SSD中，设计者巧妙地利用了卷积神经网络（CNN）中不同层次的特征。低层特征具有更高的分辨率，适合检测小目标；高层特征则语义更强，适合检测大目标。SSD在不同尺度上同时进行预测，将各层优势进行有机结合，达到了对各种尺度目标的良好检测效果。想象一下：如果你在用放大镜观察世界，不同的放大倍数会展示不同的细节，SSD正是通过这种“多倍数观察”方式来捕捉目标。

3.3 默认边框（Default Boxes）与匹配策略

SSD为每个特征图的每个位置设计了一组默认边框（也称为锚框或候选框），这些默认边框具有不同的比例和尺度。训练时，每个默认边框会与真实目标进行匹配，匹配策略通常基于IOU（交并比）来衡量相似度。通过这种方式，SSD可以在各个位置上对目标进行定位与分类，并在预测时通过非极大值抑制（NMS）来过滤重复的检测结果。

3.4 损失函数的设计

SSD的损失函数包括两部分：分类损失和位置回归损失。分类损失用来评估预测类别与真实类别之间的差异，而回归损失则用于优化预测框与真实框之间的位置关系。为了平衡正负样本的比例，SSD在训练时还采用了“难例挖掘”策略（Hard Negative Mining），只选择最难分辨的负样本参与训练，从而提高模型的鲁棒性和检测精度。

3.5 网络结构与特征图设计

SSD的网络结构通常基于经典的卷积神经网络（如VGG、ResNet）作为基础特征提取器，之后增加多层卷积层用以生成不同尺度的特征图。每个特征图上都会进行卷积预测，输出默认边框的类别分数和位置偏移量。这种设计既保留了传统网络的优势，又增加了对多尺度目标检测的支持。

四、从理论到实践 —— PyTorch实现SSD

理论说了这么多，不如动手试试！下面我们将用PyTorch实现一个简单的SSD案例，帮助大家更直观地理解SSD的工作流程。整个实现分为以下几个步骤：

构建基础网络：使用预训练的卷积网络作为特征提取器（例如VGG16）。
添加多层检测头：在不同层上分别进行预测，生成默认边框的分类和回归输出。
定义损失函数：包括分类损失和回归损失，同时实现难例挖掘策略。
训练与测试：构建训练循环，逐步调试网络参数，最后在测试集上进行评估。

下面我们从代码层面逐步实现这些步骤，同时在每一部分详细讲解其原理。

4.1 构建基础网络

首先，我们需要加载一个预训练的VGG16网络，并去掉最后的全连接层，只保留卷积部分作为特征提取器。我们可以通过PyTorch的torchvision.models来快速加载预训练模型。

代码语言：python代码运行次数：0运行复制

import torch
import torch.nn as nn
import torchvision.models as models

class VGGBase(nn.Module):
    def __init__(self):
        super(VGGBase, self).__init__()
        # 加载预训练的VGG16模型
        vgg = models.vgg16(pretrained=True)
        # 只保留卷积层部分
        self.features = vgg.features
        
    def forward(self, x):
        x = self.features(x)
        return x

# 测试一下基础网络
if __name__ == "__main__":
    model = VGGBase()
    sample_input = torch.randn(1, 3, 300, 300)  # 假设输入图像大小为300x300
    features = model(sample_input)
    print("特征图尺寸:", features.size())

这段代码简单地构建了一个基于VGG16的特征提取网络。注意，这里输入图像尺寸固定为300×300，这是因为SSD论文中常用的输入尺寸之一，方便后续多尺度特征图的构造。

4.2 添加多层检测头

在SSD中，我们需要在多个不同尺度的特征图上进行检测。一般来说，我们会从基础网络中提取一部分特征，然后在其基础上添加额外的卷积层，以生成更多尺度的特征图。每个特征图上都会生成一系列默认边框的预测。

下面是一个简单的多层检测头的实现示例：

代码语言：python代码运行次数：0运行复制

class ExtraLayers(nn.Module):
    def __init__(self):
        super(ExtraLayers, self).__init__()
        # 增加一些额外的卷积层来生成不同尺度的特征图
        self.layer1 = nn.Sequential(
            nn.Conv2d(512, 256, kernel_size=1, stride=1, padding=0),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 512, kernel_size=3, stride=2, padding=1),
            nn.ReLU(inplace=True)
        )
        self.layer2 = nn.Sequential(
            nn.Conv2d(512, 128, kernel_size=1, stride=1, padding=0),
            nn.ReLU(inplace=True),
            nn.Conv2d(128, 256, kernel_size=3, stride=2, padding=1),
            nn.ReLU(inplace=True)
        )
        
    def forward(self, x):
        # x为VGGBase输出的特征图
        out1 = self.layer1(x)
        out2 = self.layer2(out1)
        return [x, out1, out2]  # 返回不同尺度的特征图

# 测试额外层
if __name__ == "__main__":
    vgg = VGGBase()
    extra = ExtraLayers()
    sample_input = torch.randn(1, 3, 300, 300)
    features = vgg(sample_input)
    multi_scale_features = extra(features)
    for i, feat in enumerate(multi_scale_features):
        print(f"第{i}个特征图尺寸: {feat.size()}")

在这段代码中，我们定义了两个额外的卷积层模块，分别生成了不同尺度的特征图。这样设计的好处在于，每个特征图都有不同的分辨率，可以对不同大小的目标进行检测。

4.3 构建检测头

接下来，我们需要在每个特征图上进行检测。对于每个位置，我们要预测默认边框的类别（例如，背景、行人、汽车等）和位置偏移量。为了实现这一点，我们为每个特征图定义一个检测头模块。假设每个位置生成k个默认边框，则每个检测头输出的通道数为：

分类输出：k * (num_classes)
回归输出：k * 4（4表示边框的4个坐标偏移量）

下面是一个简单的检测头实现示例：

代码语言：python代码运行次数：0运行复制

class DetectionHead(nn.Module):
    def __init__(self, in_channels, num_defaults, num_classes):
        super(DetectionHead, self).__init__()
        self.num_defaults = num_defaults
        self.num_classes = num_classes
        # 分类卷积层
        self.cls_conv = nn.Conv2d(in_channels, num_defaults * num_classes, kernel_size=3, padding=1)
        # 回归卷积层
        self.reg_conv = nn.Conv2d(in_channels, num_defaults * 4, kernel_size=3, padding=1)
        
    def forward(self, x):
        cls_output = self.cls_conv(x)
        reg_output = self.reg_conv(x)
        # 进行适当的尺寸变换
        # 例如，将输出reshape为(batch_size, -1, num_classes)和(batch_size, -1, 4)
        batch_size = x.size(0)
        cls_output = cls_output.permute(0, 2, 3, 1).contiguous()
        cls_output = cls_output.view(batch_size, -1, self.num_classes)
        
        reg_output = reg_output.permute(0, 2, 3, 1).contiguous()
        reg_output = reg_output.view(batch_size, -1, 4)
        return cls_output, reg_output

# 测试检测头
if __name__ == "__main__":
    detection_head = DetectionHead(in_channels=512, num_defaults=4, num_classes=21)
    sample_feat = torch.randn(1, 512, 38, 38)  # 假设一个特征图的尺寸
    cls_out, reg_out = detection_head(sample_feat)
    print("分类输出尺寸:", cls_out.size())  # 应该是(1, 38*38*4, 21)
    print("回归输出尺寸:", reg_out.size())  # 应该是(1, 38*38*4, 4)

这段代码展示了如何在单个特征图上生成检测结果。通过对输出进行reshape，我们就能将每个位置的预测组合起来，形成一个完整的检测结果列表。

4.4 整体SSD网络

将上述各部分组合起来，就构成了完整的SSD网络。整个网络流程大致如下：

输入图像经过基础网络（如VGGBase）提取初始特征。
额外层对基础特征进行进一步处理，生成多尺度特征图。
每个特征图通过各自的检测头，生成分类和回归输出。
最后将所有特征图的输出进行拼接，构成最终的预测结果。

下面给出一个简化的整体SSD网络示例：

代码语言：python代码运行次数：0运行复制

class SSD(nn.Module):
    def __init__(self, num_classes=21):
        super(SSD, self).__init__()
        self.num_classes = num_classes
        self.vgg = VGGBase()
        self.extra = ExtraLayers()
        # 假设我们对每个特征图使用相同的默认边框数量（这里简化为4）
        self.default_nums = [4, 4, 4]  # 对应于每个特征图
        # 为每个特征图构建检测头
        self.detection_heads = nn.ModuleList([
            DetectionHead(in_channels=512, num_defaults=self.default_nums[0], num_classes=num_classes),  # 第一个特征图（来自VGGBase）
            DetectionHead(in_channels=512, num_defaults=self.default_nums[1], num_classes=num_classes),  # 第二个特征图
            DetectionHead(in_channels=256, num_defaults=self.default_nums[2], num_classes=num_classes)   # 第三个特征图
        ])
        
    def forward(self, x):
        features = self.vgg(x)
        multi_scale_features = self.extra(features)
        all_cls_outputs = []
        all_reg_outputs = []
        # 遍历所有特征图及对应的检测头
        for feat, head in zip(multi_scale_features, self.detection_heads):
            cls_out, reg_out = head(feat)
            all_cls_outputs.append(cls_out)
            all_reg_outputs.append(reg_out)
        # 拼接所有特征图的输出
        cls_output = torch.cat(all_cls_outputs, dim=1)
        reg_output = torch.cat(all_reg_outputs, dim=1)
        return cls_output, reg_output

# 测试整体SSD网络
if __name__ == "__main__":
    model = SSD(num_classes=21)
    sample_input = torch.randn(1, 3, 300, 300)
    cls_preds, reg_preds = model(sample_input)
    print("最终分类预测尺寸:", cls_preds.size())
    print("最终回归预测尺寸:", reg_preds.size())

这样，一个简化版的SSD网络就完成了！通过这段代码，我们可以看到如何将不同层的特征图融合到一起，并对每个特征图进行目标检测的预测。

4.5 损失函数的构造与难例挖掘

在SSD的训练过程中，损失函数是至关重要的一环。它由两部分组成：

分类损失：通常使用交叉熵损失来度量预测类别与真实类别之间的误差。
回归损失：通常使用平滑L1损失（Smooth L1 Loss）来度量预测框与真实框之间的差异。

此外，为了避免负样本过多对训练的干扰，SSD采用了难例挖掘（Hard Negative Mining）策略。基本思路是：先计算所有负样本的分类损失，然后只选择那些损失较大的负样本参与反向传播，保证训练的平衡性。

下面是一个简化的损失函数实现示例：

代码语言：python代码运行次数：0运行复制

import torch.nn.functional as F

class SSDLoss(nn.Module):
    def __init__(self, neg_pos_ratio=3):
        super(SSDLoss, self).__init__()
        self.neg_pos_ratio = neg_pos_ratio
        
    def forward(self, cls_preds, reg_preds, cls_targets, reg_targets):
        # cls_preds: (batch_size, num_boxes, num_classes)
        # reg_preds: (batch_size, num_boxes, 4)
        # cls_targets: (batch_size, num_boxes)
        # reg_targets: (batch_size, num_boxes, 4)
        
        # 分类损失
        batch_size = cls_preds.size(0)
        num_boxes = cls_preds.size(1)
        
        # 计算交叉熵损失
        cls_loss = F.cross_entropy(cls_preds.view(-1, cls_preds.size(-1)), cls_targets.view(-1), reduction='none')
        cls_loss = cls_loss.view(batch_size, num_boxes)
        
        # 找出正样本位置（正样本类别不为背景，假设背景类别为0）
        pos_mask = cls_targets > 0
        num_pos = pos_mask.sum(dim=1, keepdim=True)
        
        # 对于负样本，进行难例挖掘
        cls_loss_neg = cls_loss.clone()
        cls_loss_neg[pos_mask] = 0  # 将正样本损失置零
        # 排序后取前neg_pos_ratio * num_pos个负样本
        _, idx = cls_loss_neg.sort(dim=1, descending=True)
        _, rank = idx.sort(dim=1)
        neg_mask = rank < self.neg_pos_ratio * num_pos
        
        # 最终分类损失
        cls_loss_final = (cls_loss[pos_mask].sum() + cls_loss[neg_mask].sum()) / num_pos.sum().float()
        
        # 回归损失：只在正样本上计算
        reg_loss = F.smooth_l1_loss(reg_preds[pos_mask], reg_targets[pos_mask], reduction='sum')
        reg_loss = reg_loss / num_pos.sum().float()
        
        total_loss = cls_loss_final + reg_loss
        return total_loss

# 示例：假设有虚拟数据计算损失
if __name__ == "__main__":
    loss_fn = SSDLoss(neg_pos_ratio=3)
    # 假设cls_preds为(1, 8732, 21)的随机预测（这里8732代表默认边框总数）
    cls_preds = torch.randn(1, 8732, 21)
    reg_preds = torch.randn(1, 8732, 4)
    # 假设cls_targets和reg_targets为随机标签（仅作示例，不代表真实情况）
    cls_targets = torch.randint(0, 21, (1, 8732))
    reg_targets = torch.randn(1, 8732, 4)
    loss = loss_fn(cls_preds, reg_preds, cls_targets, reg_targets)
    print("计算得到的损失:", loss.item())

这段代码展示了如何构造一个简化版的SSD损失函数，并引入了难例挖掘策略。注意，实际训练中可能需要更精细的正负样本匹配机制，但这里的示例足以说明基本原理。

【AI 进阶笔记】单阶多层检测器：SSD

一、引子

二、SSD是什么？为什么SSD这么牛？

2.1 什么是SSD？

速度快：一次前向传播就搞定检测，适合实时应用。
端到端训练：不需要复杂的候选区域生成、特征池化等操作，整体网络可联合优化。
多尺度检测：通过在不同层次上提取特征，实现对大、中、小目标的检测。

2.2 为什么SSD这么牛？

三、SSD的核心思想与设计原理

让我们来深入了解一下SSD背后的设计理念。其实，SSD的设计可以说是集多种智慧于一身，下面我们分步骤来揭开这些神秘面纱。

在这里插入图片描述

3.1 单阶段检测

3.2 多层特征融合

3.3 默认边框（Default Boxes）与匹配策略

3.4 损失函数的设计

3.5 网络结构与特征图设计

四、从理论到实践 —— PyTorch实现SSD

理论说了这么多，不如动手试试！下面我们将用PyTorch实现一个简单的SSD案例，帮助大家更直观地理解SSD的工作流程。整个实现分为以下几个步骤：

构建基础网络：使用预训练的卷积网络作为特征提取器（例如VGG16）。
添加多层检测头：在不同层上分别进行预测，生成默认边框的分类和回归输出。
定义损失函数：包括分类损失和回归损失，同时实现难例挖掘策略。
训练与测试：构建训练循环，逐步调试网络参数，最后在测试集上进行评估。

下面我们从代码层面逐步实现这些步骤，同时在每一部分详细讲解其原理。

4.1 构建基础网络

代码语言：python代码运行次数：0运行复制

import torch
import torch.nn as nn
import torchvision.models as models

class VGGBase(nn.Module):
    def __init__(self):
        super(VGGBase, self).__init__()
        # 加载预训练的VGG16模型
        vgg = models.vgg16(pretrained=True)
        # 只保留卷积层部分
        self.features = vgg.features
        
    def forward(self, x):
        x = self.features(x)
        return x

# 测试一下基础网络
if __name__ == "__main__":
    model = VGGBase()
    sample_input = torch.randn(1, 3, 300, 300)  # 假设输入图像大小为300x300
    features = model(sample_input)
    print("特征图尺寸:", features.size())

4.2 添加多层检测头

下面是一个简单的多层检测头的实现示例：

代码语言：python代码运行次数：0运行复制

class ExtraLayers(nn.Module):
    def __init__(self):
        super(ExtraLayers, self).__init__()
        # 增加一些额外的卷积层来生成不同尺度的特征图
        self.layer1 = nn.Sequential(
            nn.Conv2d(512, 256, kernel_size=1, stride=1, padding=0),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 512, kernel_size=3, stride=2, padding=1),
            nn.ReLU(inplace=True)
        )
        self.layer2 = nn.Sequential(
            nn.Conv2d(512, 128, kernel_size=1, stride=1, padding=0),
            nn.ReLU(inplace=True),
            nn.Conv2d(128, 256, kernel_size=3, stride=2, padding=1),
            nn.ReLU(inplace=True)
        )
        
    def forward(self, x):
        # x为VGGBase输出的特征图
        out1 = self.layer1(x)
        out2 = self.layer2(out1)
        return [x, out1, out2]  # 返回不同尺度的特征图

# 测试额外层
if __name__ == "__main__":
    vgg = VGGBase()
    extra = ExtraLayers()
    sample_input = torch.randn(1, 3, 300, 300)
    features = vgg(sample_input)
    multi_scale_features = extra(features)
    for i, feat in enumerate(multi_scale_features):
        print(f"第{i}个特征图尺寸: {feat.size()}")

4.3 构建检测头

分类输出：k * (num_classes)
回归输出：k * 4（4表示边框的4个坐标偏移量）

下面是一个简单的检测头实现示例：

代码语言：python代码运行次数：0运行复制

class DetectionHead(nn.Module):
    def __init__(self, in_channels, num_defaults, num_classes):
        super(DetectionHead, self).__init__()
        self.num_defaults = num_defaults
        self.num_classes = num_classes
        # 分类卷积层
        self.cls_conv = nn.Conv2d(in_channels, num_defaults * num_classes, kernel_size=3, padding=1)
        # 回归卷积层
        self.reg_conv = nn.Conv2d(in_channels, num_defaults * 4, kernel_size=3, padding=1)
        
    def forward(self, x):
        cls_output = self.cls_conv(x)
        reg_output = self.reg_conv(x)
        # 进行适当的尺寸变换
        # 例如，将输出reshape为(batch_size, -1, num_classes)和(batch_size, -1, 4)
        batch_size = x.size(0)
        cls_output = cls_output.permute(0, 2, 3, 1).contiguous()
        cls_output = cls_output.view(batch_size, -1, self.num_classes)
        
        reg_output = reg_output.permute(0, 2, 3, 1).contiguous()
        reg_output = reg_output.view(batch_size, -1, 4)
        return cls_output, reg_output

# 测试检测头
if __name__ == "__main__":
    detection_head = DetectionHead(in_channels=512, num_defaults=4, num_classes=21)
    sample_feat = torch.randn(1, 512, 38, 38)  # 假设一个特征图的尺寸
    cls_out, reg_out = detection_head(sample_feat)
    print("分类输出尺寸:", cls_out.size())  # 应该是(1, 38*38*4, 21)
    print("回归输出尺寸:", reg_out.size())  # 应该是(1, 38*38*4, 4)

这段代码展示了如何在单个特征图上生成检测结果。通过对输出进行reshape，我们就能将每个位置的预测组合起来，形成一个完整的检测结果列表。

4.4 整体SSD网络

将上述各部分组合起来，就构成了完整的SSD网络。整个网络流程大致如下：

输入图像经过基础网络（如VGGBase）提取初始特征。
额外层对基础特征进行进一步处理，生成多尺度特征图。
每个特征图通过各自的检测头，生成分类和回归输出。
最后将所有特征图的输出进行拼接，构成最终的预测结果。

下面给出一个简化的整体SSD网络示例：

代码语言：python代码运行次数：0运行复制

class SSD(nn.Module):
    def __init__(self, num_classes=21):
        super(SSD, self).__init__()
        self.num_classes = num_classes
        self.vgg = VGGBase()
        self.extra = ExtraLayers()
        # 假设我们对每个特征图使用相同的默认边框数量（这里简化为4）
        self.default_nums = [4, 4, 4]  # 对应于每个特征图
        # 为每个特征图构建检测头
        self.detection_heads = nn.ModuleList([
            DetectionHead(in_channels=512, num_defaults=self.default_nums[0], num_classes=num_classes),  # 第一个特征图（来自VGGBase）
            DetectionHead(in_channels=512, num_defaults=self.default_nums[1], num_classes=num_classes),  # 第二个特征图
            DetectionHead(in_channels=256, num_defaults=self.default_nums[2], num_classes=num_classes)   # 第三个特征图
        ])
        
    def forward(self, x):
        features = self.vgg(x)
        multi_scale_features = self.extra(features)
        all_cls_outputs = []
        all_reg_outputs = []
        # 遍历所有特征图及对应的检测头
        for feat, head in zip(multi_scale_features, self.detection_heads):
            cls_out, reg_out = head(feat)
            all_cls_outputs.append(cls_out)
            all_reg_outputs.append(reg_out)
        # 拼接所有特征图的输出
        cls_output = torch.cat(all_cls_outputs, dim=1)
        reg_output = torch.cat(all_reg_outputs, dim=1)
        return cls_output, reg_output

# 测试整体SSD网络
if __name__ == "__main__":
    model = SSD(num_classes=21)
    sample_input = torch.randn(1, 3, 300, 300)
    cls_preds, reg_preds = model(sample_input)
    print("最终分类预测尺寸:", cls_preds.size())
    print("最终回归预测尺寸:", reg_preds.size())

这样，一个简化版的SSD网络就完成了！通过这段代码，我们可以看到如何将不同层的特征图融合到一起，并对每个特征图进行目标检测的预测。

4.5 损失函数的构造与难例挖掘

在SSD的训练过程中，损失函数是至关重要的一环。它由两部分组成：

分类损失：通常使用交叉熵损失来度量预测类别与真实类别之间的误差。
回归损失：通常使用平滑L1损失（Smooth L1 Loss）来度量预测框与真实框之间的差异。

下面是一个简化的损失函数实现示例：

代码语言：python代码运行次数：0运行复制

import torch.nn.functional as F

class SSDLoss(nn.Module):
    def __init__(self, neg_pos_ratio=3):
        super(SSDLoss, self).__init__()
        self.neg_pos_ratio = neg_pos_ratio
        
    def forward(self, cls_preds, reg_preds, cls_targets, reg_targets):
        # cls_preds: (batch_size, num_boxes, num_classes)
        # reg_preds: (batch_size, num_boxes, 4)
        # cls_targets: (batch_size, num_boxes)
        # reg_targets: (batch_size, num_boxes, 4)
        
        # 分类损失
        batch_size = cls_preds.size(0)
        num_boxes = cls_preds.size(1)
        
        # 计算交叉熵损失
        cls_loss = F.cross_entropy(cls_preds.view(-1, cls_preds.size(-1)), cls_targets.view(-1), reduction='none')
        cls_loss = cls_loss.view(batch_size, num_boxes)
        
        # 找出正样本位置（正样本类别不为背景，假设背景类别为0）
        pos_mask = cls_targets > 0
        num_pos = pos_mask.sum(dim=1, keepdim=True)
        
        # 对于负样本，进行难例挖掘
        cls_loss_neg = cls_loss.clone()
        cls_loss_neg[pos_mask] = 0  # 将正样本损失置零
        # 排序后取前neg_pos_ratio * num_pos个负样本
        _, idx = cls_loss_neg.sort(dim=1, descending=True)
        _, rank = idx.sort(dim=1)
        neg_mask = rank < self.neg_pos_ratio * num_pos
        
        # 最终分类损失
        cls_loss_final = (cls_loss[pos_mask].sum() + cls_loss[neg_mask].sum()) / num_pos.sum().float()
        
        # 回归损失：只在正样本上计算
        reg_loss = F.smooth_l1_loss(reg_preds[pos_mask], reg_targets[pos_mask], reduction='sum')
        reg_loss = reg_loss / num_pos.sum().float()
        
        total_loss = cls_loss_final + reg_loss
        return total_loss

# 示例：假设有虚拟数据计算损失
if __name__ == "__main__":
    loss_fn = SSDLoss(neg_pos_ratio=3)
    # 假设cls_preds为(1, 8732, 21)的随机预测（这里8732代表默认边框总数）
    cls_preds = torch.randn(1, 8732, 21)
    reg_preds = torch.randn(1, 8732, 4)
    # 假设cls_targets和reg_targets为随机标签（仅作示例，不代表真实情况）
    cls_targets = torch.randint(0, 21, (1, 8732))
    reg_targets = torch.randn(1, 8732, 4)
    loss = loss_fn(cls_preds, reg_preds, cls_targets, reg_targets)
    print("计算得到的损失:", loss.item())

本文标签： AI 进阶笔记单阶多层检测器SSD

版权声明：本文标题：【AI 进阶笔记】单阶多层检测器：SSD 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://it.en369.cn/jiaocheng/1748035641a2244674.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

【AI 进阶笔记】单阶多层检测器：SSD

【AI 进阶笔记】单阶多层检测器：SSD

一、引子

二、SSD是什么？为什么SSD这么牛？

2.1 什么是SSD？

2.2 为什么SSD这么牛？

三、SSD的核心思想与设计原理

3.1 单阶段检测

3.2 多层特征融合

3.3 默认边框（Default Boxes）与匹配策略

3.4 损失函数的设计

3.5 网络结构与特征图设计

四、从理论到实践 —— PyTorch实现SSD

4.1 构建基础网络

4.2 添加多层检测头

4.3 构建检测头

4.4 整体SSD网络

4.5 损失函数的构造与难例挖掘

【AI 进阶笔记】单阶多层检测器：SSD

一、引子

二、SSD是什么？为什么SSD这么牛？

2.1 什么是SSD？

2.2 为什么SSD这么牛？

三、SSD的核心思想与设计原理

3.1 单阶段检测

3.2 多层特征融合

3.3 默认边框（Default Boxes）与匹配策略

3.4 损失函数的设计

3.5 网络结构与特征图设计

四、从理论到实践 —— PyTorch实现SSD

4.1 构建基础网络

4.2 添加多层检测头

4.3 构建检测头

4.4 整体SSD网络

4.5 损失函数的构造与难例挖掘

更多相关文章

【AI 进阶笔记】单阶多层检测器：SSD

发表评论

推荐文章

PyMC+AI提示词贝叶斯项目反应IRT理论Rasch分析篮球比赛官方数据：球员能力与位置层级结构研究

智谱 GLM 新成员开源：高性能、推理快，体验入口“z.ai”免费开放

生成式人工智能认证（GAI认证）如何推动就业市场的创新？

Spring Cloud 配置application.yml与bootstrap.yml快速入门

C#中通过API实现的打印类

热门文章

AI也要007？Letta、伯克利提出「睡眠时间计算」，推理效率翻倍还不加钱

安装YLMF OS 5.0

【任务分配】基于matlab拍卖算法多智能体系统动态分散任务分配【含Matlab源码 MLZ011期】

强烈推荐！一个可以把文本生成漂亮图表的AI做图神器

Cosmos

别再瞎摸索！一文吃透小程序开发性能优化，速度提升500%

YashanDB多模数据融合探索：一套架构搞定“结构化+非结构化+AI向量”管理?

5G到底有多牛？一文看懂它的原理与优势！

如何检测和解决I2C通信死锁

聊聊Spring AI的Chat Model

最新文章

【HarmonyOS Next之旅】DevEco Studio使用指南(九)

深入解析：HarmonyOS Design设计语言的核心理念

探索Ark

深度挖掘NLP模型，垂直行业应用的“点金术”

【Linux】进程信号的发送和保存

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow