FCN学习

FCN

语义分割

需要用到边缘信息的时候，我们就要用语义分割；当我们只关注类别的时候，那就是目标检测。语义分割是一种像素级别的分类。

Fully Convolutional Networks for Semantic Segmentation (FCN)把全连接层替换为卷积层，因此被称为“全卷积”网络，这个改变使得网络可以接受任意尺寸的输入

FCN

上采样，损失了一些不重要的信息，保留边缘信息。从而实现了图片输入-图片输出。

Upsampling

下采样与上采样示意如图，上采样实际就是用到了转置卷积（反卷积）来增大输入高宽，这个操作之前的blog提到过。

插值法扩充矩阵，最近邻插值or线性插值。当然，分割问题一般都是最近邻插值。

N是batch_size，C是类别，H是高，W是宽。

跳级连接

像素准确率（pixel accuracy），所有被正确分类的像素数量除以总像素数量。

$n_{ii}$ 表示类别i被正确预测为类别i的像素个数；
$t_i = \sum_j n_{ij}$ 表示真实类别i的总像素个数（即真实标签中类别i的所有像素）；
分子是所有类别中“预测正确”的像素总和，分母是所有真实像素的总和。
特点：计算简单，但会受类别不平衡影响（比如背景像素多的场景，容易虚高）

平均准确率（mean accuracy），对每个类别单独计算“该类别像素的准确率”，再对所有类别取平均。

$n_{cls}$ 是目标类别个数（包含背景）；
先针对每个类别i，计算$\frac{n_{ii}}{t_i}$（类别i的像素被正确预测的比例），再将所有类别结果求平均。
特点：能缓解类别不平衡的影响，更公平地反映每个类别的预测精度。

平均交并比（mean IOU），对每个类别计算“交并比（IOU）”后取平均，IOU是语义分割的核心指标，反映“预测区域与真实区域的重叠程度”。

分子$n_{ii}$是预测和真实都为类别i的像素数（交集）；
分母$t_i + \sum_j n_{ji} - n_{ii}$是预测为类别i的像素数 + 真实为类别i的像素数 - 交集（并集）；
先计算每个类别i的$\frac{交集}{并集}$，再对所有类别取平均。
特点：是语义分割任务中最具说服力的指标，能有效衡量“预测区域的准确性和完整性”。