图片美学评价

见贤思齐 · 发表于 2024-10-7 00:22:25

图片美学评价算法平台背景得物社区动态中有大量图片，那么是否有一种方式来衡量用户发布的图片质量如何呢？图像质量和美学的量化一直是图像处理和计算机视觉中长期存在的问题，虽然技术质量评估涉及测量噪声、模糊、压缩伪像等低级退化，但美学评估量化了与图像中的情感和美感相关的语义级别特征。大多数现有方法仅预测由AVA[1]和TID2013[2]等数据集提供的评分得分。本文介绍一种我们在动态图片打标中用到的基于深度学习模型的方法[3]，该方法与其他方法的区别在于我们使用卷积神经网络预测人类意见得分的分布，同时该方法在架构方面远比其他方案简单得多。01模型结构卷积神经网络（CNN）通常包含以下几种层：卷积层（Convolutional layer），卷积神经网路中每层卷积层由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法优化得到的。卷积运算的目的是提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网络能从低级特征中迭代提取更复杂的特征。线性整流层（Rectified Linear Units layer, ReLU layer），这一层神经的活性化函数（Activation function）使用线性整流（Rectified Linear Units, ReLU）。池化层（Pooling layer），通常在卷积层之后会得到维度很大的特征，将特征切成几个区域，取其最大值或平均值，得到新的、维度较小的特征。全连接层（ Fully-Connected layer）, 把所有局部特征结合变成全局特征，用来计算最后每一类的得分。该方案的模型结构很简单，baseline网络用ImageNet预训练权重，将CNN的最后一层替换为具有10个神经元的全连接层，然后进行softmax激活，在训练的时候，将输入图像缩放为256×256，然后随机提取大小为224×224的裁剪块。训练的目标是预测给定图像的评级分布而不是简单的评分。下面这幅图可以看出预测结果的直方图和真实直方图的比较。可以看出，该模型接近真实的预测了真实平均分数的分布。02损失函数损失函数用来评价模型的预测值和真实值不一样的程度，损失函数越好，通常模型的性能越好。不同的模型用的损失函数一般也不一样。交叉熵损失函数是广泛应用在分类上的损失函数。该损失可以表示为（其中psi表示第i个分数区间的估计概率），以最大化正确标签的预测概率。但是它在有序类别上（例如美学和质量评估），交叉熵没有办法体现出得分之间的内部关系。有人可能会争辩说，有序类可以用实数表示，因此可以通过回归框架来学习。然而，[4]已经证明，对于有序类，分类框架可以胜过回归模型[4]，[4]表明，对类之间具有内在排序的数据集进行训练可以从基于EMD损失中受益，这些损失函数根据类别距离惩罚错误类。对于图像质量等级，类本身按s1

		自动登录	找回密码
密码			会员注册