摘要
随着人工智能的迅速发展和国民健康意识的提高,图像识别领域的菜品检测备受关注。菜品识别的延伸应用如健康管理系统、餐厅自动结算系统可提高用餐幸福感和社会生产效率。传统的图像处理方法难以快速解决类别多、样本差异大的数据。近年来,深度学习已广泛应用于计算机视觉任务中,因此本文基于深度学习方法研究菜品识别和检测模型,主要研究工作如下: 首先,针对中餐菜品种类丰富且相似度高,且在拍摄过程中因光照、遮挡等原因难以识别菜品的问题,设计了轻量型菜品识别模型IRASNet(Inverse Residual Attention Channel Shuffle Convolutional Network)。使用深度可分离卷积减少卷积过程中的运算量;在逆残差结构中引入通道注意力机制和通道混洗提高网络特征提取能力。实验结果表明,训练时使用随机擦除模拟遮挡影响可提高模型鲁棒性,同时,IRASNet在中餐数据集ChineseFoodNet上准确率达到81.88%,在Food101上准确率达到91.26%。 其次,针对SSD(Single Shot MultiBox Detector)目标检测模型体积大、检测速度慢和很难在计算力弱的平台上实现良好的效果的问题,设计了多尺度轻量型菜品检测模型IRAS_SSDLite,并基于该模型设计了菜品检测可视化系统。SSD主干网络使用轻量型菜品识别IRASNet网络缩减特征提取部分的卷积运算量;将包围框之间的欧氏距离作为惩罚项改进交并比计算方式,对回归损失函数进行相应调整。实验结果表明,在自建的20类中餐数据集ChineseFood中,IRAS_SSDLite检测准确率为97.3%,与SSD相当;每秒可检测105张图像,帧率比SSD模型高129%;模型体积为11.5MB,体积比SSD减少89%。