hotcloud的短文,用超分重建从client传来的低分辨率视频,超分模型部分的idea基本和infocom21,然后扩刊TCC22的那篇一样,就是加一个和视频分析有关的loss。
两个重要设计:
- 用神经网络的方法去预测一个帧和上一个key frame之间的差别,去预测segmentation maps的偏移程度,决定该帧的重要性;
- 在一些金字塔输入结构的网络中,可以省掉下采样的操作,因为传的就是低分辨率视频。
即使超分好用,还是可能出现性能骤降的情况,还是需要一个knob policy去调节清晰度。
文章还提出一些Discussion:
- 神经网络插帧,进一步降低带宽需求(不太现实,相当于要预测物体移动);
- 怎么为基于神经网络的系统兜底;
- video analytics 关注的视频质量指标到底是什么;
- 用视频数据线上学习。