hotcloud的短文,用超分重建从client传来的低分辨率视频,超分模型部分的idea基本和infocom21,然后扩刊TCC22的那篇一样,就是加一个和视频分析有关的loss。

Untitled

两个重要设计:

  1. 用神经网络的方法去预测一个帧和上一个key frame之间的差别,去预测segmentation maps的偏移程度,决定该帧的重要性;

Untitled

  1. 在一些金字塔输入结构的网络中,可以省掉下采样的操作,因为传的就是低分辨率视频。

即使超分好用,还是可能出现性能骤降的情况,还是需要一个knob policy去调节清晰度。

文章还提出一些Discussion:

  1. 神经网络插帧,进一步降低带宽需求(不太现实,相当于要预测物体移动);
  2. 怎么为基于神经网络的系统兜底;
  3. video analytics 关注的视频质量指标到底是什么;
  4. 用视频数据线上学习。