Server-Driven Video Streaming for Deep Learning Inference

很多video analytics都是client端决定传输质量，为什么需要server driven？一个原因是client端不好估计视频传输质量对推理效果的影响，另一个原因是推理效果在server端可以很直观地给出，这对于视频的补充需求是一个context。另外有些工作也是server driven，但这些早期工作是直接调整视频的质量，但实际上不需要再传视频，只需要提高画质的那部分region就好了。这个分析我是比较认可的，会比其他基于超分或者client端heuristics的工作的上限和稳定性都更好。文章设置了很多人工参数和阈值去决定哪些是需要重传高画质的regions。

Untitled

但这个工作因为需要多轮的resend，delay会超过1秒，如果可以实现0 resend可以降低很多延迟，而且准确率保持一致的话会是一个不错的创新，低延时的server端推理在自动驾驶等领域比较有价值。自然的想法是可不可以在edge端把ROI全部抠出来，然后只传ROI？是不行的，region proposals是由feature maps产生的，而feature maps有需要很多层卷积，在client端做不了。原始视频副本最终肯定会用某种方式保存回server，无论是传输还是人工回收，所以更应该考虑的是对大规模部署camera的信息分析的实时性，和适用的query种类的多样性。另外一篇几乎同时期的文章Video Analytics with Zero-streaming Cameras有这样的思想，之后会看一下。另外这篇文章的作者今年又发了一篇MLsys，从视频编码的角度入手：AccMPEG: Optimizing Video Encoding for Accurate Video Analytics。