Congestion Control

这是hkust Kai Chen老师组和北大Xin Jin老师的工作。如果把RL用在拥塞控制里，现有的做法是把算法的优化目标，比如吞吐率，延迟，丢包等作为reward。不同目标对应的权重是预先设置好的，但不同的应用会有不同的目标。这篇论文用了一个多目标的RL算法，除了网络状态之外，把reward的权重也作为RL的状态输入，期待网络能学到根据当前reward权重来选择对现在来说更好的action。reward的权重会随环境变化，计算reward的时候就用当前的权重。用的RL算法是PPO再加了一个entropy项的连续算法，预测下个时间发送速率的变化值。感觉这个MORL是挺靠谱的，如果实际上训练时候的reward weight pattern不会太影响实际场景的预测的话。拥塞控制对机器资源的要求也没有做资源调度的多，只要有网络就可以在线训练。离线训练先选几个点训练到收敛，然后找到一条最短路径，以此选择路径上的点对应的权重训练，每个点上的训练不必训练到收敛才去下一个点，而是一直遍历训练直到所有点都收敛。