Multi-Objective Congestion Control (EuroSys 22)
这是hkust Kai Chen老师组和北大Xin Jin老师的工作。如果把RL用在拥塞控制里,现有的做法是把算法的优化目标,比如吞吐率,延迟,丢包等作为reward。不同目标对应的权重是预先设置好的,但不同的应用会有不同的目标。这篇论文用了一个多目标的RL算法,除了网络状态之外,把reward的权重也作为RL的状态输入,期待网络能学到根据当前reward权重来选择对现在来说更好的action。reward的权重会随环境变化,计算reward的时候就用当前的权重。用的RL算法是PPO再加了一个entropy项的连续算法,预测下个时间发送速率的变化值。 感觉这个MORL是挺靠谱的,如果实际上训练时候的reward weight pattern不会太影响实际场景的预测的话。拥塞控制对机器资源的要求也没有做资源调度的多,只要有网络就可以在线训练。 离线训练先选几个点训练到收敛,然后找到一条最短路径,以此选择路径上的点对应的权重训练,每个点上的训练不必训练到收敛才去下一个点,而是一直遍历训练直到所有点都收敛。