分布式机器学习的梯度同步的通讯调度,先做前向传播的参数考虑先同步。 一个有限制的preemption。 用Bayesian Optimization去搜超参。
Home » PostsA Generic Communication Scheduler for Distributed DNN Training Acceleration (SOSP 19)October 22, 2022 · Yihong Li分布式机器学习的梯度同步的通讯调度,先做前向传播的参数考虑先同步。一个有限制的preemption。用Bayesian Optimization去搜超参。