1.面向GPU和高性能网络设计分布式训练架构,通过样本IO优化、计算图编译与执行、多维度并行优化等手段,支持千亿及万亿以上参数模型在上万张GPU集群高效稳定训练
2.通过量化、剪枝、蒸馏等模型压缩方法,在保证精度要求的情况下,实现不同参数规模的模型推理性能优化,构建高性能推理服务
3.通过手工优化方法,对特化模型子结构和硬件设备上实现SOTA性能,面向多种硬件架构实现高性能算子。
熟悉TensorFlow/PyTorch等深度框架代码的优先;
熟悉TVM/MLIR等编译优化技术的优先;
熟悉GPU、NPU硬件架构,熟练使用CUDA,NCCL,RDMA编程的优先;
有分布式系统、高性能计算实际项目经验的优先;
【网申通道】campus.meituan.com
内推码:AGLPFN4