深入了解至少一种深度学习编程框架(TensorFlow/Pytorch/其它),对Cuda编程有实战经验的优先
深入理解Transformer架构,熟悉SFT、RLHF、DPO/PPO等训练算法
熟悉DeepSpeed、Megatron-LM等训练框架者优先
熟悉LLM主流推理引擎,如FasterTransformer、vLLM、TRT-LLM、SGLang等
熟悉常见的推理优化方法,如量化、FlashAttention、PD分离等
熟悉各种性能分析工具和profiling方法,有一定的性能优化经验
有影响力的开源项目中做出过核心贡献,或发表过高水平论文
责任心强,积极主动,有良好的沟通能力和团队合作能力