NLP策略研发:参与搜索/推荐场景下的NLP基础算法研发,包括语义理解、意图识别及大模型(LLM)的 Prompt Engineering 和 SFT 调优
模型压缩与加速:研究并实践轻量化技术,利用蒸馏(Distillation)、量化(Quantization)、剪枝(Pruning)等手段优化模型,提升在线推理效率
在线化部署开发:负责大模型及深度学习模型的高性能服务化部署(Inference Server),编写并维护高并发、低延迟的算法接口
前沿技术落地:跟踪工业界最新的模型推理框架(如 TensorRT, vLLM, DeepSpeed-Inference 等)并进行选型与复现,确保策略能稳定转化为业务价值