设计与实现电商场景多租户算力资源管理与调度体系(GPU/CPU/内存/网络),支持训练、推理、评测等多场景的容量规划、配额与隔离
优化集群调度与队列策略(优先级、预占/回收、抢占/让渡),提升资源利用率与SLA稳定性
构建适合电商场景的端到端FinOps能力(成本归因、预算控制、用量可视化、成本优化策略),持续降本增效
打造弹性伸缩与自动化恢复能力(自动扩容/缩容、故障域隔离、灰度与回滚、容灾演练)
建设可观测性与治理体系(监控/日志/Tracing/告警/审计),形成容量与性能调优闭环
规划并实现大模型数据平台(原始语料→清洗→标注→去重→采样→版本管理→数据血缘→合规审计),支撑SFT/RLHF/评测等流程
设计高吞吐与低延迟的数据链路与存储方案(对象存储/数据湖/分布式文件系统/缓存),优化IO与数据冷热分层
构建批流一体的ETL/ELT流水线与质量体系(规则校验、异常检测、覆盖率与漂移监控、指标看板)
建设数据安全与合规机制(PII治理、脱敏/加密、访问控制、密钥管理、审计留痕),满足内部与外部合规要求
推进数据资产化(元数据、标签体系、数据/特征版本与复用),提升数据可发现与可复用性