我们正在寻找一位具备大模型基础知识,并精通 C++ 和 Python 的工程师,负责大语言模型(LLM)的微调、优化及 RAG(Retrieval-Augmented Generation)增强。您将参与 LoRA、量化、推理加速等优化工作,并探索高效检索增强生成(RAG)方案,提升模型在长文本理解和知识问答方面的能力。
岗位职责:
1、负责大语言模型(LLM)的微调(Fine-tuning),包括 LoRA、全参数微调等;
2、研究并优化 RAG(检索增强生成)方案,提升模型的上下文理解能力;
3、优化模型推理性能,研究并实现量化技术(如 GPTQ、AWQ);
4、结合 C++ 和 Python 进行高效实现,优化训练和推理流程;
5、参与向量检索、知识库构建及索引优化,如 FAISS、HNSW、Milvus 等;
6、研究并落地高效 RAG 方案,结合分块策略、召回排序、知识蒸馏等提升效果;
7、结合业务需求,推进大模型在智能问答、搜索增强等应用落地。
任职要求:
1、熟悉大模型的基础知识,如 Transformer、注意力机制、参数高效微调(PEFT)等;
2、熟练掌握 C++ 和 Python,有扎实的编程能力和性能优化经验;
3、具备模型微调(Fine-tuning)经验,熟悉 LoRA、Adapter、QLoRA 等技术
4、了解 RAG 相关技术,如向量数据库、检索策略、知识增强等;
5、熟悉 PyTorch 或 TensorFlow,并具备实际项目经验;
6、有模型量化(如 GPTQ、AWQ)的实践经验优先;
7、了解 CUDA、TensorRT、ONNX、Triton 等推理加速工具优先;
8、具备良好的团队合作和沟通能力,能够独立分析和解决问题。
加分项:
1、有开源项目贡献或论文发表
2、熟悉 FlashAttention、Fused Kernel 优化等高效计算库;
3、了解分布式训练(DeepSpeed、FSDP、Megatron-LM);
4、具备检索-生成融合优化(如 Hybrid Search、跨模态检索)的经验。