职位描述
一、工作职责:
1. 基于开源以及采集得到的数据进行清洗,包括但不限于数据内容抽取、质量分类、数据去重、数据合成等。通过对清洗流程持续优化,来提升预训练数据的质量。
2. 对训练数据进行分类,对各类数据建立质量评估体系,监督各类数据的清洗效果。
3. 解决预训练数据内容合规、反毒性、反偏见等安全性问题。
二、岗位要求:
1. 计算机、电子、数学、自动化等相关专业,硕士及以上学历优先。
2. 有NLP方向工作经验。有大模型数据清洗、预训练、指令微调实战经历者优先。
3. 精通Python、Linux等语言,熟悉多线程/多进程编程,熟悉Spark等大数据工具。熟悉Megatron-LM、Deepspeed等机器学习框架优先。
4. 良好的沟通技巧和团队合作精神。
5. 善于学习新事物,渴望用技术改变未来。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕