职位描述
1.负责AI模型训练数据的处理,协助支持公司重点项目的数据管理;
2.根据AI模型及项目相关数据需求,负责数据调研数据需求规划、数据处理工作,协助数据标准建设数据工作管理和执行;
3.负责对海量多模态数据进行采集、清洗、整合和标注,筛选和质量检查,使其满足训练AI模型的要求;
4.负责对图像数据的预处理、标注,进行人工预标注与半自动标注等相关脚本的编写,结合第三方多模态大模型、提示词等对已有训练数据集进行泛化扩充5.综合使用各种数据采集工具,实现对文本、图片视频等多模态数据的抓取、提取、采集;
6.与数据标注团队进行合作,对接、监督外包团队的数据采集、处理及标注质量;
7.参与模型训练效果评估,评测与分析模型效果,对训练数据进行归因分析,并对训练数据进行改进,持续优化数据采集与标注方案,支撑训练效果迭代优化。
岗位要求:
1.本科及以上学历,计算机、自动化、人工智能、软件等相关专业,有数据采集、清洗和AI相关工作经验优先;
2.精通Python、爬虫抓取工具等工具和脚本组件了解市面多模态大模型应用优先;
3.熟悉Linux系统及开发环境,能熟练编写使用脚本如shell、python等;
4.熟悉数据采集、清洗与标注方法和工具,尤其熟练图像数据的采集和标注;
5.熟练掌握网页内容提取、计算机视觉、浏览器自动化和仿真等Python库者优先;
6.具有有AI模型训练数据运营或相关领域经验者优先;
7.对数据敏感,具备良好的逻辑思维能力,优秀的沟通、协调能力,能够和多部门人员合作,具有团队精神以及优秀的问题解决能力。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕