一、岗位职责
1、基于内部采集框架,熟悉采集架构,熟悉开源数据采集程序方法策略,设计采集策略和防屏蔽规则,提升开源数据采集效率和质量,能够进行论坛、网站等平台信息的抓取和分析
2、深入了解采集平台数据获取逻辑,完成数据采集、解析处理、数据入库等数据日常工作,完成数据采集规则编写和维护
3、把握开源数据采集核心技术研究方向,研究优化平台,提升采集程序的稳定性、可扩展性,支撑相关单位的数据需求
二、任职要求
1、具备良好的计算机专业只是,有开源数据采集项目经验
2、熟悉开源数据采集原理,负责或参与过日采集数据量过十万规模的采集系统
3、熟悉scrapy、webmagic、spider-flow等开源数据采集框架
4、有较强的逆袭和解决问题能力,具备良好的沟通和团队写作能力
5、特别优秀人才,学历可放宽至本科。
三、加分项
1、熟悉go语言,能够使用golang开发应用