职位描述
职责描述:
1、 对现有爬虫平台进行优化维护,不断总结新的优化思路和方案;
2、 根据业务需要编写分布式爬虫代码,对海量的目标网站编写规则进行抓取,处理常见的反爬问题;
3、 对抓取过来的数据进行初步的格式化与清洗工作;
4、 掌握一定的机器学习技术和AI技术,对现有系统进行智能化改造能有思路并提出建设性意见;
5、 维护爬虫服务器,保证其稳定运行;
6、 对已爬取的数据定期进行巡检工作,保证各渠道源爬取稳定。
任职要求:
1、 有两年以上Python开发团队管理经验,善于沟通,工作积极,态度认真,有主动学习精神;
2、 熟悉常用的开发框架,如Spring、MyBatis等;
3、 熟练掌握Python语言,能够基于Python独立完成功能设计以及编码工作;
4、 精通爬虫相关技术(requests/xpath/scrapy/正则表达式/验证码加密处理/代理池);
5、 熟悉HTTP协议,掌握html/css/js/jquery/ajax等相关知识;
6、 熟悉js加密,了解python常见执行js方法,如pyv8;
7、 掌握常用数据库(如:MySQL,Mongodb)及相应DDL/DML,熟悉索引及常规SQL调优。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕