一、职位描述:
1、负责设计和开发分布式的网络爬虫应用,包括调度、抓取、入库等内容,进行互联网相关信息的抓取和分析
2、负责实现大规模数据的抓取、抽取,去重、分类,垃圾过滤,质量识别、解析入库等工作
3、负责对指定的多个网站进行网页抓取、数据提取、破解反爬策略
4、承接开发任务,需求分析,确保按时按质按量完成任务
5、有良好的沟通和学习能力.有较强的团队协作能力以及快速解决问题的能力。
二、岗位要求:
1、计算机或相关专业、具备3年以上项目开发经验;
2、具有scrapy, scrapy-redis开发经验;
3、具有web逆向经验, 如滑块验证码, 瑞数5代6代
4、熟悉多线程、网络编程,精通网页抓取原理及技术,精通正则表达式;
5、熟悉并熟练应用各种常见加密算法;
6、熟悉至少一种关系型数据库(MySQL等); 熟悉NoSQL redis mongodb;至少熟悉一种mq, 有过数据库调优和海量数据存储经验优先;
7、具有工商数据、金融数据、案件数据抓取经验者优先;
8、有移动平台(iOS,安卓)开发经验优先;