岗位职责:
1、负责公司数据源抓取需求,满足公司对多源数据采集要求;
2、负责开发分布式爬虫框架,管理分布式爬虫服务器,开发任务调度引擎;
3、负责爬虫核心算法的策略优化研究,提升爬虫抓取效率和质量,提升网页抓取的效率和质量;
4、设计爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、JS加密等难点攻克;
5、利用主流的大数据相关技术,对抓取后的网页数据进行清洗、存储等;并持续优化平台,以便满足各种爬取业务需求;
6、负责RPA相关开发工作,提升业务能效;
7、负责部分AI(RAG)相关开发工作。
岗位要求:
1、有扎实的数据结构和算法功底;
2、工作认真细致踏实,有较强的学习能力,熟悉常用爬虫工具;
3、熟悉linux开发环境,熟悉python等,熟悉其他开发语言优先;
4、理解http,熟悉html, DOM, xpath,css,js,ajax;
5、有Python分布式抓取系统的开发、架构经验,至少熟悉并使用过一种主流爬虫架构,如Scrapy、Gocolly、Webmagic等;
6、熟悉第三方RPA软件(弘玑、影刀、UiBot等)优先;
7、熟悉RAG流程优先,熟悉AI模型、RAG框架等优先;
8、熟悉反爬策略的应对,能够解决封账号、封IP、验证码、JS加密等问题;
9、熟悉Mysql、Redis、MongoDB等数据库,有过数据库调优和海量数据存储经验者优先。