辽宁省大连市西岗区胜利路100号9层4号
岗位职责:
1、参与分布式爬虫和数据采集系统的架构设计和开发;
2、负责网络数据抓取规划、清洗以及汇总的开发工作;
3、定期爬取指定网站的数据,为业务部门提供数据支持;
任职要求:
1、计算机相关专业,熟悉多种网站请求方式,有搜索或爬虫技术爱好。
2、计算机相关专业,应届毕业生和实习生。
具有以下经验者优先:
(1)了解搜索和爬虫开源软件(lucene,solr,mathout,firtex,lemur,indri,nutch,haddopmlarbin, QTwebkit)的一种或多种,以及相关原理;
(2)精通网页抓取原理及技术,精通正则表达式,从结构化的和非结构化的数据中获取信息;
(3)具备信息检索、web挖掘等搜索引擎相关知识,有从事网络爬虫、网页去重、网页信息抓取、网页分类中任一种程序开发经验;
(4)熟悉NoSql(MongoDB,Redis,Hbase等),了解大数据,有一定的Hadoop使用经验;
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕