工作职责:
1.配置火车头采集任务,从互联网采集数据并入库,涉及数据种类包含但不限于新闻/论坛/博客等。
2.维护火车头采集脚本,保证站点架构变动后数据的正常采集。
3.搜集站点以及评测站点的可采集性,依据客户及产品需求。
4.设计采集源数据库(MySQL/Oracle),对数据清洗关联及简单分析,包含建表/存储过程/触发器/事件等。
5.日常监测数据采集相应服务的正常运行。
6.编码采集网站内容。
任职要求:
1.熟练使用火车头采集器。
2.熟悉html标签。
3.熟悉javascript相关内容。
4.熟练使用json数据解析以及提取。
5.熟练使用xpath,正则表达式等提取内容。
6.熟悉http协议。
7.熟练使用mysql或者oracle数据库。
8.至少会java或者python其中一门语言。
9.了解数据采集原理以及代理等。