职位描述
岗位职责:
1.负责设计并实施分布式数据平台架构,优化数据存储、处理和分析流程。参与大数据平台产品的规划、设计、开发和迭代,提升平台的稳定性、可扩展性和易用性。
2.基于Hadoop、Spark、Flink等大数据处理框架,设计并实现高效的海量数据模型,确保数据的高效存储与访问。负责数据开发流程,包括数据清洗、转换、加载及数据治理工作,以满足业务对数据的高并发访问需求。
3.利用开源框架进行大数据的采集工作,确保数据的完整性、准确性和及时性。进行深度数据分析,挖掘数据价值,为业务决策提供数据支持。整理分析结果,形成清晰、易于理解的报告或可视化展示。
4.针对大数据处理过程中的性能瓶颈,进行调优和故障排查。利用Hadoop、Spark、Flink等技术的特性,优化资源配置和作业调度,提高数据处理效率。
5.关注大数据领域的新技术、新趋势,探索其在业务中的应用可能性,推动技术升级和创新。
任职要求:
1.拥有5年或以上大数据开发经验,其中至少3年专注于大数据架构设计与实现。具备扎实的大数据理论基础和实践经验,能够独立完成复杂的大数据项目。
2.具备丰富的大数据架构设计经验,能够根据业务需求设计高可用、可扩展的大数据平台架构。熟悉分布式系统原理,能够设计并实施分布式数据存储和处理方案。能够评估新技术在大数据平台上的应用潜力,并进行技术选型与集成。
3.熟练掌握Hadoop、Spark、Flink等大数据核心技术,能够针对不同量级的数据量进行配置调优和组件维护。熟悉Hbase、Hdfs、MapReduce、Yarn、Zookeeper、Hive、Kafka等大数据生态系统中的关键组件,能够阅读并理解源码,解决复杂问题。了解并能应用NoSQL数据库(如MongoDB、Cassandra等)以及实时数据流处理技术(如Storm、Samza等)。
4.具备丰富的海量数据性能处理经验,能够基于Hive和MySQL进行SQL优化,提升查询效率。熟悉数据分区、索引、缓存等策略,能够设计并实施有效的数据预处理和存储方案,降低数据处理成本。能够快速定位并解决大数据处理过程中的性能瓶颈和故障问题。
5.熟悉数据仓库建模方法,能够设计合理的数据模型以满足业务需求。具备数据质量与数据治理经验,了解数据生命周期管理、数据安全管理等相关知识。能够制定并执行数据治理策略,确保数据的准确性、完整性和一致性。
6.熟练使用Java核心框架,如Spring Cloud、Spring Boot等,能够编写高效、可维护的代码。了解Python、Scala等大数据相关编程语言,能够根据需要选择最合适的编程语言进行开发。
7.具备良好的沟通表达能力和跨团队协作能力,能够与团队成员、业务方有效沟通,协同推进项目进展。
8.对新技术保持好奇心,愿意不断学习新知识,探索新技术在大数据领域的应用。具备创新思维,能够提出并推动技术改进和优化方案,持续提升大数据平台的性能和稳定性。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕