【数据开发】大数据岗位,通用必备技术栈(数据分析、数据工程、数据科学)

【数据开发】大数据岗位,通用必备技术栈(数据分析、数据工程、数据科学)

文章目录

1、岗位与技术要求 1.1 常见岗位介绍 数据工程(中阶) 数据科学(高阶) 1.2 行业发展方向

图片[1]-【数据开发】大数据岗位,通用必备技术栈(数据分析、数据工程、数据科学)-JieYingAI捷鹰AI

图片[2]-【数据开发】大数据岗位,通用必备技术栈(数据分析、数据工程、数据科学)-JieYingAI捷鹰AI

1.3 附部分JD

1、
岗位职责:
1、打造有竞争力Hadoop软件平台;
2、独立或带领小组完成大数据领域定制需求的设计和开发工作;
3、完成需求验证和维护工作。
岗位要求:
1、计算机相关专业本科及以上学历;
2、熟悉C/C++、JAVA、Python、JS中的至少一种,掌握常见的数据结构、算法,了解软件工程、敏捷开发等知识,熟悉常用设计模式;
3、熟悉大数据开发框架,熟悉Hadoop/Spark/Hbase/MPP DB及业界主流流处理平台如Storm/Flink/Spark Streaming之一;
4、精通Java,能深刻理解IO,多线程等基础框架,熟悉JVM的原理和性能调优;
5、对大数据框架开发有成功实践经验者优先。
2、
1.熟练掌握数据分析方法,包括但不限于excel、tabluea等BI分析工具使用;
2.熟练掌握sql语句编写,对hive clickhouse等大数据相关数据库相关sql语法了解熟悉;
3.有python算法开发经验或机器学习&深度学习开发经验,能独立开发相关数据分析算法及模型;
3、
岗位要求
1、 掌握Linux操作系统日常使用和shell等脚本、可使用脚本处理集群开发、运维相关问题
2、 熟悉数据库原理,有ORACLE/MYSQL等数据库开发经验,可编写SQL查询语句,具备SQL调优能力
3、 熟悉hadoop生态圈组件,如Hive/HDFS/HBASE/spark/flink等
4、 至少熟悉Java/Scala/Python中一门开发语言,熟悉程序报错处理以及应用调试
5、 良好的沟通能力,需具备与项目干系人沟通和协助能力。
岗位职责
1、 客户需求分析和大数据规划方案落地设计 
2、 大数据产品FusionInsight HD规划设计、部署安装、运维管理,故障处理
3、 协助客户或伙伴解决FusionInsight HD开发支持和性能调优问题
4、 独立完成大数据项目规划和部署、指导客户或伙伴解决大数据产品问题,保证项目成功
4、
岗位职责:
1、建设公司级大数据平台,提供稳定、高效、先进的流式计算服务,支撑万亿级实时业务;
2、打造和优化计算引擎,面向业务扩展引擎能力,提升计算效率与可靠性。
任职要求:
1、本科及以上学历,扎实的计算机基础,良好的数据结构、操作系统、计算机网络功底,良好的技术热情与工程能力追求,具有大数据平台或组件的研发、运维经验;
2、掌握 Java/Scala/C++ 语言(之一),对并发编程、内存模型、RPC、JVM等有良好掌握,具有良好的编程习惯,追求高标准的工程质量;
3、对 Flink 或 Spark 等计算引擎有深入理解,具有丰富研发经验或开源贡献经验;
4、熟悉 Hadoop 生态(HDFS/HBase/Kafka/Hive/Zookeeper/YARN/Iceberg/Hudi等)相关组件原理,对大数据平台架构与规划有一定的理解与思考;
5、具备较强的自驱力、责任心、沟通能力、学习能力。
5、
工作职责
岗位职责:
 1、基于金融行业特点构建企业级数据仓库;
 2、参与实时和离线的数据采集,处理和存储,方案设计及标准制定; 
 3、对现有大数据数据体系进行脚本优化,功能优化等,提升数据存储和计算资源利用率;
 4、参与解决大数据数仓建设、数据治理过程中的难点和问题,了解行业前沿大数据数据处理方法。
任职要求
任职要求:
 1、本科及以上学历,2年以上数据平台开发经验,较好的业务理解和沟通能力,具备金融业务知识优先; 
 2、熟悉数据仓库建设过程,具备数据集市、数据主题、标签体系建设经验优先;
 3、熟悉数据治理流程,具有数据热点、元数据管理、血缘分析经验优先;
 4、熟练Hive、Spark、Flink等离线、流式计算框架的使用和调优,理解核心机制,有良好的SQL性能优化能力;;
 5、熟练掌握Java、python中的至少一种开发语言,较强编码能力,熟悉Python和Shell开发优先;
 6、熟悉HBase、Clickhouse、Doris等常见分布式数据存储读写及其性能优化优先。

2、数据开发技术栈 2.1 数据处理流程

数据存储:

数据分析:

批处理和流处理各有其适用的场景,时间不敏感或者硬件资源有限,可以采用批处理;时间敏感和及时性要求高就可以采用流处理。随着服务器硬件的价格越来越低和大家对及时性的要求越来越高,流处理越来越普遍,如股票价格预测和电商运营数据分析等。上面的框架都是需要通过编程来进行数据分析,那么如果你不是一个后台工程师,是不是就不能进行数据的分析了?当然不是,大数据是一个非常完善的生态圈,有需求就有解决方案。为了能够让熟悉 SQL 的人员也能够进行数据的分析,查询分析框架应运而生,常用的有 Hive 、Spark SQL 、Flink SQL、 Pig、Phoenix 等。这些框架都能够使用标准的 SQL 或者 类 SQL 语法灵活地进行数据的查询分析。这些 SQL 经过解析优化后转换为对应的作业程序来运行,如 Hive 本质上就是将 SQL 转换为 MapReduce 作业,Spark SQL 将 SQL 转换为一系列的 RDDs 和转换关系(transformations),Phoenix 将 SQL 查询转换为一个或多个 HBase Scan。

数据应用:

其他框架:

2.2 学习路线与框架 框架学习: 数据存储: 数据分析: 查询分析框架:Hive 、Spark SQL 、Flink SQL、 Pig、Phoenix 集群:高可用、任务调度、并发、迁移 3、数据分析技术栈

(高级的数据分析看起来需求不低于数据开发,数据工程,毕竟是更直接面向老板的)

3.1 基础知识 3.2 进阶知识

图片[3]-【数据开发】大数据岗位,通用必备技术栈(数据分析、数据工程、数据科学)-JieYingAI捷鹰AI

图片[4]-【数据开发】大数据岗位,通用必备技术栈(数据分析、数据工程、数据科学)-JieYingAI捷鹰AI

以上是数据分析和数据工程部分的,算法的不再详细展开了,不如卷学历卷科研去

参考资料:1-八股,2-知乎1,3-知乎2, 4-数据开发,5-数据分析,6-R语言

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发
头像
来说点什么吧!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容