大数据方向课程体系-JieYingAI捷鹰AI

【课程简介】

本课程为具有一定编程开发经验的学员而准备，从大数据基础增强开始，内容精准聚焦大数据开发过程中必备的离线数据分析、实时数据分析和内存数据计算等重要内容；涵盖了大数据体系中几乎所有的核心技术，包含Linux、Zookeeper、Hadoop、Redis、HDFS、MapReduce、Hive、Impala、Hue、Oozie、Flink、kafka、Spark、Scala、SparkSQL、Hbase等。同时我们也提供了机器学习以及云计算的课程为学生的日后发展和就业保驾护航。

【课程目标】

熟练掌握大数据开发思维，掌握jvm优化

熟练掌握hdfs的开发应用以及原理

熟练掌握MapReduce运行原理及程序开发能力

熟练掌握hive数据仓库的开发

熟练掌握hbase列式数据库优化及开发

熟练掌握azkaban，impala，oozie，hue，zookeeper等hadoop生态圈组件

熟练掌握分布式消息中间件kafka的原理及应用

熟练掌握storm流计算编程原理以及企业级应用

熟练掌握scala编程知识

熟练掌握spark内存计算的搭建使用及运行原理

熟练掌握sparksql，sparksteaming等spark一站式开发框架的应用

熟练掌握Flink开发框架的企业级应用

理解机器学习主流算法的应用

【阶段内容】

阶段一 : 大数据基础增强

linux操作基础

虚拟机的联网以及基础命令增强、linux的查找命令、linux的用户与用户组、linux的权限管理、linux系统服务管理、网络管理、shell的变量定义、变量引用、算数运算符、流程控制语句、函数使用

JVM优化

熟悉jvm 参数，visualVM 工具，垃圾回收原理， JVM字节码分析等等

市场价值 : 能够完成中小型企业常见的自动化脚本。

阶段二 : 大数据Hadoop离线分布式系统

大数据基础和硬件介绍

大数据集群基本环境准备、大数据集群环境的基础准备

Zookeeper组件

Zookeeper的应用场景、Zookeeper的架构和原理、Zookeeper的存储模型、Zookeeper的Znode创建、Zookeeper的选举机制、Zookeeper的客户端操作

HDFS组件

HDFS设计的特点、master-slave架构介绍、block块存储、RF拷贝因子、机架感知、block拷贝策略、namenode功能介绍、datanode功能介绍、Metadata元数据介绍、读写流程、HDFS Federation功能介绍、HDFS snapshots快照介绍、NameNode HA架构和原理、HDFS管理员常用操、HDFS权限控制

MapReduce

MapReduce设计的目标、MapReduce架构和原理、MapReduce快速入门、Mapper抽象类、Reducer抽象类、Split机制、Map和Reduce个数的确定、Combinar机制、Partition机制、自定义Partition、MapReduce序列化、MapReduce自定义排序、Mapreduce数据的压缩、InputFormat抽象类、自定义InputFormat、Recordreader机制、自定义、RecordReader、二次排序

Yarn组件

Yarn原理和架构、RM和NM功能介绍、Application Master功能介绍、Container介绍、Container资源的封装（CPU、内存和IO）

资源调度策略（FIFO、Fair和Capacity）、Fair Scheduler配置和使用、Yarn实现计算资源多租户配置和使用

Hive组件

Hive的功能介绍、创建表、本地加载数据、HDFS加载数据、基本数据类型、复合数据类型、静态分区、动态分区、临时表、Metastore服务、HiveServer2、内置函数、自定义UDF和UDAF、数据压缩、ORC、Parquet、自动化脚本、常见性能优化、explain执行计划详解

Impala组件

Impala的应用场景、架构和原理、安装、基本查询语法、shell交互窗口、数据加载、JDBC连接Impala、Impala的优化、invalidate metadata、compute stats使用

辅助系统工具

sqoop hue impala kudu oozie flume azkaban组件功能介绍、架构和原理、多个案例整合

网站流量日志分析

项目背景，日志埋点收集,数据预处理，数据入库，指标分析，统计分析，可视化

市场价值 : 可从事离线相关工作，包括ETL工程师、任务调度工程师、Hive工程师、数据仓库工程师等。

阶段三 : NoSQL、Kafka和ELK技术实战

redis组件

NoSQL介绍、Redis的原理和架构、Redis的使用、Redis的集群搭建、

hbase组件

Hbase的应用场景、Hbase架构和原理、表的的创建和使用、列簇、多版本控制、增删改查操作、Java API操作、HFile读取、split操作、flush操作、compact操作、过滤器、RowKey设计和优化策略、HBase+Redis微博实战案例

kafka组件

为什么需要消息系统、kafka应用场景、kafka架构和原理、Kafka的CAP特性、topic(创建、修改和删除)、partition策略、自定义Partition、offset、replication、Message读写过程、Message的存储策略、producer、consumer、Consumer Group使用、Java API操作、监控工具和优化

ELK技术栈

Elasticsearch的功能、架构和原理、拷贝机制、Head插件、Index索引、Get、Delete、Update、聚合操作、监控插件bigdesk、DSL、SQL插件使用、ELK的应用场景介绍、Logstash的功能介绍、Logstash常用插件介绍、kibana的功能介绍、数据探索、可视化、常用插件使用、ELK实战

市场价值 : 具备大数据高性能数据读写的常用技术解决方案开发思想，为以后学习大数据项目阶段打下坚实的基础

阶段四：大数据Spark内存计算系统

Scala语言基础

Scala基础、声明变量、数据类型、条件表达式、块表达式、循环、方法和函数、数组、元组、集合、Iterator、构造器、伴生对象、akka

Spark入门以及集群搭建

Spark集群环境搭建，spark入门程序，RDD入门

SparkRDD

Spark的应用场景、架构和原理、入门案例、Spark Session讲解、RDD的概念和特性、Transformation RDD讲解、Action RDD讲解、Partition、Task、RDD的依赖关系、RDD的容错机制、RDD的存储级别、RDD的缓存机制、RDD的广播操作、DAG思想、DAG的生成、DAG的处理过程、运行机制、Driver和Executor

Spark SQL

Spark SQL功能介绍、DataFrame、DataSet、RDD、Dataset和DataFrame的转换、读写Hive表数据、读写HDFS的数据、DataFrame的API操作、读取文件(txt、CSV、Json、parquet)、临时表、读写RDBMS、Spark SQL执行计划、Spark SQL的性能优化

SparkStreaming原理_运行过程_高级特性g

sparkstring的功能介绍,架构，流计算Dstream运行原理

Structured Streaming_介绍_案例

Structured String的功能介绍、input功能、output功能、window操作、watermark操作、过期数据操作、去重数据操作、整合Socket数据、整合Kafka数据、OutputModel(Appendcompleteupdate)功能、Flume+kafka+Structured Streaming实现用户访问行为的实时分析

市场价值 : 可从事Spark相关工作，包括ETL工程师、Spark工程师、Hbase工程师、用户画像系统工程师、大数据反欺诈工程师。目前企业急缺Spark相关人才。

阶段五 : Spark 项目实战

DMP

Kudu应用场景,项目介绍, Kudu原理，cdh环境搭建,kudu整合spark开发，项目框架搭建,报表统计,商圈库功能。

市场价值 : 目前Spark是企业级大数据平台必备的使用技能，Spark对找工作有着决定性的优势，是企业级的大数据离线分析、数据挖掘、实时计算不可或缺的技术栈。

阶段六 : 大数据flink实时计算系统

Flink基础介绍

Flink的运行机制、Flink组件和逻辑计划、Flink执行计划生成、JobManager中的基本组件、TaskManager、算子、网络、水印WaterMark、任务调度

flink高级进阶

flink的状态管理、CheckPoint、flinksql及flinkTableApi

市场价值 : 目前Flink在大型互联网公司使用的非常的广泛，在传统行业Flink目前也是处在一个爆发的阶段。

阶段七 : 大数据 flink 项目实战

Flink电商指标分析项目

上报服务系统开发、Flink实时数据分析系统开发、实时频道热点分析业务开发、实时频道PV/UV分析、实时频道用户新鲜度分析、实时频道地域分析业务开发、实时运营商分析业务开发、实时数据同步系统、Canal数据采集平台、number函数使用说明 case when 和row

市场价值 : Flink目前的人才需求缺口大，目前Flink在大型互联网公司使用的非常的广泛，在传统行业Flink目前也是处在一个爆发的阶段。

阶段八 : 大数据新技术实战详解

Druid

Druid应用场景、集群搭建、数据加载、重要概念、架构及原理、数据查询、元数据、实时应用案例

市场价值 : 可解决企业级OLAP的解决方案。Druid目前人才需求量在不断的增加

阶段九 : 机器学习

机器学习概念入门

1.基本概念：属性、属性的度量、属性类型、数据集类型、数据集的特性、训练集、测试集、特征值、监督学习、非监督学习、半监督学习等概念

2.数据的预处理：聚集、抽样、维度规约、特征子集选择、特征创建、离散化和二元化、变量变换

3.模型的评估：模型的过分拟合(过拟合)，欠拟合，评估分类器的性能(交叉验证和自助法)，模型评估方法、损失函数和风险函数、参数优化等，模型复杂度(奥卡姆剃刀)4.机器学习处理的一般流程分析

机器学习数学基础

初等数学基础、函数求导以及链式求导法则、方向导数、梯度、泰勒级数、拉格朗日乘子法、线性代数与矩阵、特征值与特征向量、概率分析、极大似然估计、梯度下降法代码实践、牛顿法代码实战、矩阵分解实战(SVD,PCA,QR)

机器学习语言基础之Python语言

基础数据类型、list/tuple/dict/set、列表推导式、生成器推导式、 lambda函数、控制语句、文件读写、异常处理分析、面向对象编程、 GUI编程、Python基础项目实践

Python数据分析库实战

Numpy矩阵运算库基础及实战、Scipy数值运算库基础及实战、 Matplotlib绘图库基础及实战、Seaborn绘图库基础及实战、 Pandas数据分析库基础及实战

Spark机器学习库实战

SparkML和SparkMLLIB区别、Spark机器学习基础、Pipeline管道、特征抽取(TF-IDF、Word2Vec、CountVectorizer）、特征转换(Tokenizer、 PCA、N-gram、DCT、one-hot、MinMaxScaler、Normalizer、SqlTransformer、VectorAssembler)、特征选择(VectorSlicer、RFormula、 ChiSqSelector)

机器学习算法之用户标签预测项目实战

用户画像标签预测实战、KNN、KMeans、决策树算法模型(ID3、C4.5、 Cart树)、集成学习算法(Bagging、随机森林、Adaboost算法、GBDT算法、 XGBOOST算法、LightGBM算法模型)、人才流失模型项目实战

机器学习算法之推荐系统实战

基于记忆的CF实战(Surprise库实战)、基于模型的CF实战(SparkALS实战)、基于Native-Bayes分类算法实战、基于内容推荐(jieba分词、提取词向量、文本分类、特征聚类)、关联挖掘算法实战(基于Spark的FP-Growth算法实战)、推荐项目实战

机器学习算法之CTR点击率预估实战

特征工程实战、CTR点击率预估应用场景分析、逻辑斯特回归算法理论基础推导及项目实战、推荐系统指标分析、推荐系统架构分析、基于Wideanddeep模型理论及实战(学会读学术Paper)

机器学习算法之深度学习基础及图片分类实战

神经网络和深度学习基础、MP神经元模型、感知机模型、BPNN模型实战、 CNN模型实战图像识别、Tensorflow基础、电影评论文本分析、 RNN文本情感分析实战

市场价值 : 可从事机器学习、数据挖掘等相关工作，包括推荐算法工程师、数据挖掘工程师、机器学习工程师，填补人工智能领域人才急剧增长缺口。

阶段十 : 云计算

虚拟化

hypervisor管理类工具、QEMU、KVM、QEMU-KVM、libvirt、虚拟化技术概述，Xen、VMware、KVM虚拟化对比与实践

公有云（阿里云）

公有云概述、阿里云应用实战

私有云运维（OpenStack)

Openstack概述，OpenStack组件功能介绍，OpenStack安装与配置，OpenStack私有云运维实战;

容器Docker+监控

Docker概述，Docker部署，Docker容器，Docker镜像仓库、Docker实战

容器编排工具（Kubernates）

Kubernetes概述、Kubernetes安装与部署、Docker+Kubernetes集群实战

市场价值 : 熟练掌握和学习后，可满足Linux云计算架构工程师的高级需求。

企业级360°全方位用户画像

1、标签是表达人的基本属性、行为倾向、兴趣偏好等某一个维度的数据标识，它是一种相关性很强的关键字，可以简洁的描述和分类人群。

2、标签的定义来源于业务目标，基于不同的行业，不同的应用场景，同样的标签名称可能代表了不同的含义，也决定了不同的模型设计和数据处理方式。

3、标签标签是构建用户画像的基础，会产生两类用户画像，即个人用户画像和群体画像。个人画像，也叫360度用户视图，用于用户精准互动和一对一服务，销售和运营等操作实务指导为主。群体画像是群体行为分析，群体行为洞察有利于做趋势分析、产品规划、营销决策等层面的工作。

千亿级数据仓库

数据仓库（Data Warehouse）简称DW或DWH，是数据库的一种概念上的升级，可以说是为满足新需求设计的一种新数据库，而这个数据库是需容纳更多的数据，更加庞大的数据集。

数据仓库为企业所有级别的决策制定过程，提供所有类型数据支撑的战略集合，主要是用于数据挖掘和数据分析，以建立数据沙盘为基础，为消灭消息孤岛和支持决策为目的而创建的。

数据仓库的应用 1.数据分析、数据挖掘、人工智能、机器学习、风险控制、无人驾驶。 2.数据化运营、精准运营。 3.广告精准、智能投放。

Flink电商指标分析项目

基于电商公司电商系统，使用Flink分析电商网站的各种用户行为（访问行为、购物行为、点击行为等），统计出PV、UV等数据，深入掌握Flink DataStream的核心理论知识。

DMP（数据管理系统）项目

DMP 全称数据管理系统, 为广告系统提供数据服务, 项目涉及标签处理, 用户识别, 图计算等技术点, 能够有效提升大数据开发能力。

网站流量日志分析项目

网站流量日志数据分析是一个纯粹的数据分析项目，主要分为：数据采集、数据预处理、数据入库、数据分析、数据展现5大步骤。

Openstack核心服务

OpenStack是一个开源的云计算管理平台项目，由几个主要的组件组合起来完成具体工作。OpenStack支持几乎所有类型的云环境，项目目标是提供实施简单、可大规模扩展、丰富、标准统一的云计算管理平台。

版权声明 1 本网站名称：捷鹰AI导航
2 本站永久网址：www.jieyingai.com
3 本站原创内容转载请注明出处，付费内容未经本站授权禁止转载二次发布
4 本站所有内容禁止用于任何非法用途！部分文章、素材、资源软件来自网络，仅供大家学习与参考。如有侵权，请联系站长QQ:1392478547进行删除处理
5 本站投稿禁止发布任何违法内容，如发现将立即封号处理，欢迎举报监督
6 本站附件资源、教程等内容如因时效原因失效或不可用，请联系留言或联系站长及时更新

THE END