课程名称:大数据培训
第一阶段:javase+mysql+jdbc
1.1 开班典礼
1.1.1 班主任讲话
1.1.2 负责人讲话
1.1.3 讲师讲话
1.1.4 摸底考试
...
1.3 - 流程控制
1.3.1 分支流程控制-if
1.3.2 分支流程控制-switch
1.3.3 循环流程控制-while
...
1.5 - 数组
1.5.1 数组的定义与元素访问
1.5.2 数组的内存分析
1.5.3 数组的常见操作
...
1.7 - 面向对象进阶
1.7.1 包(package)的创建与使用
1.7.2 构造方法
1.7.3 代码块
...
1.9 - 多态
1.9.1 对象的转型
1.9.2 instanceof关键字
1.9.3 抽象类与抽象方法
...
1.11 - 包装类型与常用类
1.11.1 包装类型
1.11.2 常用类
1.11.3 枚举
...
1.13 – 字符串
1.13.1 String类常用方法
1.13.2 StringBuffer/StringBuffer的常用方法
1.13.3 正则表达式
...
1.15 – 多线程基础
1.15.1多线程概念
1.15.2 并发与并行
1.15.3 创建线程的方式
...
1.17 – IO流
1.17.1 流的基础
1.17.2 流的分类
1.17.3 字节流
...
1.19 - 反射
1.19.1 Class类
1.19.2 Class获取对象的三种方式
1.19.3 Constructor构造方法
...
1.21 - MySql
1.21.1 SQL简介
1.21.2 SQL表的概念
1.21.3 数据库的安装卸载
...
1.23 第一阶段考试
1.25 linux中软件安装
1.25.1 软件安装介绍
1.25.2 二进制安装
1.25.3 rpm安装
...
1.27 awk
1.27.1 awk简介
1.27.2 使用方法
1.27.3 入门实例
...
1.2 - 基础语法
1.2.1 计算机理论介绍
1.2.2 编程基础--进制分类,进制转换等
1.2.3 什么是Java
1.2.4 常用DOS命令
...
1.4 - 方法
1.4.1 方法的定义与调用
1.4.2 方法的参数与返回值
1.4.3 方法的重载
...
1.6 - 面向对象入门
1.6.1 面向对象与面向过程
1.6.2 类的设计
1.6.3 对象的实例化
...
1.8 - 继承
1.8.1 继承基本的概念
1.8.2 继承中的特点
1.8.3 继承中的构造方法
...
1.10 - 设计模式
1.10.1 单例设计模式
1.10.2 工厂设计模式
1.10.3 Lambda表达式
...
1.12 – 异常
1.12.1 异常定义
1.12.2 常用结构.
1.12.3 finally关键的应用
...
1.14 - 集合框架
1.14.1 集合框架Collection
1.14.2 集合中元素排序
1.14.3 Collections工具类
...
1.16 - 线程高级
1.16.1 线程生命周期
1.16.2 临界资源问题
1.16.3 同步代码段synchronized关键字
...
1.18 - Socket网络编程
1.18.1 TCP
1.18.2 Socket
1.18.3 ServerSocket
...
1.20 – 其他
1.20.1 代理模式
1.20.2 注解
1.20.3 Junit
...
1.22 - JDBC
1.22.1 JDBC概述
1.22.2 JDBC原理
1.22.3 JDBC的实现
...
1.24 linux的基础
1.24.1 linux的主要特性
1.24.2 常用的linux版本
1.24.3 Vmvare的安装
...
1.26 shell脚本
1.26.1 Shell介绍
1.26.2 Shell运行环境和运行方式
1.26.3 变量
...
第二阶段:分布式理论简介
2.1 CAP理论
2.1.1 Consistency 一致性
2.1.2 Availability 可用性
2.1.3 Partition tolerance 分区容忍性
2.2.4 数据量分布
2.3 一致性、2PC和3PC
2.3.1 一致性
2.3.2 2PC流程
2.3.3 3PC流程
2.3.4 一致性算法
2.2数据分布方式
2.2.1 哈希方式
2.2.2 一致性哈希
2.2.3 范围分布
2.2.4 数据量分布
2.4 大数据集成架构概述
2.4.1 大数据架构简介
...
第三阶段:离线场景下的数据存储与计算
3.1 协调服务ZK(1T)
3.1.1 zk的概念
3.1.2 zk架构
3.1.3 zk读写
...
3.3 数据存储alluxio(1T)
3.3.1 alluxio应用场景及架构组成
3.3.2 alluxio 存储管理
3.3.3 alluxio with spark
...
3.5 数据采集logstash
3.5.1 Logstash介绍
3.5.2 Input组件介绍
3.5.3 Filter组件介绍
...
3.7 数据同步datax(0.5T)
3.7.1 datax简介
3.7.2 datax核心架构
3.7.3 datax插件介绍
...
3.9 计算模型MR与DAG(1T)
3.9.1 MR计算模型及流程
3.9.2 DAG计算模型流程
3.9.3 MR过程及调优...
3.11 Impala(1T)
3.11.1 impala简介
3.11.2 impala架构
3.11.3 impala工作原理
...
3.13 任务调度airflow
3.13.1 airflow简介
3.13.2 执行器
3.13.3 架构
...
3.2 数据存储hdfs(2T)
3.2.1 hdfs应用场景与架构组成
3.2.2 hdfs HA 环境搭建
3.2.3 hdfs 元数据瓶颈及解决
...
3.4 数据采集flume(1T)
3.4.1 flume简介-基础知识
3.4.2 flume安装与测试
3.4.3 flume部署方式
...
3.6 数据同步Sqoop(0.5T)
3.6.1 Sqoop简介以及使用
3.6.2 Sqoop shell使用
3.6.3 Sqoop-import
...
3.8 数据同步mysql-binlog(1T)
3.8.1 mysql-binlog简介
3.8.2 启停binlog
3.8.3 常用binlog日志操作命令
...
3.10 hive(5T)
3.10.1 Hive是什么
3.10.2 Hive的特点
3.10.3 Hive架构简述
...
3.12 任务调度Azkaban(1T)
3.12.1 Azkaban简介
3.12.2 Azkaban和oozie的对比
3.12.3 Azkaban server安装配置
...
第四阶段:数仓建设(13T)
4.1 数仓仓库(1T)
4.1.1 数仓的历史
4.1.2 数仓的背景
4.1.3 数仓的定义
...
4.3 多维数据模型处理kylin(3.5T)
4.3.1 kylin的概览
4.3.2 安装部署
4.3.3 集群模式部署
...
4.2 离线数仓项目-伴我汽车(5T)
4.2.1 项目业务描述
4.2.2 项目技术
4.2.3 项目架构
...
4.4 离线数仓项目-伴我汽车升级
4.4.1 加入kylin进行多维分析
3.7.2 datax核心架构
3.7.3 datax插件介绍
...
第五阶段:分布式计算引擎(22T)
5.1 分布式计算引擎概述
5.1.1 计算引擎介绍
5.1.2 计算引擎分类
...
5.3 spark
5.3.1 大数据架构体系
5.3.2 架构详解
5.3.3 Spark集群介绍
...
5.5 数据存储redis
5.5.1 什么是NoSQL
5.5.2 NoSQL数据库的分类
5.5.2 NoSQL数据库的分类
...
5.7 离线项目-某p2p平台
5.7.1 项目描述
5.7.2 项目技术
5.7.3 spark多数据源读写
...
5.2 scala语言(4T)
5.2.1 变量的声明
5.2.2 数据类型和操作符
5.2.3 if流程控制
...
5.4 数据存储hbase
5.4.1 Hbase来源
5.4.2 Hbase的架构
5.4.3 Hbase集群搭建
...
5.6 Kudu
5.6.1 kudu简介
5.6.2 kudu架构/原理
5.6.3 kudu底层数据模型
...
5.8 第二阶段考试
第六阶段:实时场景下的数据存储与计算(22T)
6.1 数据通道(4T)
6.1.1 Kafka的基本概念
6.1.2 Kafka的发展历史
6.1.3 Kafka的应用背景
...
6.3 流式数据处理flink(6T)
6.3.1 flink应用场景及架构组成
6.3.2 flink 流式处理
6.3.3 flink sql
...
6.5 流式处理项目-某交通大数据平台(5T)
6.5.1 实时场景处理业务数据
6.5.2 可以进行数据明细的全文查询
6.5.3 实时累计业务统计
...
6.2 实时数仓druid(5T)
6.2.1 druid应用场景及架构组成
6.2.2 druid内部流程
6.2.3 druid 数据摄取
...
6.4 SparkStreaming(2T)
6.4.1 Spark Streaming概述
6.4.2 Spark Streaming的原理介绍
6.4.3 Spark Streaming与Storm对比
...
6.6 第三阶段考试
第七阶段:数据搜索(2T)
7.1 elasticsearch
7.1.1 全文检索技术简介
7.1.2 ES安装配置入门
7.1.3 ES插件安装
7.1.4 ES基本操作
7.1 elasticsearch
7.1.9 CURL操作REST命令
7.1.10 Windows安装CURL
7.1.11 创建索引
7.1.12 RestApi:练习
7.1 elasticsearch
7.1.17 更新文档数据
7.1.18 删除文档数据
7.1.19 条件查询QueryBuilder
7.1.20 queryStringQuery搜索内容查询
7.1 elasticsearch
7.1.25 regexpQuery正则表达式查询
7.1.26 matchAllQuery查询所有数据
7.1.27 K分词器集成ES
7.1.28 ES常用编程操作
7.1 elasticsearch
7.1.33查询文档分页操作
7.1.34得分(加权)
7.1.35在Query的查询中定义加权
7.1.36 在Field字段的映射中定义加权
7.1 elasticsearch
7.1.5 Index的概念
7.1.6 Document的概念
7.1.7 Type的概念
7.1.8 map映射的概念
7.1 elasticsearch
7.1.13 使用Java操作客户端
7.1.14 新建文档(自动创建索引和映射)
7.1.15 搜索文档数据(单个索引)
7.1.16 搜索文档数据(多个索引)
7.1 elasticsearch
7.1.21 wildcardQuery通配符查询
7.1.22 termQuery词条查询
7.1.23 boolQuery布尔查询
7.1.24 fuzzyQuery模糊查询
7.1 elasticsearch
7.1.29 索引相关操作
7.1.30 映射相关操作
7.1.31 文档相关操作
7.1.32 IK分词器自定义词库
7.1 elasticsearch
7.1.37 过滤器
7.1.38 范围过滤器
7.1.39 布尔过滤器
第八阶段:数据治理(2T)
8.1 概念及构成
8.1.1 数据标准
8.1.2 数据分类
8.1.3 数据建模
...
8.3 元数据、血缘及数据质量
8.3.1 元数据及血缘构建
8.3.2 基于Hive Hook的元数据及血缘构建
8.3.3 Apache Atlas 开源元数据及血缘管理框架介绍
...
8.5 Spark Listener
...
8.7 数据治理项目-数据地图(5T)
8.7.1 项目描述
8.7.2 项目选型
8.7.3 项目实现
...
8.2 neo4j
8.2.1 图存储与查询介绍
8.2.2 环境搭建
8.2.3 cypher语言学习
...
8.4 Hive Hook
...
8.6 JanusGraph
...
第九阶段:BI系统(2T)
9.1 Superset(BT)
9.1.1 Superset简介
9.1.2 Superset编译
9.1.3 Superset安装
9.1.4 创建数据源
9.1.5 添加数据表
9.1.6 表操作
9.1.7 数据探索分析
9.1.8 数据可视化
9.1.9 可视化图表类型选择
9.1.10 数据时间范围
9.1.11 自定义
9.2 Graphna (RealTime)
9.2.1 grafana简介
9.2.2 grafana安装部署
9.2.3 grafana特征
9.2.4 数据源
9.2.5 快捷键
9.2.6 插件
9.2.7 http的api
第十阶段:数据挖掘(10T)
10.1 机器学习中的数学体系
10.1.1微分学与梯度下降
10.1.2数学分析与概率论
10.1.3数理统计与参数估计
10.1.4线性代数与信息论
10.1.5凸优化
...
10.2 Spark MLlib机器学习算法库
10.2.1 机器学习框架—假设函数、目标函数和*优函数
10.2.2 特征工程—数值型特征、类别型特征和有序特征
10.2.3 离散化处理
10.2.4 读热向量编码
10.2.5 TF-IDF权重
...
10.3 Python scikit-learn机器学习算法库
10.3.1 回归与分类算法(理论上)
10.3.2回归与分类算法(代码实战下)
10.3.3支持向量机(理论上)
10.3.4支持向量机(实战下)
10.3.5决策树(Decision Tree)—>ID3、C4.5、Gini系数(理论上)
...
10.4 机器学习结合大数据项目
10.4.1《金融风控领域用户贷款信用评分预测》
10.4.2《搜狗知识图谱》
...