第一阶段:javase+mysql+jdbc1.1 开班典礼1.1.1 班主任讲话1.1.2 负责人讲话1.1.3 讲师讲话1.1.4 摸底考试...1.3 - 流程控制1.3.1 分支流程控制-if1.3.2 分支流程控制-switch1.3.3 循环流程控制-while...1.5 - 数组1.5.1 数组的定义与元素访问1.5.2 数组的内存分析1.5.3 数组的常见操作...1.7 - 面向对象进阶1.7.1 包(package)的创建与使用1.7.2 构造方法1.7.3 代码块...1.9 - 多态1.9.1 对象的转型1.9.2 instanceof关键字1.9.3 抽象类与抽象方法...1.11 - 包装类型与常用类1.11.1 包装类型1.11.2 常用类1.11.3 枚举...1.13 – 字符串1.13.1 String类常用方法1.13.2 StringBuffer/StringBuffer的常用方法1.13.3 正则表达式...1.15 – 多线程基础1.15.1多线程概念1.15.2 并发与并行1.15.3 创建线程的方式...1.17 – IO流1.17.1 流的基础1.17.2 流的分类1.17.3 字节流...1.19 - 反射1.19.1 Class类1.19.2 Class获取对象的三种方式1.19.3 Constructor构造方法...1.21 - MySql1.21.1 SQL简介1.21.2 SQL表的概念1.21.3 数据库的安装卸载...1.23 第一阶段考试1.25 linux中软件安装1.25.1 软件安装介绍1.25.2 二进制安装1.25.3 rpm安装...1.27 awk1.27.1 awk简介1.27.2 使用方法1.27.3 入门实例...1.2 - 基础语法1.2.1 计算机理论介绍1.2.2 编程基础--进制分类,进制转换等1.2.3 什么是Java1.2.4 常用DOS命令...1.4 - 方法1.4.1 方法的定义与调用1.4.2 方法的参数与返回值1.4.3 方法的重载...1.6 - 面向对象入门1.6.1 面向对象与面向过程1.6.2 类的设计1.6.3 对象的实例化...1.8 - 继承1.8.1 继承基本的概念1.8.2 继承中的特点1.8.3 继承中的构造方法...1.10 - 设计模式1.10.1 单例设计模式1.10.2 工厂设计模式1.10.3 Lambda表达式...1.12 – 异常1.12.1 异常定义1.12.2 常用结构.1.12.3 finally关键的应用...1.14 - 集合框架1.14.1 集合框架Collection1.14.2 集合中元素排序1.14.3 Collections工具类...1.16 - 线程高级1.16.1 线程生命周期1.16.2 临界资源问题1.16.3 同步代码段synchronized关键字...1.18 - Socket网络编程1.18.1 TCP1.18.2 Socket1.18.3 ServerSocket...1.20 – 其他1.20.1 代理模式1.20.2 注解1.20.3 Junit...1.22 - JDBC1.22.1 JDBC概述1.22.2 JDBC原理1.22.3 JDBC的实现...1.24 linux的基础1.24.1 linux的主要特性1.24.2 常用的linux版本1.24.3 Vmvare的安装...1.26 shell脚本1.26.1 Shell介绍1.26.2 Shell运行环境和运行方式1.26.3 变量...第二阶段:分布式理论简介2.1 CAP理论2.1.1 Consistency 一致性2.1.2 Availability 可用性2.1.3 Partition tolerance 分区容忍性2.2.4 数据量分布2.3 一致性、2PC和3PC2.3.1 一致性2.3.2 2PC流程2.3.3 3PC流程2.3.4 一致性算法2.2数据分布方式2.2.1 哈希方式2.2.2 一致性哈希2.2.3 范围分布2.2.4 数据量分布2.4 大数据集成架构概述2.4.1 大数据架构简介...第三阶段:离线场景下的数据存储与计算3.1 协调服务ZK(1T)3.1.1 zk的概念3.1.2 zk架构3.1.3 zk读写...3.3 数据存储alluxio(1T)3.3.1 alluxio应用场景及架构组成3.3.2 alluxio 存储管理3.3.3 alluxio with spark...3.5 数据采集logstash3.5.1 Logstash介绍3.5.2 Input组件介绍3.5.3 Filter组件介绍...3.7 数据同步datax(0.5T)3.7.1 datax简介3.7.2 datax核心架构3.7.3 datax插件介绍...3.9 计算模型MR与DAG(1T)3.9.1 MR计算模型及流程3.9.2 DAG计算模型流程3.9.3 MR过程及调优...3.11 Impala(1T)3.11.1 impala简介3.11.2 impala架构3.11.3 impala工作原理...3.13 任务调度airflow3.13.1 airflow简介3.13.2 执行器3.13.3 架构...3.2 数据存储hdfs(2T)3.2.1 hdfs应用场景与架构组成3.2.2 hdfs HA 环境搭建3.2.3 hdfs 元数据瓶颈及解决...3.4 数据采集flume(1T)3.4.1 flume简介-基础知识3.4.2 flume安装与测试3.4.3 flume部署方式...3.6 数据同步Sqoop(0.5T)3.6.1 Sqoop简介以及使用3.6.2 Sqoop shell使用3.6.3 Sqoop-import...3.8 数据同步mysql-binlog(1T)3.8.1 mysql-binlog简介3.8.2 启停binlog3.8.3 常用binlog日志操作命令...3.10 hive(5T)3.10.1 Hive是什么3.10.2 Hive的特点3.10.3 Hive架构简述...3.12 任务调度Azkaban(1T)3.12.1 Azkaban简介3.12.2 Azkaban和oozie的对比3.12.3 Azkaban server安装配置...第四阶段:数仓建设(13T)4.1 数仓仓库(1T)4.1.1 数仓的历史4.1.2 数仓的背景4.1.3 数仓的定义...4.3 多维数据模型处理kylin(3.5T)4.3.1 kylin的概览4.3.2 安装部署4.3.3 集群模式部署...4.2 离线数仓项目-伴我汽车(5T)4.2.1 项目业务描述4.2.2 项目技术4.2.3 项目架构...4.4 离线数仓项目-伴我汽车升级4.4.1 加入kylin进行多维分析3.7.2 datax核心架构3.7.3 datax插件介绍...第五阶段:分布式计算引擎(22T)5.1 分布式计算引擎概述5.1.1 计算引擎介绍5.1.2 计算引擎分类...5.3 spark5.3.1 大数据架构体系5.3.2 架构详解5.3.3 Spark集群介绍...5.5 数据存储redis5.5.1 什么是NoSQL5.5.2 NoSQL数据库的分类5.5.2 NoSQL数据库的分类...5.7 离线项目-某p2p平台5.7.1 项目描述5.7.2 项目技术5.7.3 spark多数据源读写...5.2 scala语言(4T)5.2.1 变量的声明5.2.2 数据类型和操作符5.2.3 if流程控制...5.4 数据存储hbase5.4.1 Hbase来源5.4.2 Hbase的架构5.4.3 Hbase集群搭建...5.6 Kudu5.6.1 kudu简介5.6.2 kudu架构/原理5.6.3 kudu底层数据模型...5.8 第二阶段考试第六阶段:实时场景下的数据存储与计算(22T)6.1 数据通道(4T)6.1.1 Kafka的基本概念6.1.2 Kafka的发展历史6.1.3 Kafka的应用背景...6.3 流式数据处理flink(6T)6.3.1 flink应用场景及架构组成6.3.2 flink 流式处理6.3.3 flink sql...6.5 流式处理项目-某交通大数据平台(5T)6.5.1 实时场景处理业务数据6.5.2 可以进行数据明细的全文查询6.5.3 实时累计业务统计...6.2 实时数仓druid(5T)6.2.1 druid应用场景及架构组成6.2.2 druid内部流程6.2.3 druid 数据摄取...6.4 SparkStreaming(2T)6.4.1 Spark Streaming概述6.4.2 Spark Streaming的原理介绍6.4.3 Spark Streaming与Storm对比...6.6 第三阶段考试第七阶段:数据搜索(2T)7.1 elasticsearch7.1.1 全文检索技术简介7.1.2 ES安装配置入门7.1.3 ES插件安装7.1.4 ES基本操作7.1 elasticsearch7.1.9 CURL操作REST命令7.1.10 Windows安装CURL7.1.11 创建索引7.1.12 RestApi:练习7.1 elasticsearch7.1.17 更新文档数据7.1.18 删除文档数据7.1.19 条件查询QueryBuilder7.1.20 queryStringQuery搜索内容查询7.1 elasticsearch7.1.25 regexpQuery正则表达式查询7.1.26 matchAllQuery查询所有数据7.1.27 K分词器集成ES7.1.28 ES常用编程操作7.1 elasticsearch7.1.33查询文档分页操作7.1.34得分(加权)7.1.35在Query的查询中定义加权7.1.36 在Field字段的映射中定义加权7.1 elasticsearch7.1.5 Index的概念7.1.6 Document的概念7.1.7 Type的概念7.1.8 map映射的概念7.1 elasticsearch7.1.13 使用Java操作客户端7.1.14 新建文档(自动创建索引和映射)7.1.15 搜索文档数据(单个索引)7.1.16 搜索文档数据(多个索引)7.1 elasticsearch7.1.21 wildcardQuery通配符查询7.1.22 termQuery词条查询7.1.23 boolQuery布尔查询7.1.24 fuzzyQuery模糊查询7.1 elasticsearch7.1.29 索引相关操作7.1.30 映射相关操作7.1.31 文档相关操作7.1.32 IK分词器自定义词库7.1 elasticsearch7.1.37 过滤器7.1.38 范围过滤器7.1.39 布尔过滤器第八阶段:数据治理(2T)8.1 概念及构成8.1.1 数据标准8.1.2 数据分类8.1.3 数据建模...8.3 元数据、血缘及数据质量8.3.1 元数据及血缘构建8.3.2 基于Hive Hook的元数据及血缘构建8.3.3 Apache Atlas 开源元数据及血缘管理框架介绍...8.5 Spark Listener...8.7 数据治理项目-数据地图(5T)8.7.1 项目描述8.7.2 项目选型8.7.3 项目实现...8.2 neo4j8.2.1 图存储与查询介绍8.2.2 环境搭建8.2.3 cypher语言学习...8.4 Hive Hook...8.6 JanusGraph...第九阶段:BI系统(2T)9.1 Superset(BT)9.1.1 Superset简介9.1.2 Superset编译9.1.3 Superset安装9.1.4 创建数据源9.1.5 添加数据表9.1.6 表操作9.1.7 数据探索分析9.1.8 数据可视化9.1.9 可视化图表类型选择9.1.10 数据时间范围9.1.11 自定义9.2 Graphna (RealTime)9.2.1 grafana简介9.2.2 grafana安装部署9.2.3 grafana特征9.2.4 数据源9.2.5 快捷键9.2.6 插件9.2.7 http的api第十阶段:数据挖掘(10T)10.1 机器学习中的数学体系10.1.1微分学与梯度下降10.1.2数学分析与概率论10.1.3数理统计与参数估计10.1.4线性代数与信息论10.1.5凸优化...10.2 Spark MLlib机器学习算法库10.2.1 机器学习框架—假设函数、目标函数和*优函数10.2.2 特征工程—数值型特征、类别型特征和有序特征10.2.3 离散化处理10.2.4 读热向量编码10.2.5 TF-IDF权重...10.3 Python scikit-learn机器学习算法库10.3.1 回归与分类算法(理论上)10.3.2回归与分类算法(代码实战下)10.3.3支持向量机(理论上)10.3.4支持向量机(实战下)10.3.5决策树(Decision Tree)—>ID3、C4.5、Gini系数(理论上)...10.4 机器学习结合大数据项目10.4.1《金融风控领域用户贷款信用评分预测》10.4.2《搜狗知识图谱》...