北京中科院计算所培训学校

当前位置: 首页 北京站 北京中科院计算所培训学校 北京JAVA培训
北京JAVA培训

北京JAVA培训

热度:
关注人数:0
价格
询底价

开课机构:北京中科院计算所培训学校

上课校区:海淀校区更多

联系电话: 400-029-0967 转 4856 预约试听

课程介绍

课程名称:基于Python的Spark大数据处理技术

各有关单位:
中国科学院计算技术研究所是国家专门的计算技术研究机构,同时也是中国信息化建设的重要支撑单位,中科院计算所培训中心是致力于高端IT类人才培养及企业内训的专业培训机构。中心凭借科学院的强大师资力量,在总结多年大型软件开发和组织经验的基础上,自主研发出一整套课程体系,其目的是希望能够切实帮助中国软件企业培养高级软件技术人才,提升整体研发能力,迄今为止已先后为国家培养了数万名计算机专业人员,并先后为数千家大型国内外企业进行过专门的定制培训服务。
Python是数据分析常用的语言之一,而Apache Spark是一个开源的强大的分布式查询和处理引擎。本培训用详尽的例子介绍了如何使用Python来调用Spark的新特性,如何处理结构化和非结构化的数据,如何使用PySpark中一些基本的可用数据类型,如何生成机器学习模型、操作图像、阅读串流数据以及在云上部署你的模型。
本培训结合实例来介绍PySpark大数据处理。内容包括对Apache Spark基础知识介绍,弹性分布式数据集RDD的内部运行方式讲解,分析利用DataFrame加速PySpark,准备数据建模,检查重复数据及异常数据,分析描述性统计、数据相关性,介绍MLlib数据挖掘工具应用,讲解ML机器学习包功能,使用Blaze实现持久化,讲解Tensorflow基础,分析结构化流Streaming,以及打包Spark应用程序,提交作业和监控执行等。通过实际操作,了解云环境下,大数据处理、数据探索的方法。
一、培训对象
1,有志于成为一名数据科学家的从业人员。
2,对大数据的前沿技术非常感兴趣的人员,有一定算法和编程基础的技术爱好者。
3,政府机关,金融保险、移动等以互联网信息为数据来源单位的负责人。
4,高校、科研院所牵涉到网络数据采集与数据处理及展现的项目负责人。
5,牵涉到网络采集、处理和规划的负责人、设计人员。
二、学员基础
1,对IT系统设计有一定的理论与实践经验。
2,有一定的python和大数据基础知识和开发经验。
三、师资
由业界知名大数据专家亲自授课:
杨老师 主要研究网络信息分析以及云计算相关技术,长期从事通信网管系统、网络信息处理、商务智能(BI)以及电信决策支持系统的研究开发工作,主持和参与了多个国家和省部级基金项目,具有丰富的工程实践及软件研发经验。
三、培训目的
1, 学习Python和Spark的相关知识。
2,学习Python和Spark的核心技术方法及应用。
3,了解Python和Spark在数据分析中的使用。
四、培训内容
第1讲 Spark基础知识
1)什么是Apache Spark
2)Spark作业和API
3)DataFrame和Dataset
4)Spark 2.0的架构
5)SparkSession介绍
6)Tungsten Phase 2
7)结构化流
第二讲 弹性分布式数据集
1)RDD的内部运行方式
2)创建RDD
3)全局作用域和局部作用域
4)RDD转换
5)RDD操作
第三讲 利用DataFrame加速PySpark
1)Python到RDD之间的通信
2)Catalyst优化器刷新
3)创建DataFrame
4)RDD的交互操作
5)利用DataFrame API查询
6)利用SQL查询
7)DataFrame应用实例
第四讲 准备数据建模
1)检查重复数据及异常数据
2)描述性统计
3)数据相关性
4)数据可视化
5)直方图
第五讲 MLlib数据挖掘工具
1)MLlib包概述
2)加载和转换数据
3)数据相关性和描述性统计
4)创建终数据集
5)MLlib应用实例-预测婴儿生存机会
第六讲 ML机器学习包
1)ML包的概述
2)分类、回归和聚类
3)使用ML预测婴儿生存率
4)ML超参调优
5)ML的特征提取
6)ML的其他功能
第七讲 使用Blaze实现持久化
1)安装Blaze
2)混合持久化
3)使用NumPy和pandas数据
4)与关系型数据库进行交互
5)数据操作和访问
6)数据连接
第八讲 Tensorflow基础
1)神经网络和深度学习
2)TensorFlow介绍和安装
3)配置和设置TensorFlow
4)使用TensorFlow进行矩阵分析
5)TensorFlow操作示例
第九讲 结构化流Streaming
1)Streaming介绍
2)Streaming的基本组件
3)Streaming应用程序数据流
4)用DStream简化Streaming应用程序
5)全局聚合
6)结构化流介绍
第十讲 打包Spark应用程序
1)spark-submit命令
2)以编程方式部署应用程序
3)配置你的SparkSession
4)创建SparkSession
5)模块化代码
6)提交作业和监控执行
五、培训时间、地点
时间: 2018年8月8日-8月10日 地点:北京
六、证书
培训结束,颁发中科院计算所职业培训中心“基于Python的Spark大数据处理技术”结业证书。
七、费用
培训费:5800元/人(含教材、证书、午餐、学习用具等)。住宿协助安排,费用自理。

  • 60 课程
  • 1 校区
  • 0 真实评价
立即咨询
北京IT辅导班
上海IT辅导班
广州IT辅导班
深圳IT辅导班
天津IT辅导班
重庆IT辅导班
济南IT辅导班
杭州IT辅导班
青岛IT辅导班
郑州IT辅导班
石家庄IT辅导班
西安IT辅导班
沈阳IT辅导班
武汉IT辅导班
成都IT辅导班
厦门IT辅导班
大连IT辅导班
南京IT辅导班
苏州IT辅导班
宁波IT辅导班
长沙IT辅导班
昆明IT辅导班
北京软件工程师辅导机构
上海软件工程师辅导机构
广州软件工程师辅导机构
深圳软件工程师辅导机构
天津软件工程师辅导机构
重庆软件工程师辅导机构
济南软件工程师辅导机构
杭州软件工程师辅导机构
青岛软件工程师辅导机构
郑州软件工程师辅导机构
石家庄软件工程师辅导机构
西安软件工程师辅导机构
沈阳软件工程师辅导机构
武汉软件工程师辅导机构
成都软件工程师辅导机构
厦门软件工程师辅导机构
大连软件工程师辅导机构
南京软件工程师辅导机构
苏州软件工程师辅导机构
宁波软件工程师辅导机构
长沙软件工程师辅导机构
昆明软件工程师辅导机构
北京
上海
广州
深圳
天津
重庆
济南
杭州
青岛
郑州
石家庄
西安
沈阳
武汉
成都
厦门
大连
南京
苏州
宁波
长沙
昆明
北京站触屏版
北京IT技术培训触屏版
北京软件开发培训触屏版
北京中科院触屏版
以上是小编精心为您整理的北京中科院简介,软件开发培训_IT技术培训课程报价,0条中科院学员真实评价,海量优质培训课程供您选择,选择优质培训班,就到北京中科院。
400-029-0967 转 4856