北京中科院计算所培训学校

北京软件开发培训公司

咨询

暂无报价

立即询价
联系老师

400-029-0967转4856 中科院 老师接听

开课机构北京中科院计算所培训学校
开课地址海淀校区
开课日期滚动开班

课程介绍

关于举办“基于Python的Spark大数据挖掘技术”培训的通知各有关单位:中国科学院计算技术研究所是国家专门的计算技术研究机构,同时也是中国信息化建设的重要支撑单位,中科院计算所培训中心是致力于高端IT类人才培养及企业内训的专业培训机构。中心凭借科学院的强大师资力量,在总结多年大型软件开发和组织经验的基础上,自主研发出一整套课程体系,其目的是希望能够切实帮助中国软件企业培养高级软件技术人才,提升整体研发能力,迄今为止已先后为国家培养了数万名计算机专业人员,并先后为数千家大型国内外企业进行过专门的定制培训服务。Python是数据分析最常用的语言之一,而Apache Spark是一个开源的强大的分布式查询和处理引擎。本培训用详尽的案例介绍如何使用Python来调用Spark的新特性,如何处理结构化和非结构化的数据,如何使用PySpark中一些基本的可用数据类型,如何生成机器学习模型、操作图像、阅读串流数据以及在云上部署模型。本培训结合实例来介绍PySpark大数据挖掘。内容包括对Apache Spark基础知识介绍,弹性分布式数据集RDD的内部运行方式讲解,分析利用DataFrame加速PySpark,准备数据建模,检查重复数据及异常数据,分析描述性统计、数据相关性,介绍MLlib数据挖掘工具应用,讲解ML机器学习包功能,使用Blaze实现持久化,讲解Tensorflow基础,分析结构化流Streaming,以及打包Spark应用程序,提交作业和监控执行等。本培训将合实例,对Python和Spark进行讲解,通过实际操作,了解云环境下,大数据处理、数据探索的基本方法。一、培训对象1,对大数据的前沿技术非常感兴趣的人。2,有志于成为一名数据科学家的从业人员。3,有一定算法和编程基础的技术爱好者。二、学员基础1,对IT系统设计有一定的理论与实践经验。2,对数据挖掘和数据处理方法有一定的基础知识。3,对Hadoop/Spark等大数据技术有一定的了解。三、师资由业界知名大数据专家亲自授课:杨老师 主要研究网络信息分析以及云计算相关技术,长期从事通信网管系统、网络信息处理、商务智能(BI)以及电信决策支持系统的研究开发工作,主持和参与了多个国家和省部级基金项目,具有丰富的工程实践及软件研发经验。四、培训内容第一讲 Spark基础知识1)什么是Apache Spark2)Spark作业和API3)DataFrame和Dataset4)Spark 2.0的架构5)SparkSession介绍6)Tungsten Phase 27)结构化流第二讲 弹性分布式数据集1)RDD的内部运行方式2)创建RDD3)全局作用域和局部作用域4)RDD转换5)RDD操作第三讲 利用DataFrame加速PySpark1)Python到RDD之间的通信2)Catalyst优化器刷新3)创建DataFrame4)RDD的交互操作5)利用DataFrame API查询6)利用SQL查询7)DataFrame应用实例第四讲 准备数据建模1)检查重复数据及异常数据2)描述性统计3)数据相关性4)数据可视化5)直方图第五讲 MLlib数据挖掘工具1)MLlib包概述2)加载和转换数据3)数据相关性和描述性统计4)创建最终数据集5)MLlib应用实例-预测婴儿生存机会第六讲 ML机器学习包1)ML包的概述2)分类、回归和聚类3)使用ML预测婴儿生存率4)ML超参调优5)ML的特征提取6)ML的其他功能第七讲 使用Blaze实现持久化1)安装Blaze2)混合持久化3)使用NumPy和pandas数据4)与关系型数据库进行交互5)数据操作和访问6)数据连接第八讲 Tensorflow基础1)神经网络和深度学习2)TensorFlow介绍和安装3)配置和设置TensorFlow4)使用TensorFlow进行矩阵分析5)TensorFlow操作示例第九讲 结构化流Streaming1)Streaming介绍2)Streaming的基本组件3)Streaming应用程序数据流4)用DStream简化Streaming应用程序5)全局聚合6)结构化流介绍第十讲 打包Spark应用程序1)spark-submit命令2)以编程方式部署应用程序3)配置你的SparkSession4)创建SparkSession5)模块化代码6)提交作业和监控执行五、培训目标1, 学习Python和Spark的相关基础知识。2,学习Python和Spark的核心技术方法及应用。3,了解Python和Spark在数据分析中的使用。六、时间、地点时间: 2018年6月12日-6月14日 地点:北京七、证书培训结束,颁发中科院计算所职业培训中心“基于Python的Spark大数据挖掘技术”结业证书。八、费用培训费:5800元/人(含教材、证书、午餐、学习用具)。住宿协助安排,费用自理。

精选课程

北京编程技术培训

北京编程技术培训

班型:小班 预约试听
北京java技术培训中心

北京java技术培训中心

班型:小班 预约试听
北京培训软件开发

北京培训软件开发

班型:小班 预约试听
北京计算机编程培训

北京计算机编程培训

班型:小班 预约试听

所在机构

北京中科院计算所培训学校
北京中科院计算所培训学校

具有多年丰富实际开发与教学经验兼备的优秀专职教师队伍、咨询专家

查看机构 联系机构

当前位置: 首页 / 北京培训 / 北京中科院 / 课程详情
与北京中科院计算所培训学校专业老师免费通话
拨通后,需要手动拨打分机号码:
4856
立即拨打
关闭