近年来,存储设备的单位成本以惊人的速度下降,我们可以轻而易举地积累起大量的数据。电信 运营商,可以记录用户通话、短消息、无线上网产生的每一条信令,省级运营商一小时写入存储设备的数据量可以达到几百G。 电子商务网站,可以记录用户的每一 次交易,甚至每一次点击,可以复原用户的完整访问路径找出用户的兴趣点。城市监控体系,在各个重要路口,高速公路上的摄像头,每秒钟都在产生海量的视频数 据。在生命科学领域,对人体的DNA分析,一个个体就能产生几个G数据,可以想象如果一个生物信息数据库里包含了成千万的个体数据,信息量将会是怎样一个 规模,如此等等,不胜枚举。我们毫无疑问,正处于一个信息迸发的时代。 不幸的是,我们得到的这些数据中的绝大部分,在它的生命周期里基本上都被闲置着,从来没有考虑过产生任何的价值,的用途就是“保存备查”。 尽管“啤酒与尿布”的故事,已经写入教科书有10多年了,几乎每一个接受过专业教育的同仁都知道数据挖掘能产生的价值,但是直到今天,我们对数据的处理依然很低。造成这种情况的原因有很多。 其中之一是,在各公司里保管数据的大多是IT人员,他们通常都缺乏必要的数学素质和知识基础去进行建模和深入的分析工作,即使是业务人员也鲜有对数据有深入认识者。 我们推出大数据系列(包括Hadoop,NoSQL,Mahout等)和数据分析系列(包括R,SAS等)课程后,观察学员(特别是IT工作者和业务人员)的学习状况,发现他们中的大多数严重缺乏进一步挖掘数据价值所需的数学素养。 本门课程的目标,正是要打破这种鸿沟,为大家巩固基础,为进一步在数据领域前进提供更强动力。统计学,被誉为是数据金字塔的“基础之基础”,统计学知识扎实,无论学习R,SAS,机器学习,数据挖掘,大数据分析等领域知识都会得心应手,省去回头补课的麻烦。 课程内容: 第1课 面向小白的统计学:描述性统计(均值,中位数,众数,方差,标准差,与常见的统计图表) 第2课 赌博设计:概率的基本概念,古典概型 第3课 每人脑袋里有个贝叶斯:条件概率与贝叶斯公式,独立性 第4课 啊!微积分:随机变量及其分布(二项分布,均匀分布,正态分布) 第5课 万事皆由分布掌握:多维随机变量及其分布 第6课 砖家的统计学:随机变量的期望,方差与协方差 第7课 上帝之手,统计学的哲学基础:大数定律、中心极限定理与抽样分布 第8课 点数成金,从抽样推测规律之一:参数估计之点估计 第9课 点数成金,从抽样推测规律之二:参数估计之区间估计 第10课 对或错?告别拍脑袋决策:基于正态总体的假设检验 第11课 扔掉正态分布:秩和检验 第12课 预测未来的技术:回归分析 第13课 抓住表象背后那只手:方差分析 第14课 沿着时间轴前进,预测电子商务业绩:时间序列分析简介 第15课 PageRank的背后:随机过程与马尔科夫链简介 授课对象: 这是一门数学课程,适合有志于转往大数据分析领域的非数学专业人士(例如IT人,业务人员等)补强数学基础,以更好地学习更高级的数据分析,数据挖掘,机器学习课程 收获预期: 可以大幅度提高学员的数学基础,使其学习其它大数据分析课程时觉得更加简单,得心应手