课程内容: 
                        (一)基础理论部分 
                          1.数据分析基础 
                          (1)数据分析过程概述 
                          (2)概率论与数据统计 
                          (3)抽样估计与假设检验 
                          (4)方差分析与回归分析 
                        2.java基础 
                          (1)JDK的安装配置,Java基本知识、数据类型以及基本语法 
                          (2)Eclipse的编程入门 
                          (3)面向对象的思想基本介绍,类、对象、接口、封装、继承 
                          (4)Java的集合类——数组、Set、List、Map、Queue 
                          (5)异常处理——Checked Exception、Unchecked Exception,如何通过异常信息捕获错误 
                          (6)Java的垃圾回收机制以及多线程简介 
                          (7)Java的文件操作、包的概念及如何打包 
                          (8)数据库基础知识及SQL语法 
                          (9)基于servlet技术的B/S应用开发及代码实现案例详解 
                        3.linux基础 
                          (1)linux的介绍 
                          (2)Linux入门:选择合适的Linux发行版、如何安装Linux 
                          (3)linux操作系统命令及使用命令编辑文件 
                          (4)Linux下SSH命令使用方法详解 
                        (二)hadoop理论课程 
                          1.hadoop安装配置及运行机制解析 
                          本节是大数据分析的环境搭建课程,属于操作型课程,主要讲述如何在linux单机上面安装hadoop的伪分布模式,在linux集群上面安装hadoop集群。对于不熟悉linux的同学,课程中会简单的讲解常用的linux命令。这两种是必须要掌握的。通过讲师手把手、面对面的交流,教会学员自己搭建一个真实的hadoop环境,在此环境下运行hadoop自带的小程序。主要内容包括: 
                        (1)从google的三篇大数据论文说起 
                          (2)Hadoop 概念、版本、历史 
                          (3)Hadoop 伪分布及集群的详细安装步骤 
                          (4)三个hadoop自带的小例子带你进入hadoop的世界 
                          (5)使用如何通过命令行和浏览器观察hadoop的运行过程 
                          (6)介绍hadoop的安全模式 
                          (7)如何查看日志信息 
                        2.Hadoop分布式文件系统深入剖析 
                          本节将对hadoop架构的分布式文件系统HADFS进行深入的分析,hdfs是所有hadoop系统的基础,它是hadoop的核心内容之一。主要的内容包括: 
                        (1)深度分析google的Google GFS 文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。 
                          (2)HDFS的概念及设计 
                          (3)Hdfs体系结构及运行机制详述 
                          (4)NameNode、DataNode、SecondaryNameNode的作用及运行机制 
                          (5)block 的划分原理、存储方式和配置文件 
                          (6)hdfs的备份机制和文件管理机制 
                          (7)HDFS文件系统的常用命令 
                          (8)使用命令及JAVA语句操作hdfs中的文件 
                          (9)rpc机制简介及HADFS中的rpc通信 
                        3.MapReduce理论及实战 
                          (1)深度分析google的MapReduce编程模型 
                          (2)hadoop中的MapReduce工作原理 
                          (3)通过演示单词计数程序,详细讲述mapreduce运行过程中类的调用过程 
                          (4)详细讲述如何覆盖 Mapper 功能、如何覆盖 Reducer 功能。 
                          (5)MapReduce job的生命周期中job提交、task分发和task执行 
                          (6)MapReduce中block 的调度及作业分配机制 
                          (7)讲解hadoop的计数器、排序、分组等算法 
                          (8)通过一个小的应用,详细介绍如何在eclipse中编写MapReduce程序,打包成可在hadoop上运行的jar,并在集群上运行 
                          (9)详细讲解运行结果的分析 
                        4.hadoop生态环境介绍 
                          (1)Hbase简介,包括HBase的基础概念 、数据模型、存储模型及hbase的伪分布和集群的安装 
                          (2)ZooKeeper简介,包括ZooKeeper的安装、运行及示例 
                          (3)Pig简介,包括Pig的安装、运行及示例 
                          (4)Hive简介,包括Hive的安装、运行及示例 
                          (5)sqoop简介,包括Sqoop介绍、命令、原理及流程 
                          (6)nosql简介,包括nosql的概念、种类及发展趋势 
                        (三)大数据分析思想、工具及实战案例 
                          1.大数据分析思想介绍 
                          (1)大数据分析的前世今生 
                          (2)几种典型的大数据架构分析 
                          (3)大数据分析过程描述 
                          (4)大数据时代的数据分析思想的变革 
                        2.Mahout,大数据分析的急先锋 
                          Mahout 是 Apache SoftwareFoundation(ASF)旗下的一个开源项目,它通过和hadoop配合,实现在推荐、分类等领域中的大数据分析。 
                          (1)Mahout的下载、安装与部署 
                          (2)UCI经典数据集介绍 
                          (3)使用经典数据集测试和运行Mahout实现的算法 
                          (4)主要算法包括:kmeans算法、canopy算法、dirichlet 算法和meanshift算法 
                        3.RHadoop,R语言从小数据分析到大数据分析的化丽转身 
                          (1)R语言简介 
                          (2)安装并运行RHadoop 
                          (3)RHadoop的逻辑结构 
                          (4)Rhadoop实战案例—word cout 
                          (5)与hadoop word count 函数比较分析 
                      4.大数据分析项目案例  |