大数据Hadoop与Spark架构应用实战培训

大数据Hadoop与Spark架构应用实战培训

价格:联系客服报价

授课讲师:张晓诚

讲师资历

培训时长 2-5天
授课对象
授课方式 内训

课程目标

课程大纲

培训受众: 需要使用Apache Hadoop来开发功能强大的数据分析应用的程序开发人员; Hadoop项目规划的咨询师; 需要快速掌握Hadoop周边组件开发的人员; 需要掌握Java、Linux。课程收益: 1.深刻理解在“互联网 ”时代下大数据的产生背景、发展历程和演化趋势; 2.了解业界市场需求和国内外最新的大数据技术潮流,洞察大数据的潜在价值; 3.理解大数据项目解决方案及业界大数据应用案例,从而为企业在大数据项目中的技术选型及技术架构设计提供决策参考; 4.掌握业界最流行的Hadoop与Spark大数据技术体系; 5.掌握大数据采集技术; 6.掌握大数据分布式存储技术; 7.掌握NoSQL与NewSQL分布式数据库技术; 8.掌握大数据仓库与统计机器学习技术; 9.掌握大数据分析挖掘与商业智能(BI)技术; 10.掌握大数据离线处理技术; 11.掌握Storm流式大数据处理技术; 12.掌握基于内存计算的大数据实时处理技术; 13.掌握大数据管理技术的原理知识和应用实战; 14.深入理解大数据平台技术架构和使用场景; 15.娴熟运用Hadoop与Spark大数据技术体系规划解决方案满足实际项目需求; 16.掌握如何部署符合生产环境要求的Hadoop大数据集群; 17.熟练地掌握基于Hadoop与Spark大数据平台进行应用程序开发、集群运维管理和性能调优技巧。课程大纲:第一天上午大数据技术基础1. 大数据的产生背景、发展历程2. 大数据和云计算的关系3. 大数据应用需求以及潜在价值分析4. 业界最新的大数据技术发展态势与应用趋势5. 大数据项目的技术选型与架构设计6. “互联网 ”时代下的电子商务、制造业、零售批发业、电信运营商、互联网金融业、网上银行、电子政务、移动互联网、教育信息化等行业应用实践与应用案例剖析业界主流的大数据技术产品与项目解决方案1. 国内外主流的大数据解决方案介绍2. 当前大数据解决方案与传统数据库方案的剖析比较3. Apache大数据平台方案剖析4. CDH大数据平台方案剖析5. HDP大数据平台方案剖析6. 开源的大数据生态系统平台剖析Hadoop大数据平台剖析1. Hadoop的发展历程以及产业界的实际应用介绍2. Hadoop大数据平台架构3. 基于Hadoop平台的PB级大数据存储管理与分析处理的工作原理与机制4. Hadoop的核心组件剖析第一天下午大数据分布式存储系统原理及其应用实践1. 分布式文件系统HDFS的简介2. HDFS系统的主从式平台架构和工作原理3. HDFS核心组件技术讲解4. 基于HDFS的大型存储系统应用开发实战5. HDFS集群的安装、部署、配置与性能优化实践6. HDFS与Linux NFS3交互技术以及本地化部署应用实践7. 分布式键值存储系统的平台架构、核心技术以及应用开发8. PB级大数据存储项目的案例分析大数据MapReduce与Yarn并行处理平台1. MapReduce并行计算模型2. MapReduce作业执行与调度技术3. 第二代大数据计算框架Yarn的工作原理以及DAG并行执行机制4. MapReduce应用开发环境的部署,以及大数据并行处理应用程序开发5. MapReduce高级编程技巧与性能优化实践6. MapReduce与Yarn大数据分析处理案例分析Hadoop应用实践操作训练1. 部署与配置HDFS,熟练操作HDFS SHELL,HDFS与NFS操作,以及HDFS API开发实践2. 部署与配置MapReduce与Yarn及其开发实践3. Hadoop的Linux二次开发环境部署与配置第二天上午H分布式数据库管理系统1. NoSQL数据库与NewSQL数据库技术介绍,及其在半结构化和非结构化大数据方面的应用实践2. Hadoop分布式数据库简介、数据模型以及工作原理3. Hadoop分布式数据库集群的平台架构和关键技术剖析4. Hadoop应用项目开发技巧,以及客户端开发实战5. Hadoop表设计与数据操作以及数据库管理API调用6. Hadoop集群的安装部署与配置优化7. ZooKeeper分布式协调服务系统的工作原理、平台架构、集群部署与配置应用实战8. H集群的运维与监控管理Hadoop半结构化数据管理应用实践操作训练1. 部署与配置H集群以及H的性能优化2. 部署与配置ZooKeeper分布式集群3. 构建Hadoop开发环境4. Hadoop数据库操作及项目实践第二天下午Hive大型数据仓库集群平台及其应用实践1. 基于Hadoop的大型分布式数据仓库基础知识,HIVE在行业中的数据仓库应用案例2. Hive大数据仓库简介以及应用介绍3. Hive数据仓库集群的平台体系结构、核心技术剖析4. Hive Server的工作原理、机制与应用5. Hive数据仓库集群的安装部署与配置优化6. Hive应用开发技巧7. Hive SQL剖析与应用实践8. Hive数据仓库表与表分区、表操作、数据导入导出、客户端操作技巧9. Hive数据仓库报表设计10、Hive JDBC与ODBC的工作原理与实现机制11、Hive HWI、CLI客户端操作以及UDF应用实践Mahout大数据分析挖掘平台及其应用实践1. Mahout集群的安装部署与配置优化2. Mahout实现客户分析,广告分析,日志分析,规律预测,关联分析,定向推荐等应用程序的开发与应用实战3. Mahout性能优化与分析挖掘算法参数的优化技巧Hive数据仓库与Mahout数据挖掘平台的应用实践操作训练1. 部署与配置HIVE集群,以及HIVE性能调优2. 构建HIVE开发环境3. HIVE数据仓库操作及项目实践4. 实现Mahout与Hadoop H的应用集成,实现日志数据分析挖掘项目的应用实践第三天上午Spark大数据实时处理平台剖析1. Spark的发展历程以及业界的实际应用介绍2. Spark实时大数据处理平台架构3. Spark RDD内存弹性分布式数据集的工作原理与机制4. Spark的核心组件剖析5. 基于Spark的实时数据仓库与实时分析挖掘处理在行业中的应用实践案例基于Spark的实时数据仓库和实时数据分析挖掘处理平台的实现机制,以及SparkSQL,Spark Streaming,MLib,GraphX,SparkR的应用实践1. 内存计算模型和实时处理技术介绍2. Spark中各个分布式组件的处理框架及工作原理3. Spark SQL实时数据仓库的实现原理机制及应用实践4. Spark Streaming流式数据实时处理机制及应用实践5. Spark MLib实时机器学习算法应用实践与案例应用6. Spark GraphX实时图数据处理应用实践与社交网络分析应用案例7. SparkR的实现原理与应用实践8. Spark组件的应用编程开发实战9. Spark与Hadoop的集成解决方案实践Spark平台与各个组件的实践操作训练1. 部署与配置Spark集群,以及Spark性能调优2. 构建Spark开发环境3. Spark程序运行以及操作4. Spark SQL应用操作实训5. Spark Streaming应用操作实训6. Spark MLib应用操作实训7. Spark GraphX应用操作实训8. SparkR应用操作实训9. Spark与H集成数据分析实验实训第三天下午Storm流式数据处理平台架构及其应用实践1. Storm流式处理系统的平台架构和工作原理2. Storm关键技术剖析3. Storm集群安装部署与配置优化4. Storm日志流数据分析项目应用实战5. Storm和Hadoop,Spark的应用集成项目实践大数据智能化ETL操作工具以及Hadoop集群运维监控工具平台应用1. Hadoop与DBMS之间数据交互工具的应用2. Sqoop导入导出数据的工作原理,以及Sqoop集群安装部署与配置3. Kettle集群的平台架构、核心技术工作原理以及应用案例4. Kettle大数据ETL工具的部署与配置,以及应用实战5. 利用Sqoop实现MySQL与Hadoop集群之间的数据导入导出交互程序6. Hadoop大数据运维监控管理系统HUE平台的安装部署与应用配置7. Hadoop运维管理监控系统Ambari平台的安装部署与应用配置8. Hadoop集群运维系统Ganglia, Nagios的安装部署与应用配置大数据分布式采集与分布式消息订阅系统及其应用实践(可选)1. Flume-NG数据采集系统的数据流模型、平台架构、集群部署与配置应用实战2. Kafka分布式消息订阅系统的应用介绍、平台架构、集群部署与配置应用实战内存数据库管理系统及其应用实践(可选)1. Impala实时查询系统平台架构、核心关键技术剖析2. Impala实时查询系统的部署与应用开发实践3. Redis内存数据库集群架构以及核心技术剖析4. Redis集群的部署与应用开发实战与案例分析Cassandra数据管理系统应用实践(可选)1. Cassandra集群的平台架构以及核心关键技术2. Cassandra一致性哈希算法与数据对象分布策略3. Cassandra集群的安装部署与配置优化4. Cassandra应用开发实战与案例分析大数据项目应用完整实践与咨询讨论1. 根据讲师布置的实际应用案例,开展大数据完整项目部署设计和应用开发实践2. 大数据项目的需求分析、应用实施以及解决方案分享咨询与交流讨论