分布式计算框架包含存储层、计算层、资源调度层三个核心模块。HDFS实现跨节点数据存储,NameNode与DataNode构成主从架构,默认3副本机制确保数据安全。MapReduce采用分治策略,通过Split->Map->Shuffle->Reduce四阶段完成TB级数据处理。
组件 | 功能特性 | 版本特性 |
---|---|---|
HDFS 3.3 | 支持EC编码/异构存储 | 存储效率提升40% |
YARN 3.3 | 支持Docker容器化 | 资源利用率提升35% |
项目环境采用Cloudera商业发行版,配备真实数据集与自动化评测系统。学员需完成从集群部署、数据清洗到可视化呈现的全流程开发。
阶段重点掌握HDFS文件存取机制与MapReduce编程模型,通过WordCount案例理解分布式计算原理。第二阶段深入YARN资源调度策略,学习Hive数据仓库构建与HBase实时查询优化。最终阶段进行Spark on YARN性能调优,完成跨平台数据管道搭建。
提供7×24小时在线实验环境,配备双师资答疑(开发工程师+架构师)。课程资料包含12套实验手册、38个典型场景解决方案,结业颁发Cloudera认证证书。