📚 课程介绍
本课程深入讲解Spark大数据处理框架的进阶使用,结合Hbase、Redis和Hadoop等大数据技术栈,通过实战项目,教授如何进行大数据的离线与实时处理。
📋 学习前提
1. Java基础(Java编程语言基础) 2. Hadoop基础(分布式文件系统Hadoop的基本概念和操作) 3. Spark基础(Spark核心概念和基本操作) 4. HBase基础(HBase的架构和基本操作) 5. Redis基础(Redis的特性和基本操作)
📖 课程目录
第1章 课程介绍&学习指南
1-1 课程介绍
第2章 Redis入门
2-1 课程目录
2-2 Redis概述
2-3 Redis特性
2-4 Redis应用场景
2-5 Redis部署&服务启停&客户端连接
2-6 Redis多数据库特性
2-7 Redis基础命令的使用
2-8 Redis数据类型之string
2-9 Redis数据类型之list
2-10 Redis基本数据类型之set
2-11 使用Jedis对Redis进行操作
2-12 Redis工具类开发
第3章 HBase入门
3-1 数据存储现状
3-2 hbase是什么
3-3 hbase在生态圈中的位置以及列式存储带来的好处
3-4 hbase的特点
3-5 hbase vs rdbms vs hdfs
3-6 hbase的优势
3-7 hbase数据模型
3-8 jdk环境搭建
3-9 hadoop环境部署
3-10 zookeeper环境部署
3-11 hbase环境部署
3-12 hbase shell ddl操作
3-13 hbase shell dml操作
3-14 hbase api编程之开发前置准备工作
3-15 hbase api编程之创建表以及查询表和所有列族
3-16 hbase api编程之添加和修改记录
3-17 hbase api编程之通过rowkey获取值
3-18 hbase api编程之scan
3-19 hbase api编程之filter
3-20 hbase api编程之总结
第4章 离线项目实战V1
4-1 课程目录
4-2 项目背景
4-3 项目处理流程
4-4 项目离线和实时架构
4-5 明确架构图中每个步骤使用的技术以及职责所
4-6 项目指标需求
4-7 功能开发之useragent解析
4-8 功能开发之ip解析思路
4-9 功能开发之spark和hbase依赖整合
4-10 开发环境依赖使用说
4-11 功能开发之解析日志成dataframe并为dataframe添加字段信息
4-12 功能开发之将df内容转成hbase要存储的
4-13 功能开发之整体etl流程详解及如何传参设计
4-14 功能开发之创建hbase表
4-15 功能开发之hbase rowkey设计
4-16 功能开发之完成etl数据到hbase落地的全过程
4-17 功能开发之完成第一个指标的统计分析
4-18 功能开发之完成第二个指标的统计分析
4-19 性能优化之缓存的使用
4-20 功能开发之统计功能使用dataframe api以及sql api来完成
4-21 本章小结
第5章 离线项目实战优化
5-1 课程目录
5-2 spark on yarn
5-3 linux时间获取
5-4 shell封装spark作业提交脚本
5-5 将统计结果写入到mysql中
5-6 统计结果写入到mysql调优
5-7 spark etl到hbase优化之禁用wal
5-8 spark etl到hbase的hfile思路
5-9 spark产生hfile文件格式准备工作
5-10 spark产生hfile整个流程实现并总结
第6章 实时项目实战
6-1 课程目录
6-2 项目背景
6-3 项目架构及处理流程
6-4 项目需求
6-5 开发环境准备及参数配置统一管理
6-6 kafka部署及测试
6-7 mock数据
6-8 发送数据到kafka
6-9 sparkstreaming对接kafka数据
6-10 功能实现之每天的粒度统计1
6-11 功能开发之调优
6-12 功能实现小结
6-13 功能实现之每小时统计及代码重构
6-14 sparkstreaming对接kafka offset管理
第7章 初识Alluxio
7-1 课程目录
7-2 概述
7-3 spark应用存在的问题分析
7-4 alluxio能为我们带来什么
7-5 alluxio特点
7-6 在spark实战项目中引入alluxio
7-7 alluxio部署
7-8 alluxio文件系统命令行操作
7-9 alluxio整合hdfs使用
7-10 alluxio整合mapreduce使用
7-11 alluxio整合spark使用
7-12 alluxio案例分享之在百度的使用
7-13 alluxio案例分享之在去哪儿的应用
第8章 Spark优化
8-1 课程目录
8-2 调优之资源设置
8-3 调优之算子的合理选择
8-4 扩展之自定义排序一
8-5 扩展之自定义排序二(附带经典面试题)
8-6 扩展之自定义排序(隐式转换)
8-7 spark streaming调优之kafka限速
8-8 spark streaming对接kafka能真正做到仅消费一次吗
8-9 调优之序列化
8-10 调优之广播变量
