⚠️ 重要提醒:课程资源里面的所有加微信什么的不要信,上当受骗与本站无关。

📚 课程介绍

本课程通过分析慕课网的日志数据,深入讲解Spark SQL的使用,适合对大数据和Spark SQL感兴趣的学习者。

📋 学习前提

1. Java基础(Java是Spark SQL的主要开发语言) 2. Hadoop基础(Hadoop是Spark SQL运行的环境) 3. SQL基础(了解SQL语言有助于理解Spark SQL的查询语法)

⭐ 推荐指数

⭐⭐⭐⭐☆ (4/5星)

📖 课程目录

第1章 初探大数据

1-1 导学

1-2 如何学好大数据

1-3 开发环境介绍

1-4 ooptb镜像文件使用介绍

1-5 大数据

1-6 hadoop概述

1-7 hdfs概述及设计目标

1-8 hdfs架构

1-9 hdfs副本机制

1-10 hadoop下载jdk安装

1-11 机器参数设置

1-12 hdfs核心配置文件内容配置

1-13 hdfs格式化及启停

1-14 hdfs shell常用操作

1-15 HDFS优缺点

1-16 MapReduce概述

1-17 mapreduce编程模型及wordcount

1-18 yarn产生背景

1-19 yarn架构和执行流程

1-20 YARN环境搭建及提交作业到YARN上运行

1-21 Hive产生背景及Hive是什么

1-22 为什么要使用Hive及Hive发展历程

1-23 Hive体系架构及部署架构

1-24 Hive环境搭建

1-25 Hive基本使用

第2章 Spark及其生态圈概述

2-1 课程目录

2-2 Spark概述及特点

2-3 Spark产生背景

2-4 Spark发展历史

2-5 Spark Survey

2-6 Spark对比Hadoop

2-7 Spark和Hadoop的协作性

第3章 实战环境搭建

3-1 课程目录

3-2 Spark源码编译

3-3 补录:Spark源码编译中的坑

3-4 Spark Local模式环境搭建

3-5 Spark Standalone模式环境搭建

3-6 Spark简单使用

第4章 Spark SQL概述

4-1 课程目录

4-2 Spark SQL前世今生

4-3 SQL on Hadoop常用框架介绍

4-4 Spark SQL概述

4-5 Spark SQL愿景

4-6 Spark SQL架构

第5章 从Hive平滑过渡到Spark SQL

5-1 课程目录

5-2 A SQLContext的使用

5-3 B HiveContext的使用

5-4 C SparkSession的使用

5-5 spark-shell&spark-sql的使用

5-6 thriftserver&beeline的使用

5-7 jdbc方式编程访问

第6章 DataFrame&Dataset

6-1 课程目录

6-2 DataFrame产生背景

6-3 DataFrame概述

6-4 DataFrame和RDD的对比

6-5 DataFrame基本API操作

6-6 DataFrame与RDD互操作方式一

6-7 dataframe与rdd互操作方式

6-8 DataFrame API操作案例实战

6-9 Dataset概述及使用

第7章 External Data Source

7-1 课程目录

7-2 产生背景

7-3 概述

7-4 目标

7-5 操作Parquet文件数据

7-6 操作Hive表数据

7-7 操作MySQL表数据

7-8 Hive和MySQL综合使用

第8章 SparkSQL愿景

8-1 A SparkSQL愿景之一写更少的代码(代码量和可读性)

8-2 B SparkSQL愿景之一写更少的代码(统一访问操作接口)

8-3 C SparkSQL愿景之一写更少的代码(强有力的API支持)

8-4 D SparkSQL愿景之一些更少的代码(Schema推导)

8-5 E SparkSQL愿景之一写更少的代码(Partition Discovery)

8-6 F SparkSQL愿景之一写更少的代码(执行速度更快)

8-7 G SparkSQL愿景之一写更少的代码(Schema Merge)

8-8 H SparkSQL愿景之二读取更少的数据

8-9 I SparkSQL愿景之三让查询优化器帮助我们优化执行效率

8-10 J SparkSQL愿景总结

第9章 慕课网日志实战

9-1 课程目录

9-2 用户行为日志概述

9-3 离线数据处理架构

9-4 项目需求

9-5 imooc网主站日志内容构成

9-6 数据清洗之第一步原始日志解析

9-7 数据清洗之二次清洗概述

9-8 数据清洗之日志解析

9-9 数据清洗之ip地址解析

9-10 数据清洗存储到目标地址

9-11 需求一统计功能实现

9-12 Scala操作MySQL工具类开发

9-13 需求一统计结果写入到MySQL

9-14 需求二统计功能实现

9-15 需求二统计结果写入到MySQL

9-16 需求三统计功能实现

9-17 需求三统计结果写入到MySQL

9-18 代码重构之删除指定日期已有的数据

9-19 功能实现之数据可视化展示概述

9-20 ECharts饼图静态数据展示

9-21 ECharts饼图动态展示之一查询MySQL中的数据

9-22 ECharts饼图动态展示之二前端开发

9-23 使用Zeppelin进行统计结果的展示

9-24 Spark on YARN基础

9-25 数据清洗作业运行到YARN上

9-26 统计作业运行在YARN上

9-27 性能优化之存储格式的选择

9-28 性能调优之压缩格式的选择

9-29 性能优化之代码优化

9-30 性能调优之参数优化

第10章 Spark SQL扩展和总结

10-1 课程目录

10-2 Spark SQL使用场景

10-3 Spark SQL加载数据

10-4 DataFrame与SQL的对比

10-5 Schema

10-6 SaveMode

10-7 处理复杂的JSON数据

10-8 Spark SQL扩展

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。