《鲲鹏云大数据服务与基础应用实训》(40课时) |
|
建议前置课程:Linux操作系统(必修)、Java开发基础、Scala开发基础 |
|
时间 |
时段 |
实训内容 |
实训任务 |
学时 |
|
|
第一天 |
上午 |
一、基于鲲鹏架构的网站流量离线分析项目概述 |
1.1 网站分析概述 1.2 维度和指标 1.3 功能模块讲解 1.4 数据收集技术讲解 1.5 网站Cookie讲解 1.6 数据的格式讲解 |
4 |
|
下午 |
1.7 数据准备 1.8 实体表的设计 1.9 会话(session)表 1.10 最终模型 1.11 项目总体结构 1.12 基础知识回顾(Linux、Scala) |
4 |
|
第二天 |
上午 |
二、鲲鹏Bigdata pro环境准备 |
2.1 环境概述 2.2 OBS准备 2.3 申请ARM节点 2.4 下载软件包 2.5 安装jdk1.8 2.6 配置yum源 |
4 |
|
下午 |
2.7 Hadoop集群部署 2.8 HBase集群部署 2.9 Hive集群部署 2.10 Spark集群部署 2.11 数据采集工具部署 2.12 其他相关组件的部署 |
4 |
|
第三天 |
上午 |
三、业务功能实现(一) |
3.1 项目结构目录构建 3.2 原始预解析逻辑的实现并写入Hive 3.3 URL解析及ColumnReader实现 3.4 日志解析结构设计 3.5 鼠标点击事件及IP地址解析 3.6 日志解析功能实现 |
4 |
|
下午 |
3.7 搜索引擎和关键词的解析 3.8 来源类型和来源渠道的解析 3.9 MongoDB配置目标页面 3.10 目标结果的分析 3.11 Spark ETL依赖的jar包 3.12 Spark离线分析的流程 3.13 目标结果的实现 |
4 |
|
第四天 |
上午 |
四、业务功能实现(二) |
4.1 会话切割逻辑实现 4.2 会话聚合计算逻辑 4.3 Session字段的解析 4.4 PageView字段的解析计算 4.5 其他实体字段的解析计算 |
4 |
|
下午 |
4.6 将实体以avro的格式写到HDFS中 4.7 单元测试和集成测试以及结果验证 4.8 数据导入到最终的模型数据库中 4.9 user访问信息维度计算 |
4 |
|
第五天 |
上午 |
五、性能调优及真实场景分析 |
5.1 使用华为云监控服务查看集群状态 5.2 Hibench的安装与部署 5.3 数据重跑逻辑分析 5.4 使用Hibench分析程序执行结果 5.5 数据倾斜问题分析及解决 |
4 |
|
下午 |
5.6 通过SQL分析网站流量的情况 5.7 真实数据量及真实配置分析 5.8 真实项目团队分析 5.9 实训课程回顾 |
4 |
|
总学时 |
40 |
|