type
status
date
slug
summary
tags
category
icon
password
首先本文章只负责怎么去搭建,而不负责怎么讲解详细的内容
需要详细内容请前往 离线数仓6.0
请先把Hadoop全家桶搭建完毕。阿里云安装Hadoop基础
📝 主旨内容
1.开始文件准备和准备工作
命令脚本记得给权限,参考脚本
记得给权限
这三个不用管,所以开始前我们需要确定有这些文件和配置
2.MySQL建表
创建一个数据库gmall
运行sql文件
为Maxwell进行MySQL的配置
创建数据库
修改Maxwell配置文件
3.数据同步
3.1 Datax设置
执行
3.2 全量表同步
等一会时间,让数据跑一会
我们会发现多出来17张表
3.3增量表同步
观察发现
多出来13张表,也就是说,现在有30张表
4 数据模拟准备
4.1.先将HDFS上/origin_data路径下之前的数据删除
4.2.数据准备
运行lg.sh模拟数据
接下来将修改为
再次运行lg.sh
到后面将时间修改为06,07分别运行lg.sh
4.3.删除/origin_data/gmall/log目录
将时间修改为08并执行lg.sh
4.4.全量表同步
4.5.清空MySQL中的maxwell数据库的表
启动Maxwell
4.6.DataGrip 中注释乱码问题
5.Hive表的创建
5.1 ODS
执行ods.sql的内容
然后执行下面命令
5.2 DIM
执行DIM.sql
1.先执行到这两个线条上面,然后上传date_info.txt到/warehouse/gmall/tmp/tmp_dim_date_info
其余的直接执行
5.3 DWD
执行dwd.sql
5.4 DWS
执行dws.sql
5.5 ADS
执行ads.sql
5.6 MySQL创建表
执行MySQL建库建表.sql
5.7 报表导出
5.7.1 编写DataX
vim /opt/module/gen_datax_config/configuration.properties
6.最终数据的开始
注意:对自己机器有信心的话,直接执行脚本,没信心的话,执行一个,重启或者等待几分钟执行下一个
6.1 修改时间
6.2 启动全部进程
查看进程:
6.3 开始
等吧,每个半个小时起步或者一个小时,是搞不定的
7.可视化报表
7.1安装Miniconda
下载
执行
指定安装路径 /opt/module/miniconda3
添加环境变量和刷新一遍,然后在关闭窗口重新开一遍
取消激活base环境
创建环境
7.2下载依赖
更新pip
上传base.txt到任意目录下,且cd到该目录
安装superset
7.3配置Superset元数据库
修改superset配置文件
更具自己的地址来修改
vim中查找方法
执行两次就到我们需要的位置
7.4安装python msyql驱动
SupersetSet初始化
随便输入记得住就行
启动
当当进来了
8. 开始绘图
8.1 配置数据源
Table配置
按需求添加自己需要的
开始绘图
我没跑数据,所以就这一点
剩下的图
全国图:
品牌下单统计图:
物品饼图:
- Author:YXH1024
- URL:http://bk.yxh666.top/article/b98b2eac-da2e-4470-9d44-42692277710d
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!