目录
- 背景
- 一、环境规划与依赖准备
- 1. 服务器规划(3节点集群)
- 2. 系统与依赖
- 3. Hadoop生态组件版本与下载路径
- 二、Hadoop(HDFS+YARN)安装与配置
- 1. 下载与解压(所有节点)
- 2. HDFS高可用配置
- 3. YARN资源配置
- 4. 启动Hadoop集群
- 三、MySQL安装与Hive元数据配置
- 1. 安装MySQL(Master节点)
- 2. Hive配置连接MySQL
- 3. 初始化Hive元数据
- 四、Sqoop安装与数据迁移实战
- 1. 下载与配置(Master节点)
- 2. 配置环境变量
- 五、Azkaban工作流调度系统部署
- 1. 安装Azkaban(Master和Worker1节点)
- 2. 配置Azkaban
- 3. 启动服务
- 六、Hue可视化平台与ZooKeeper配置
- 1. Hue安装与配置(Master节点)
- 2. ZooKeeper集群配置
- 六、常见问题解决方案
- 七、总结与维护指南
- 1. 核心组件配置表
- 2. 维护建议
- 3. 部署建议
背景
对于中小企业,构建一套完整的本地化大数据平台需兼顾成本(5w内)、易用性和扩展性。基于Hadoop生态的组件(HDFS、YARN、Hive)结合数据工具(Sqoop、Azkaban)、可视化工具(Hue)和协调服务(ZooKeeper),能够实现从数据存储、计算、调度到可视化的全链路管理。
本文基于生产环境实践,详细讲解以下组件的安装、配置与联动:
- 存储与计算:HDFS、YARN、Hive
- 数据迁移:Sqoop(Hive与MySQL数据互通)
- 调度系统:Azkaban
- 可视化与协调:Hue、ZooKeeper
- 元数据管理:MySQL
(一、环境规划与依赖准备中)提供全组件官方下载地址 和 配置模板,助您快速搭建企业级数据平台!
一、环境规划与依赖准备
1. 服务器规划(3节点集群)
节点角色 | IP地址 | 部署服务 |
---|---|---|
Master | 192.168.1.101 | NameNode、ResourceManager、Hive、Hue、ZooKeeper、Azkaban Web Server、MySQL |
Worker1 | 192.168.1.102 | DataNode、NodeManager、ZooKeeper、Azkaban Executor |
Worker2 | 192.168.1.103 | DataNode、NodeManager、ZooKeeper |
2. 系统与依赖
- 操作系统:CentOS 7.9(所有节点)
- JDK:JDK 8u381(下载地址)
- MySQL:5.7.44(存储Hive元数据)
- Python:3.6+(Hue依赖)
3. Hadoop生态组件版本与下载路径
组件 | 稳定版本 | 官方下载路径 |
---|---|---|
HDFS | 3.3.6 | Apache Hadoop Releases |
YARN | 3.3.6 | 同上 |
Hive | 3.1.3 | Apache Hive Downloads |
Hue | 4.11.0 | Gethue Releases |
ZooKeeper | 3.7.1 | Apache ZooKeeper |
MySQL | 5.7.44 | MySQL Community Server |
Sqoop | 1.4.7 | Apache Sqoop |
Azkaban | 4.0.0 | Azkaban GitHub Releases |
Python 3.6+ | EPEL 仓库安装 | 1. sudo yum install -y epel-release 2. sudo yum install -y python36 python36-devel |
二、Hadoop(HDFS+YARN)安装与配置
1. 下载与解压(所有节点)
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -zxvf hadoop-3.3.6.tar.gz -C /opt
mv /opt/hadoop-3.3.6 /opt/hadoop
2. HDFS高可用配置
1)core-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://mycluster</value> </property> <property> <name>hadoop.tmp.dir</name