NetApp 存储设备巡检作业指导书
一、目的
本指导书旨在指导管理员通过 SSH 或 Console 登录 NetApp FAS2552 存储系统,切换节点并进行日常管理操作。
二、适用范围
适用于基于 NetApp ONTAP 操作系统的 FAS2552 存储环境。
三、前提条件
-
网络和权限要求:
-
管理主机需与存储设备位于同一网络,或确保网络路由正常。
-
管理账户需具备管理员权限(如
admin
)。
-
-
准备工具:
-
SSH 客户端(推荐工具:SecureCRT、MobaXterm)。
-
存储设备的管理 IP 和登录凭据。
-
-
检查服务状态:
-
确认存储设备已启用 SSH 服务:
system services ssh show
如未启用,可运行以下命令:
system services ssh enable
-
四、操作步骤
1. 使用 SSH 远程登录
-
SecureCRT 登录:
-
打开 SecureCRT,点击 Quick Connect 或 File > Connect。
-
填写以下信息:
-
Hostname:存储设备的管理 IP 地址。
-
Port:默认端口为
22
,如有特殊配置填写指定端口。 -
Username:管理员账户(如
admin
)。 -
Authentication:选择 Password,并输入密码。
-
-
点击 Connect 进行连接。
-
-
MobaXterm 登录:
-
打开 MobaXterm,点击 Session > SSH。
-
填写以下信息:
-
Remote Host:存储设备的管理 IP 地址。
-
Port:默认端口为
22
。 -
Username:管理员账户(如
admin
)。
-
-
点击 OK 连接,并输入密码完成登录。
-
-
命令行登录(适用于 Linux/macOS 或使用 Windows 的 PowerShell):
-
在终端输入以下命令:
ssh admin@<服务器IP地址>
示例:
ssh admin@192.168.1.100
-
首次连接时,输入
yes
接受主机指纹。 -
输入管理员账户的密码后登录。
-
-
使用指定端口登录:
-
如果 SSH 服务运行在非默认端口:
ssh admin@<服务器IP地址> -p <端口号>
示例:
ssh admin@192.168.1.100 -p 2222
-
2. 查看节点信息与切换节点
查看集群中所有节点
-
查看集群中节点的状态和名称:
cluster show
输出示例:
Node Health Eligibility Epsilon Location -------- ------ ----------- ------- -------- node-01 true true false rack1 node-02 true true false rack2
切换到目标节点
-
启用高级权限:
set -privilege advanced
-
进入指定节点的命令行环境:
system node run -node <node_name>
示例:
system node run -node node-01
-
退出节点的 shell 环境:
exit
3. 使用 Console 登录与切换节点
通过 Console 登录设备
-
使用管理工具(如 iLO、iDRAC 或串口连接)登录到设备控制台。
-
登录成功后确认当前节点:
hostname
切换到其他节点
-
登录到控制台后,切换节点:
system console
-
按提示选择目标节点名称并按回车。
检查集群节点间通信状态
-
在 Console 中运行以下命令:
cluster ping-cluster
确认节点间网络正常。
4. 节点操作常用命令
查看节点状态
-
查看所有节点状态:
cluster show
-
查看特定节点的详细信息:
system node show -node <node_name>
查看硬件状态
-
检查节点硬件健康状态:
system node run -node <node_name> -command environment status
查看节点的存储资源
-
检查聚合状态:
storage aggregate show -node <node_name>
-
查看卷的分配与状态:
volume show -fields aggregate,state
检查网络接口
-
查看节点的网络端口:
network port show -node <node_name>
五、注意事项
-
切换权限模式:
-
默认权限为普通模式,某些高级操作需切换到
advanced
模式。set -privilege advanced
-
-
避免误操作:
-
切换到其他节点时,确认当前环境避免对错误节点执行操作。
-
-
网络排查:
-
如无法通过 SSH 登录,可通过 Console 检查网络配置:
network interface show
-
-
定期维护:
-
建议定期检查集群状态,确保节点间通信和存储资源健康。
-
六、巡检脚本示例
以下是一个简单的脚本示例,用于执行常规巡检:
#!/bin/bash# 检查集群状态
echo "=== 集群状态 ==="
cluster show# 查看所有节点的硬件健康状态
echo "\n=== 硬件健康状态 ==="
system node run -node * -command environment status# 检查聚合状态
echo "\n=== 聚合状态 ==="
storage aggregate show -fields size,used,size-available,state# 查看网络端口
echo "\n=== 网络接口状态 ==="
network port show
保存为 netapp_check.sh
,并执行:
bash netapp_check.sh
七、作业风险与处置措施
作业风险
-
误操作导致存储服务中断:
-
错误切换或修改节点状态,可能影响存储服务的可用性。
-
-
网络中断:
-
管理主机与存储设备的网络连接中断,导致操作无法完成。
-
-
硬件损坏:
-
对硬件状态误判或操作过于频繁可能加重硬件损耗。
-
-
权限不足:
-
管理账户权限不足,无法完成关键操作。
-
-
空间不足:
-
聚合或卷空间超过使用阈值,可能影响性能和数据写入。
-
处置措施
-
操作前检查:
-
仔细核对目标节点、卷、聚合的名称与状态,确认操作正确无误。
-
-
网络监控:
-
使用
ping
或traceroute
命令确认网络通畅。
-
-
硬件保护:
-
定期监控硬件健康状态,如发现异常立即联系技术支持。
-
-
权限管理:
-
确保使用管理员账户,若权限不足可联系上级管理员提升权限。
-
-
预留空间:
-
检查聚合和卷使用率,确保至少 20% 可用空间。
-
-
备份计划:
-
在关键操作前,执行全量备份,防止数据丢失。
-