一、文件系统操作命令
1. **查看文件或目录** :
用于列出Hadoop文件系统中指定路径下的文件和目录,类似于Linux系统中的`ls`命令。例如,`hadoop fs -ls /user/hadoop`可以列出`/user/hadoop`路径下的所有内容。
2. **创建目录**:
在Hadoop文件系统中创建目录。如`hadoop fs -mkdir /user/new_dir` ,可在`/user`路径下创建名为`new_dir`的目录。
3. **上传文件** :
将本地文件系统中的文件上传到Hadoop分布式文件系统(HDFS)中。例如,`hadoop fs -put /local/file.txt /hdfs/dir/` ,会把本地的`/local/file.txt`文件上传到HDFS的`/hdfs/dir/`目录下。
4. **下载文件** :
从HDFS下载文件到本地文件系统。比如`hadoop fs -get /hdfs/file.txt /local/download/` ,将HDFS中的`/hdfs/file.txt`文件下载到本地的`/local/download/`目录。
二、集群管理命令
1. **启动集群**
对于伪分布式或全分布式环境,一般先启动HDFS,执行`sbin/start - dfs.sh` ,然后启动YARN,执行`sbin/start - yarn.sh` 。这两个命令可以启动Hadoop集群的核心服务,使集群处于可用状态。
2. **停止集群**
与启动相反,先停止YARN,执行`sbin/stop - yarn.sh` ,再停止HDFS,执行`sbin/stop - dfs.sh` 。用于在维护或不需要集群运行时安全关闭集群。
三、作业操作命令
1. **提交作业** -
`hadoop jar <jar_path> <main_class> [args]`:用于提交MapReduce作业。例如,`hadoop jar my - job.jar com.example.MyMapReduceJob /input /output` ,其中`my - job.jar`是包含MapReduce程序的JAR包,`com.example.MyMapReduceJob`是主类,`/input`和`/output`是作业的输入输出路径。
2. **查看作业状态** -
`yarn application -list`:可以列出当前YARN集群中正在运行的应用程序(作业)列表,包括作业的ID、状态、所属用户等信息。通过该命令可以实时了解作业的运行情况。