您的位置：首页 > 游戏 > 游戏 > 邢台贴吧网络最新消息_徐州建站_成都百度推广排名优化_网络营销推广方案整合

邢台贴吧网络最新消息_徐州建站_成都百度推广排名优化_网络营销推广方案整合

2025/4/19 1:30:18 来源：https://blog.csdn.net/2301_79639443/article/details/147141992 浏览: 次关键词：邢台贴吧网络最新消息_徐州建站_成都百度推广排名优化_网络营销推广方案整合

邢台贴吧网络最新消息_徐州建站_成都百度推广排名优化_网络营销推广方案整合

实验环境：已经部署好的Hadoop环境 Hadoop安装、配置与管理_centos hadoop安装-CSDN博客

实验目的：对输入文件统计单词频率

实验过程：

1、准备文件

test.txt文件，它是你需要准备的原始数据文件，存放在你的 Linux 系统（运行 Hadoop 命令的机器）本地磁盘上的某个位置。文件内容可以是任意文本数据，比如一些段落、句子、单词等，以便进行词频统计（wordcount）等操作。（里面可以随便复制一些相同的单词，可以进行文件内容查重统计）

新建一个测试数据文件test.txt ，上传到Linux虚拟机的/sample/test.txt目录（若没有目录则创建一个）

2、启动 Hadoop 服务

start-dfs.sh

start-yarn.sh

3、上传数据到 HDFS

在HDFS上创建目录，并将待处理的数据文件上传到该目录：

hdfs dfs -mkdir -p /sample/input

hdfs dfs -mkdir -p /sample/output

hdfs dfs -put /sample/test.txt /sample/input //将txt文件保存在/sample/input目录里

4、进行测试

先查找Hadoop-mapreduce-examples-2.7.3.jar解压包的位置

find / -name "hadoop-mapreduce-examples-2.7.3.jar"

hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /sample/input/test.txt /sample/test-result

/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar //解压包的位置

/sample/input/test.txt //txt在hdfs里面的位置

/sample/test-result //文件查重之后生成文件所放的目录

5、结果验证

查找以 part- 开头的结果文件: hdfs dfs -ls /sample/test-result

使用命令查看文件得到单词的词频统计结果:

hdfs dfs -cat /sample/test-result/part-r-00000

每行的格式是 “单词词频”，中间以制表符分隔。这个结果是 MapReduce 作业成功执行后，对输入文本中单词出现次数的统计汇总。

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

最新新闻

热搜词

利用 SSE 实现流式 AI 聊天交互（三）测绘类（遥感）投稿期刊（卓越期刊、EI、CSCD、核心期刊）汇总，内附投稿链接消息中间件对比与选型指南：Kafka、ActiveMQ、RabbitMQ与RocketMQ 湖北新材料产业向“新”链动中部-万祥军| 国科院研·科技成果转化利用Canvas在紫微斗数命盘上画出三方四正 Maven安装与配置完整指南

声明：本站所有新闻及新闻图片来源于其他网站，如有侵权，请及时联系我们！

客户服务 | 关于我们 | 版权声明

版权所有：

Copyright 2024 尧图网 All Rights Reserved.QQ:809451989