您的位置:首页 > 财经 > 金融 > 百度seo排名规则_网络营销课程设计_网站优化关键词_电商线上推广

百度seo排名规则_网络营销课程设计_网站优化关键词_电商线上推广

2024/12/22 22:01:02 来源:https://blog.csdn.net/weixin_58305115/article/details/142928551  浏览:    关键词:百度seo排名规则_网络营销课程设计_网站优化关键词_电商线上推广
百度seo排名规则_网络营销课程设计_网站优化关键词_电商线上推广

spark进行实时数据流计算时有两个工具

Spark Streaming:编写rdd代码处理数据流,可以解决非结构化的流式数据

Structured Streaming:编写df代码处理数据流,可以解决结构化和半结构化的流式数据

实时计算

实时计算,通常也称为“实时流计算”、“流式计算”

流数据处理是指实时、连续地处理数据流。数据在被产生或接收后立即处理,并不需要等待所有数据到齐。数据的处理和传输是“逐条”进行的。

处理时间:由于数据被实时处理,系统响应时间非常短,通常在毫秒或秒级。

数据量:流数据通常是无限的,数据持续不断地被生成和处理,系统需要持续运行。

公司活动需要实时查看活动效果,适合短期时间的计算

离线计算

离线计算,通常也称为“批处理”,表示那些离线批量、延时较高的静态数据处理过程。

批数据处理是指在一个预定时间内收集一批数据,然后一次性对这批数据进行处理。数据是成批处理的,而不是逐条处理。

处理时间:批处理通常不是实时的,处理的延迟可能是分钟、小时甚至更长,T+1。

数据量:批处理通常在所有数据收集完毕后进行,这意味着处理的数据集是固定大小的(如每日、每小时的数据)。数据处理完成后自动结束

固定指标计算,需要每天查看的数据内容

 有界和无界数据

  • 有界数据

    • 有起始位置,有结束位置。比如文件数据 有起始行,有结束行

    • 有明确的数据容量大小。处理数据时就能知道处理的数据大小

    • 在处理数据时,按批次处理。

    • 数据处理完成程序就结束

    • 离线计算时处理的都是有界数据

  • 无界数据

    • 有起始位置,没有结束位置,知道数据的起始位置在哪里,但是数据到哪结束不知道(因为数据在不断产生,什么时候结束不知道)

    • 流式数据都是无界数据

    • 无界数据的总量是不确定,数据是不断产生的

    • 数据有时效性 (有效期)

    • 处理无界数据时,程序时持续运行的

实现

1)需要安装ncat服务 

在线安装:yum install nc

离线安装:rpm -ivh ncat-7.93-1.x86_64.rpm

2)启动服务绑定端口号:9999(若这个端口号被占用,可以换没有占用的端口号)

Structured Streaming代码程序

  • 使用的是sparkSQl,所以在进行代码编写使用sparksql的方法进行编写

  • 使用sparksession

3)执行代码

# 读取socket产生的实时数据流
from pyspark.sql import SparkSessionss = SparkSession.builder.getOrCreate()
# 数据流读取使用readStream
option = {# 指定读取的socket服务的ip地址'host': '192.168.88.100',# 指定读取的端口'port': 9999
}
# 将读取的流式数据转为无界表保存在dataframe
df = ss.readStream.load(format='socket', **option)# df数据处理# 数据的输出展示
# format 指定输出的服务  console 输出终端界面   kafka  csv   json   es
# outputMode 输出模式   append  complete  update
# awaitTermination 让程序阻塞等待,可以是实现程序持续运行获取实时数据
df.writeStream.start(format='console',outputMode='append').awaitTermination()

 4)在终端输入数据

5)查看运行结果,满足条件输出,不满足条件为空 

 

 

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com