大数据的诞生以及解决的问题
- 视频一:大数据诞生的背景
- 原因:传统的数据处理架构无法满足海量的数据存储和计算需求
- 视频三:区分离线处理场景和实时处理场景
- 视频五:传统的大数据与现代的大数据区别(离线场景)
- 大数据的两个典型的特点:
- 视频六:大数据生态全览
- 视频七:HDFS概述
视频一:大数据诞生的背景
原因:传统的数据处理架构无法满足海量的数据存储和计算需求
大数据的4v特性:数据量、速度、多样性、价值
视频三:区分离线处理场景和实时处理场景
区别:主要看处理的数据是有界还是无界,离线场景的数据,不会增加和减少
视频五:传统的大数据与现代的大数据区别(离线场景)
大数据典型应用以及架构改进:
- 传统的数据仓库只能解决中小规模的数据存储与分析问题
- 大数据的存储与计算:大数据的架构基本是天然分布式的 ,可扩展能力很强。(数据达到一定量级,大数据才能发挥实力)
大数据的两个典型的特点:
- 分而治之,将数据打成小块,分散在各个节点中进行存储
- 移动计算而非移动数据,数据不动,计算任务(代码文件)分发到每个节点,进行运算,然后汇总结果。
其他离线的应用场景,比如大数据的搜索与检索,图计算,数据挖掘和实时流处理等应用场景,以及相关技术细节。
基于大数据的实时流处理:
分布式消息队列,抗压性能很好,能够承担很多压力,如果压力过大,可以拓展新增的节点。