您的位置:首页 > 文旅 > 美景 > 网络推广方案撰写_全国加盟网站大全_关键词优化哪家好_百度关键词排名神器

网络推广方案撰写_全国加盟网站大全_关键词优化哪家好_百度关键词排名神器

2024/12/23 12:26:48 来源:https://blog.csdn.net/weixin_55629186/article/details/143662993  浏览:    关键词:网络推广方案撰写_全国加盟网站大全_关键词优化哪家好_百度关键词排名神器
网络推广方案撰写_全国加盟网站大全_关键词优化哪家好_百度关键词排名神器

Spark数仓建表

      • 1、Spark on Hive与Hive on Spark
      • 2、Spark数仓建表相关问题





1、Spark on Hive与Hive on Spark


1.1、Hive on Spark

Hive默认使用MapReduce作为执行引擎,即Hive on MapReduce。实际上,Hive还可以使用Tez或Spark作为其执行引擎,分别为Hive on Tez和Hive on Spark

由于MapReduce的中间计算均需要写入磁盘,Spark则是存入内存,所以总体来讲,Spark比MapReduce效率高很多,因此,企业也较少使用MapReduce

Hive on Spark是Hive既作为存储又负责SQL的编译、解析和优化,Spark只负责执行。这里Hive的执行引擎换成了Spark,不再是MapReduce

1.2、Spark on Hive

Spark on Hive是Hive只作为存储角色,Spark负责SQL的编译、解析、优化和执行。这里可以理解为Spark通过SparkSQL使用Hive语法操作Hive表,底层运行的仍然是Spark RDD

具体步骤如下:

  • 执行SparkSQL,加载Hive的配置文件,获取Hive的元数据信息

  • 根据获取到的Hive元数据信息得到Hive表的数据

  • 通过SparkSQL来操作Hive表的数据

也就是说,Spark使用Hive来提供表的Metadata信息

2、Spark数仓建表相关问题


前些天,在基于Spark数仓建表时,报了如下错误:

Can not create the managed table('db.table'). The associated location('hdfs://date/warehouse/tablespace/external/hive/db/table') already exists.

报错信息显示:不能创建管理表,外表已存在…

不得不说,这个报错还真有点奇怪…

事情的起因也很简单,由于我们使用的是Spark数仓,即Spark on Hive模式,相较于Hive,Spark建表默认为外(External)表,而Hive是管理(Managed)表

由于基于Spark on Hive,因此,Spark在获取Hive表的数据时会先去获取Hive的元数据信息,因此,Spark建表会先根据元数据信息校验管理表是否存在,如果已经存在一个相同的管理表,Spark建表则会报如上异常

解决的方案也很简单,删除已存在的不必要的管理表,然后重新建表;或者创建管理表不存在的Spark表即可



参考文章:
https://baijiahao.baidu.com/s?id=1757731374695957147&wfr=spider&for=pc


版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com