一、试题部分
-
使用 Sqoop 导入工具,要求只追加导入检查列中时间晚于或等于 last-value 的记录,则 incremental 模式应该设置为____?
-
A. merge
-
B. lastmodified
-
C. last-value
-
D. append
-
-
sqoop 导出采用调用模式时,以下说法正确的是?
-
A. 使用 --call 参数 调用 存储过程
-
B. 存储过程需要提前在 hive 中创建
-
C. 存储过程需要提前在 hdfs 中创建
-
D. 使用 --caii 参数 调用存储过程
-
-
sqoop 导入到 HDFS 中的所有记录默认存储为____格式。
-
A. 文本格式
-
B. 序列化文件
-
C. txt 格式
-
D. 二进制格式
-
-
关于 Sqoop 的说法:Sqoop 运行的核心是 Agent。它是一个完整的数据收集工具,含有三个核心组件,分别是 source、channel、sink;Event 从 Source 流向 Channel,再到 Sink,本身为一个 byte 数组,并可携带 headers 信息。
-
A. (1)对(2)错
-
B. (1)对(2)错
-
C. (1)和(2)都对
-
D. (1)错(2)对
-
-
关于 Sqoop 的说法:下列对象 不属于 ETL的三个部分?抽取、加载、查询
-
对
-
错
-
-
sqoop 使用更新模式默认的方式,导出数据时?
-
A. 可以既更新数据,又插入数据
-
B. 只能更新数据
-
C. 当数据不存在时,可以更新成功
-
D. 必须指定 --update-mode 参数
-
-
关于 Sqoop 的说法:Sqoop 导入目标可以为 HBase、Hive、HDFS
-
A. Sqoop 支持直接导出 HBase 表中数据到数据库中
-
B. 以上说法都是正确的
-
C. Sqoop 支持直接导出 HDFS 路径中数据到数据库中
-
D. Sqoop 支持直接导出 Hive 表中数据到数据库中
-
-
下面 Sqoop 导出说法正确的是?
-
A. Sqoop 支持直接导出 HBase 表中数据到数据库中
-
B. 以上说法都是正确的
-
C. Sqoop 支持直接导出 HDFS 路径中数据到数据库中
-
D. Sqoop 支持直接导出 Hive 表中数据到数据库中
-
9使用 Sqoop 导入工具,要求只追加导入检查列中时间晚于或等于 last-value 的记录,则 incremental 模式应该设置为____?
-
A. merge
-
B. lastmodified
-
C. last-value
-
D. append
解析:
1. 使用 Sqoop 导入工具,要求只追加导入检查列中时间晚于或等于 last-value 的记录,则 incremental 模式应该设置为____?
答案:B. lastmodified
解析:Sqoop 的 incremental
模式用于导入数据时只处理新增或更新的记录。lastmodified
模式是基于某个时间戳列(如 last-value
)来判断记录是否需要导入。如果记录的该列时间晚于或等于上次导入时记录的 last-value
,则会被导入。而 append
模式则主要用于处理整行追加的场景,不涉及时间戳列的判断。
2. Sqoop 导出采用调用模式时,以下说法正确的是?
答案:A. 使用 --call 参数 调用 存储过程
解析:Sqoop 支持通过 --call
参数调用存储过程来实现数据导出。存储过程需要在目标数据库中提前创建,而不是在 Hive 或 HDFS 中创建。--call
是正确的参数,而 --caii
是拼写错误。
3. Sqoop 导入到 HDFS 中的所有记录默认存储为____格式。
答案:A. 文本格式
解析:Sqoop 默认将数据导入到 HDFS 时以文本格式存储。虽然 Sqoop 也支持其他格式(如 SequenceFile、Avro 等),但默认格式是文本格式。
4. 关于 Sqoop 的说法:Sqoop 运行的核心是 Agent。它是一个完整的数据收集工具,含有三个核心组件,分别是 source、channel、sink;Event 从 Source 流向 Channel,再到 Sink,本身为一个 byte 数组,并可携带 headers 信息。
答案:D. (1)错(2)对
解析:这部分描述的是 Apache Flume 的架构,而不是 Sqoop。Sqoop 是一个数据导入和导出工具,其核心功能是通过 MapReduce 任务将数据在关系型数据库和 Hadoop 生态系统之间传输。而 Flume 是一个分布式、可靠、可用的系统,用于高效地收集、聚合和移动大量日志数据。
5. 关于 Sqoop 的说法:下列对象 不属于 ETL的三个部分?抽取、加载、查询
答案:错
解析:ETL(Extract, Transform, Load)的三个核心部分是抽取(Extract)、转换(Transform)和加载(Load)。查询(Query)并不是 ETL 的标准组成部分,而是可能在抽取或转换阶段使用的一种手段。
6. Sqoop 使用更新模式默认的方式,导出数据时?
答案:A. 可以既更新数据,又插入数据
解析:Sqoop 的更新模式默认是 allowinsert
,这意味着在导出数据时,如果目标表中存在匹配的记录,则更新该记录;如果不存在,则插入新记录。
7. 关于 Sqoop 的说法:Sqoop 导入目标可以为 HBase、Hive、HDFS
答案:B. 以上说法都是正确的
解析:Sqoop 支持将数据导入到 HDFS、Hive 和 HBase。这三种目标是 Sqoop 常见的使用场景。
8. 下面 Sqoop 导出说法正确的是?
答案:C. Sqoop 支持直接导出 HDFS 路径中数据到数据库中
解析:Sqoop 支持从 HDFS 导出数据到关系型数据库。虽然 Sqoop 也可以与 Hive 和 HBase 集成,但导出数据时通常是直接从 HDFS 路径读取数据并写入目标数据库。选项 A、B 和 D 都不准确。
9. 使用 Sqoop 导入工具,要求只追加导入检查列中时间晚于或等于 last-value 的记录,则 incremental 模式应该设置为____?
答案:B. lastmodified