南开21秋学期(1709、1803、1809、1903、1909、2003、2009、2103)《大数据开发技术(一)》在线作业【标准答案】
时间:2022-04-11 12:56 来源: 作者: 点击:次
21秋学期(1709、1803、1809、1903、1909、2003、2009、2103、2109)《大数据开发技术(一)》在线作业
试卷总分:100 得分:100
一、单选题 (共 30 道试题,共 60 分)
1.以下哪个不属于MongoDB的特点
A.提供了面向文档的存储
B.可以设置任何属性索引
C.具有很好的垂直可扩展性
D.支持丰富的查询表达式
2.Weka是哪种可视化工具()
A.信息图表
B.地图工具
C.时间线工具
D.分析工具
3.Google Fusion Tables是哪种可视化工具()
A.信息图表
B.地图工具
C.时间线工具
D.分析工具
4.以下亚马逊的产品中哪个是分布式内存缓存
A.ElastiCache
B.RDS
C.DynamoDB
D.Redshift
5.以下针对Hive的说法不正确的是()。
A.Hive是一个基于Hadoop的数据仓库工具
B.Hive是关系数据库
C.Hive QL是一种查询语言
D.Hive可以提供查询分析存储等功能
6.以下属于Hadoop2.0的特性是()。
A.MapReduce
B.HDFS
C.YARN
D.SPARK
7.关于Strom中Bolt说法错误的是()。
A.Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作
B.Bolt是一个被动的角色,Spout是一个主动的角色
C.Bolt不仅可以处理Tuple还可以创建ABCTuple
D.Bolt是Streams的状态转换过程的抽象含义
8.Leaflet是哪种可视化工具()
A.信息图表
B.地图工具
C.时间线工具
D.分析工具
9.优点是性能好(高并发),灵活性高,复杂性低,数据结构灵活 提供嵌入式文档功能的数据库是()
A.列族数据库
B.键值数据库
C.图数据库
D.文档数据库
10.Amazon SimpleDB属于()
A.关系数据库
B.键值数据库
C.NoSQL数据库
D.数据仓库
11.以下亚马逊的产品中哪个是键值数据库
A.RDS
B.SimpleDB
C.DynamoDB
D.Redshift
12.以下哪个是通过JDBS和关系数据库进行交互的()。
A.Ambari
B.Oozie
C.Hive
D.Sqoop
13.Pregel计算模型中每个顶点ID的类型是()
A.String
B.Int
C.Double
D.结构体
14.关于Reduce端Shuffle过程,说法正确的是()。
A.Reduce领取数据先放入缓存,来自不同Map机器,先合并,再归并,写入磁盘
B.多个溢写文件归并最后只能形成一个大文件
C.当数据很少时,也要溢写到磁盘
D.Reduce任务通过RPC向JobTracker询问Map任务是否已经完成
15.D3是哪种可视化工具()
A.信息图表
B.地图工具
C.时间线工具
D.分析工具
16.Timetoast是哪种可视化工具()
A.信息图表
B.地图工具
C.时间线工具
D.分析工具
17.在Storm的工作流程中,对于Supervisor说法错误的是()。
A.Supervisor会去Zookeeper集群上认领自己的Task
B.Supervisor节点首先将提交的Topology进行分片,分成一个个Task,分配给相应的Nimbus
C.Supervisor会将Task和相关的信息提交到Zookeeper集群上
D.Supervisor会通知自己的Worker进程进行Task的处理
18.对于不同顶点之间的信息交换,Pregel采用了()
A.远程数据读取
B.共享内存
C.纯消息传递模型
D.共享消息
19.()可解决HDFS中名称节点运行期间EditLog不断变大的问题
A.NameNode
B.SecondaryNameNode
C.DataNode
D.Block
20.以下亚马逊的产品中哪个是数据仓库
A.ElastiCache
B.RDS
C.DynamoDB
D.Redshift
21.MongoDB将数据存储为一个()
A.关系
B.属性
C.字段
D.文档
22.SQL Azure体系结构层中哪层是硬件和操作系统
A.Client Layer
B.Services Layer
C.Platform Layer
D.Infrastructure Layer
23.行式数据库采用()存储模型
A.NSM
B.DSM
C.Hbase
D.MySQL
24.以下哪层不属于物联网体系架构()。
A.应用层
B.采集层
C.网络层
D.感知层
25.UMP系统借助于()来实现集群内部的负载均衡
A.Mnesia
B.LVS
C.RabbitMQ
D.Zookeeper
26.以下说法不正确的是()。
A.MapReduce的核心思想就是“分面治之”
B.HDFS是对GFS的开源实现
C.MapReduce是一种分布式计算模型
D.HDFS采用HBase作为其底层数据存储
27.名称节点和数据节点之间则使用()协议进行交互
A.名称节点
B.第二名称节点
C.数据节点
D.TCP
28.Hbase中采用()保证系统出错时及时恢复
A.MemStore
B.Hlog
C.StoreFile
D.客户端
29.Hbase采用()作为底层数据存储
A.HDFS
B.GFS
C.Hbase
D.传统文件系统
30.NoSQL中的CAP理论中的P代表()
A.一致性
B.可用性
C.分区容忍性
D.可扩展性
二、多选题 (共 10 道试题,共 20 分)
31.以下哪个不是云数据库的特点
A.高可扩展性
B.高可用性
C.支持资源有效分发
D.本地存储
32.以下哪种数据库属于NoSQL数据库()
A.关系数据库
B.键值数据库
C.文档数据库
D.分布式数据库
33.以下哪种数据库属于NoSQL数据库()
A.SimpleDB
B.BigTable
C.MongoDB
D.GraphDB
34.HDFS中客户端在读取到数据后,会采用()对数据块进行校验,已确定正确性
A.md5
B.哈希桶
C.sha1
D.奇偶校验
35.Hadoop集群的整体性能取决于哪些性能间的平衡
A.CPU
B.GPU
C.内存
D.存储
E.网络
36.Hbase提供了哪些访问接口?
A.Pig
B.Hive
C.Zookeeper
D.Java API
37.以下哪些是数据可视化信息图表工具()
A.大数据魔镜
B.D3
C.Google Chart API
D.Google Fusion Tables
38.关于MapReduce,说法正确的是()。
A.MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave
B.Hadoop框架是用Java实现的,因此MapReduce应用程序要用Java来写
C.MapReduce模型的核心是Map函数和Reduce函数
D.MapReduce将一个存储在分布式文件系统中的大规模数据集,切分成许多独立的分片
39.关系数据库与NoSQL数据库相比有哪些优势()
A.支持事务ACID四性
B.可以支持超大规模数据存储
C.以完善的关系代数理论作为基础
D.具有强大的横向扩展能力
40.以下图计算软件哪种属于以图顶点为中心的、基于消息传递批处理的并行引擎
A.Giraph
B.Pregel
C.Hama
D.DEX
三、判断题 (共 10 道试题,共 20 分)
41.Ambari通过Web进行Hadoop集群的管理配置。
42.HDFS只允许一个文件有一个写入者,不允许多个用户对同一个文件执行写操作
43.对于每个顶点而言,Pregel只保存一份顶点值和边值,但是,会保存两份“标志位”和输入消息队列,分别用于当前超步和下一个超步
44.在传统的文件系统中,为了提高磁盘读写效率,一般以数据块为单位
45.传统的数据处理流程,需要先采集数据并存储在关系数据库等数据管理系统中,之后由用户通过查询操作和数据管理系统进行交互
46.Hbase中缓存刷新,每次刷写都生成一个ABCStoreFile文件,因此,每个Store包含多个StoreFile文件
47.从物理存储层面, HBase 中的每个表是由许多行组成的
48.Hbase中Region服务器的系统会周期性地把MemStore缓存里的内容刷写到磁盘的StoreFile文件中,清空缓存,并在Hlog里面写入一个标记
49.Pregel的消息模式采用异步和批量的方式传递消息,却无法缓解远程读取的延迟
50.默认情况下,Pregel计算框架会开启Combiner功能
|