南开21秋学期《大数据开发技术(一)》在线作业[答案怎么获取?]答案
21秋学期(1709、2103、2109、1903、1909、2003、2009、2103、2109)《大数据开发技术(一)》在线作业
试卷总分:100 得分:100
一、单选题 (共 30 道试题,共 60 分)
1.以下哪个不属于MongoDB的特点
正确答案:-----
A.提供了面向文档的存储
B.可以设置任何属性索引
C.具有很好的垂直可扩展性
D.支持丰富的查询表达式
正确答案:-----
2.Weka是哪种可视化工具()
A.信息图表
B.地图工具
C.时间线工具
D.分析工具
正确答案:-----
正确答案:-----
正确答案:-----
正确答案:-----
正确答案:-----
3.Google Fusion Tables是哪种可视化工具()
A.信息图表
B.地图工具
C.时间线工具
D.分析工具
4.以下亚马逊的产品中哪个是分布式内存缓存
A.ElastiCache
B.RDS
正确答案:-----
正确答案:-----
正确答案:-----
C.DynamoDB
正确答案:-----
正确答案:-----
正确答案:-----
正确答案:-----
正确答案:-----
正确答案:-----
D.Redshift
正确答案:-----
正确答案:-----
正确答案:-----
5.以下针对Hive的说法不正确的是()。
A.Hive是一个基于Hadoop的数据仓库工具
正确答案:-----
B.Hive是关系数据库
C.Hive QL是一种查询语言
D.Hive可以提供查询分析存储等功能
正确答案:-----
6.以下属于Hadoop2.0的特性是()。
正确答案:-----
A.MapReduce
正确答案:-----
B.HDFS
正确答案:-----
正确答案:-----
C.YARN
D.SPARK
正确答案:-----
7.关于Strom中Bolt说法错误的是()。
A.Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作
B.Bolt是一个被动的角色,Spout是一个主动的角色
C.Bolt不仅可以处理Tuple还可以创建ABCTuple
D.Bolt是Streams的状态转换过程的抽象含义
正确答案:-----
8.Leaflet是哪种可视化工具()
A.信息图表
B.地图工具
C.时间线工具
D.分析工具
9.优点是性能好(高并发),灵活性高,复杂性低,数据结构灵活 提供嵌入式文档功能的数据库是()
A.列族数据库
B.键值数据库
C.图数据库
D.文档数据库
正确答案:-----
10.Amazon SimpleDB属于()
正确答案:-----
A.关系数据库
B.键值数据库
C.NoSQL数据库
D.数据仓库
正确答案:-----
11.以下亚马逊的产品中哪个是键值数据库
A.RDS
B.SimpleDB
C.DynamoDB
D.Redshift
12.以下哪个是通过JDBS和关系数据库进行交互的()。
正确答案:-----
A.Ambari
B.Oozie
C.Hive
D.Sqoop
正确答案:-----
13.Pregel计算模型中每个顶点ID的类型是()
正确答案:-----
A.String
B.Int
C.Double
正确答案:-----
D.结构体
正确答案:-----
14.关于Reduce端Shuffle过程,说法正确的是()。
正确答案:-----
A.Reduce领取数据先放入缓存,来自不同Map机器,先合并,再归并,写入磁盘
正确答案:-----
B.多个溢写文件归并最后只能形成一个大文件
C.当数据很少时,也要溢写到磁盘
D.Reduce任务通过RPC向JobTracker询问Map任务是否已经完成
正确答案:-----
15.D3是哪种可视化工具()
正确答案:-----
A.信息图表
B.地图工具
C.时间线工具
D.分析工具
16.Timetoast是哪种可视化工具()
A.信息图表
B.地图工具
C.时间线工具
D.分析工具
17.在Storm的工作流程中,对于Supervisor说法错误的是()。
A.Supervisor会去Zookeeper集群上认领自己的Task
B.Supervisor节点首先将提交的Topology进行分片,分成一个个Task,分配给相应的Nimbus
C.Supervisor会将Task和相关的信息提交到Zookeeper集群上
D.Supervisor会通知自己的Worker进程进行Task的处理
正确答案:-----
21.对于不同顶点之间的信息交换,Pregel采用了()
A.远程数据读取
B.共享内存
C.纯消息传递模型
D.共享消息
正确答案:-----
19.()可解决HDFS中名称节点运行期间EditLog不断变大的问题
正确答案:-----
A.NameNode
正确答案:-----
B.SecondaryNameNode
正确答案:-----
C.DataNode
正确答案:-----
D.Block
正确答案:-----
20.以下亚马逊的产品中哪个是数据仓库
A.ElastiCache
B.RDS
C.DynamoDB
D.Redshift
21.MongoDB将数据存储为一个()
正确答案:-----
A.关系
B.属性
C.字段
D.文档
正确答案:-----
22.SQL Azure体系结构层中哪层是硬件和操作系统
A.Client Layer
B.Services Layer
C.Platform Layer
D.Infrastructure Layer
正确答案:-----
23.行式数据库采用()存储模型
A.NSM
B.DSM
正确答案:-----
C.Hbase
D.MySQL
正确答案:-----
24.以下哪层不属于物联网体系架构()。
A.应用层
B.采集层
C.网络层
D.感知层
正确答案:-----
25.UMP系统借助于()来实现集群内部的负载均衡
A.Mnesia
B.LVS
C.RabbitMQ
D.Zookeeper
正确答案:-----
26.以下说法不正确的是()。
A.MapReduce的核心思想就是“分面治之”
正确答案:-----
B.HDFS是对GFS的开源实现
正确答案:-----
C.MapReduce是一种分布式计算模型
正确答案:-----
D.HDFS采用HBase作为其底层数据存储
正确答案:-----
27.名称节点和数据节点之间则使用()协议进行交互
A.名称节点
B.第二名称节点
C.数据节点
D.TCP
正确答案:-----
28.Hbase中采用()保证系统出错时及时恢复
A.MemStore
B.Hlog
C.StoreFile
D.客户端
正确答案:-----
29.Hbase采用()作为底层数据存储
A.HDFS
B.GFS
C.Hbase
D.传统文件系统
正确答案:-----
30.NoSQL中的CAP理论中的P代表()
A.一致性
B.可用性
C.分区容忍性
D.可扩展性
正确答案:-----
南开21秋学期《大数据开发技术(一)》在线作业[答案怎么获取?]多选题答案
二、多选题 (共 10 道试题,共 20 分)
31.以下哪个不是云数据库的特点
A.高可扩展性
B.高可用性
C.支持资源有效分发
D.本地存储
正确答案:-----
32.以下哪种数据库属于NoSQL数据库()
A.关系数据库
B.键值数据库
C.文档数据库
D.分布式数据库
正确答案:-----
33.以下哪种数据库属于NoSQL数据库()
A.SimpleDB
B.BigTable
C.MongoDB
D.GraphDB
正确答案:-----
34.HDFS中客户端在读取到数据后,会采用()对数据块进行校验,已确定正确性
正确答案:-----
A.md5
正确答案:-----
B.哈希桶
C.sha1
D.奇偶校验
正确答案:-----
35.Hadoop集群的整体性能取决于哪些性能间的平衡
正确答案:-----
A.CPU
B.GPU
C.内存
D.存储
正确答案:-----
E.网络
36.Hbase提供了哪些访问接口?
A.Pig
B.Hive
C.Zookeeper
D.Java API
正确答案:-----
37.以下哪些是数据可视化信息图表工具()
A.大数据魔镜
B.D3
正确答案:-----
C.Google Chart API
D.Google Fusion Tables
正确答案:-----
38.关于MapReduce,说法正确的是()。
正确答案:-----
A.MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave
正确答案:-----
B.Hadoop框架是用Java实现的,因此MapReduce应用程序要用Java来写
正确答案:-----
C.MapReduce模型的核心是Map函数和Reduce函数
正确答案:-----
D.MapReduce将一个存储在分布式文件系统中的大规模数据集,切分成许多独立的分片
正确答案:-----
39.关系数据库与NoSQL数据库相比有哪些优势()
A.支持事务ACID四性
正确答案:-----
B.可以支持超大规模数据存储
C.以完善的关系代数理论作为基础
D.具有强大的横向扩展能力
正确答案:-----
40.以下图计算软件哪种属于以图顶点为中心的、基于消息传递批处理的并行引擎
A.Giraph
B.Pregel
C.Hama
D.DEX
正确答案:-----
三、判断题 (共 10 道试题,共 20 分)
41.Ambari通过Web进行Hadoop集群的管理配置。
正确答案:-----
42.HDFS只允许一个文件有一个写入者,不允许多个用户对同一个文件执行写操作
正确答案:-----
43.对于每个顶点而言,Pregel只保存一份顶点值和边值,但是,会保存两份“标志位”和输入消息队列,分别用于当前超步和下一个超步
正确答案:-----
44.在传统的文件系统中,为了提高磁盘读写效率,一般以数据块为单位
45.传统的数据处理流程,需要先采集数据并存储在关系数据库等数据管理系统中,之后由用户通过查询操作和数据管理系统进行交互
46.Hbase中缓存刷新,每次刷写都生成一个ABCStoreFile文件,因此,每个Store包含多个StoreFile文件
47.从物理存储层面, HBase 中的每个表是由许多行组成的
48.Hbase中Region服务器的系统会周期性地把MemStore缓存里的内容刷写到磁盘的StoreFile文件中,清空缓存,并在Hlog里面写入一个标记
49.Pregel的消息模式采用异步和批量的方式传递消息,却无法缓解远程读取的延迟
50.默认情况下,Pregel计算框架会开启Combiner功能
南开21秋学期《大数据开发技术(一)》在线作业[答案怎么获取?]历年参考题目如下:
《大数据开发技术(一)》19秋期末考核-0001
一、单选题 (共 15 道试题,共 30 分)
1.UMP系通过()来实现实现数据路由的基本功能
A.愚公系统
B.Procy服务器
C.Controller服务器
D.Agent服务器
2.Amazon Redshift属于()
A.键值数据库
B.数据仓库
C.关系数据库
D.NoSQL数据库
3.应用于涉及频繁读写、拥有简单数据模型的应用,内容缓存,比如会话的数据库是哪种()
A.键值数据库
B.文档数据库
C.图数据库
D.列族数据库
4.HBase的客户端并不依赖Master,而是通过()来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小
A.Zookeeper
B.Region
C.Master
D.Chubby
5.UMP系统中面对中等规模用户如何进行资源调度()
A.随机分配MySQL实例
B.每个用户独占一个MySQL实例
C.可以共享同一个MySQL实例
D.会占用多个独立的MySQL实例
6.以下亚马逊的产品中哪个是数据仓库
A.Redshift
B.RDS
C.ElastiCache
D.DynamoDB
7.UMP系统中面对多个小规模用户如何进行资源调度()
A.随机分配MySQL实例
B.每个用户独占一个MySQL实例
C.可以共享同一个MySQL实例
D.会占用多个独立的MySQL实例
8.关于Strom中Bolt说法错误的是()。
A.Bolt是一个被动的角色,Spout是一个主动的角色
B.Bolt是Streams的状态转换过程的抽象含义
C.Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作
D.Bolt不仅可以处理Tuple还可以创建ABCTuple
9.优点是查找速度快,可扩展性强,容易进行分布式扩展,复杂性低的数据库是()
A.键值数据库
B.文档数据库
C.图数据库
D.列族数据库
10.应用于分布式数据存储与管理 数据在地理上分布于多个数据中心的应用程序的数据库是哪种()
A.键值数据库
B.文档数据库
C.图数据库
D.列族数据库
11.Hbase中客户端包含访问HBase的接口,同时在缓存中维护着已经访问过的()位置信息,用来加快后续数据访问过程
A.客户端
B.Slaver
C.Region
D.Master
12.以下亚马逊的产品中哪个是分布式内存缓存
A.Redshift
B.RDS
C.ElastiCache
D.DynamoDB
13.Hbase采用()作为底层数据存储
A.传统文件系统
B.Hbase
C.HDFS
D.GFS
14.关于Hadoop集群,以下说法错误的是()。
A.SecondaryNameNode可以和NameNode共用一台机器
B.SecondaryNameNode可以和DataNode共用一台机器
C.NameNode可以和JobTracker共用一台机器
D.JobTracker指派的任务由TaskTracker执行
15.Map Task和Reduce Task均由()启动。
A.Task Tracker
B.Task
C.Job Tracker
D.Client
二、多选题 (共 10 道试题,共 20 分)
16.HDFS中对名称节点设置了备份机制,会将名称节点中的()文件同步复制到备份服务器上。
A.FsImage
B.EditLog
C.DataNode
D.Block
17.以下图计算软件哪种属于以图顶点为中心的、基于消息传递批处理的并行引擎
A.Pregel
B.Hama
C.Giraph
D.DEX
18.以下哪种数据库属于NoSQL数据库()
A.MySQL
B.MongoDB
C.InfiniteGraph
D.DynamoDB
19.关系数据库与NoSQL数据库相比适用于哪些领域()
A.银行
B.电信
C.传统企业的数据分析
D.互联网企业大数据处理
20.以下哪种数据库是针对在线业务的,并且抛弃了关系模型()
A.Redis
B.Oracle
C.MySQL
D.MongoDB
21.分布式文件系统的设计目的包括()。
A.速度
B.并发控制
C.容错
D.可伸缩性
22.MapReduce的main函数中设置输出类型的方法有()。
A.setOutputValueClass
B.setOutputKeyClass
C.setOutputClass
D.setKeyValueClass
23.以下哪些是云计算关键技术()。
A.虚拟化
B.物联网
C.单租户
D.分布式计算
E.分布式存储
24.Pregel作为分布式图计算的计算框架,主要用于()
A.最短路径
B.图遍历
C.PageRank计算
D.MapReduce
25.以下哪个应用适合用Pregel来解决()
A.求极值
B.数据库的笛卡尔积
C.单元最短路径
D.二分匹配
三、判断题 (共 10 道试题,共 20 分)
26.分布式离线分析可以实现秒级别的实时分析响应。
27.Hadoop平台在大数据发展的成熟期时开始大行其道
28.Yahoo! S4和Twitter Storm开发实时应用时既要关注处理逻辑,还要解决实时数据获取、传输、存储
29.在HBase 的概念视图中, 一个表可以视为一个稀疏、多维的映射关系。
30.HBase中包含一个Region服务器和许多个Master服务器
31.HDFS读数据过程中读取请求获得的输入流是FSInputStream
32.Linux系统中只有Ubuntu可以安装Hadoop。