南开23秋学期(仅限-高起专1909、专升本1909)《数据科学导论》在线作业[答案]
正确答案:B
23秋学期(仅限-高起专1909、专升本1909)《数据科学导论》在线作业-00003
正确答案:D
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.Apriori算法的加速过程依赖于以下哪个策略( )
A.抽样
B.剪枝
C.缓冲
D.并行
正确答案:A
2.实体识别的常见形式()
A.同名异义
B.异名同义
C.单位不统一
D.属性不同
正确答案:A
3.以下属于关联分析的是( )
A.CPU性能预测
B.购物篮分析
C.自动判断鸢尾花类别
D.股票趋势建模
正确答案:B
4.只有非零值才重要的二元属性被称作:( ),其中购物篮数据就属于这种属性。
A.计数属性
B.离散属性
C.非对称的二元属性#对称属性
5.以下哪些不是缺失值的影响()
A.数据建模将丢失大量有用信息
B.数据建模的不确定性更加显著
C.对整体总是不产生什么作用
D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出
正确答案:A
6.下列两个变量之间的关系中,哪个是函数关系()。
A.人的性别和他的身高
B.人的工资与年龄
C.正方形的面积和边长
D.温度与湿度
正确答案:A
7.例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
正确答案:D
8.单层感知机是由()层神经元组成。
A.一
B.二
C.三
D.四
正确答案:D
9.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A.异常值
B.缺失值
C.不一致的值
D.重复值
正确答案:A
10.我们需要对已生成的树()进行剪枝,将树变得简单,从而使它具有更好的泛化能力。
A.自上而下
B.自下而上
C.自左而右
D.自右而左
正确答案:B
11.多层感知机是由()层神经元组成。
A.二
B.三
C.大于等于二层
D.大于等于三层
正确答案:D
12.BFR聚类用于在()欧氏空间中对数据进行聚类
A.高维
B.中维
C.低维
D.中高维
正确答案:D
13.手肘法的核心指标是()。
A.SES
B.SSE
C.RMSE
D.MSE
正确答案:D
14.层次聚类对给定的数据进行()的分解。
A.聚合
B.层次
C.分拆
D.复制
正确答案:C
15.以下哪一项不是特征选择常见的方法()
A.过滤式
B.封装式
C.嵌入式
D.开放式
正确答案:A
16.层次聚类适合规模较()的数据集
A.大
B.中
C.小
D.所有
正确答案:B
17.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
正确答案:A
A.减小,减小
B.减小,增大
C.增大,减小
D.增大,增大
正确答案:B
21.比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()
A.异常值
B.不一致的值
C.重复值
D.缺失值
正确答案:A
19.下面不是分类的常用方法的有()
A.K近邻法
B.朴素贝叶斯
C.决策树
D.条件随机场
正确答案:B
20.聚类的最简单最基本方法是()。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
正确答案:B
南开23秋学期(仅限-高起专1909、专升本1909)《数据科学导论》在线作业[答案]多选题答案
正确答案:A
二、多选题 (共 10 道试题,共 20 分)
21.什么情况下结点不用划分()
A.当前结点所包含的样本全属于同一类别
B.当前属性集为空,或是所有样本在所有属性上取值相同
C.当前结点包含的样本集为空
D.还有子集不能被基本正确分类
正确答案:A
22.相关性的分类,按照相关的方向可以分为()。
A.正相关
B.负相关
C.左相关
D.右相关
正确答案:C
23.k近邻法的基本要素包括()。
A.距离度量
B.k值的选择
C.样本大小
D.分类决策规则
正确答案:D
24.数据科学具有哪些性质()
A.有效性
B.可用性
C.未预料
D.可理解
正确答案:D
25.距离度量中的距离可以是()
A.欧式距离
B.曼哈顿距离
C.Lp距离
D.Minkowski距离
正确答案:B
26.下列选项是BFR的对象是()
A.废弃集
B.临时集
C.压缩集
D.留存集
正确答案:D
27.K-means聚类中K值选取的方法是()。
A.密度分类法
B.手肘法
C.大腿法
D.随机选取
正确答案:D
28.系统日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可扩展性
D.高效率
正确答案:A
29.对于多层感知机,()层拥有激活函数的功能神经元。
A.输入层
B.隐含层
C.输出层
30.下面例子属于分类的是()
A.检测图像中是否有人脸出现
B.对客户按照贷款风险大小进行分类
C.识别手写的数字
D.估计商场客流量
正确答案:C
三、判断题 (共 20 道试题,共 40 分)
31.随着特征维数的增加,特征空间呈指数倍增长,样本密度急剧减小,样本稀疏。
32.啤酒与尿布的故事是聚类分析的典型实例。
33.Apriori算法是一种典型的关联规则挖掘算法。
34.分拆方法是自底向上的方法。
35.交叉表被广泛用于调查研究,商业智能,工程和科学研究
36.k值增大意味着整体模型变得复杂。
37.利用K近邻法进行分类时,k值过小容易发生过拟合现象。
38.获取数据的方式有多种,可以从网页、测量、数据库、传统媒体、监控等等方式
39.EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。
正确答案:B
40.子集产生本质上是一个搜索过程,该过程可以从空集、随机产生的一个特征子集或者整个特征集开始。
41.多元线性回归模型中,标准化偏回归系数没有单位。
42.由不同的距离度量所确定的最近邻点是不同的
43.决策树内部结点表示一个类,叶结点表示一个特征或属性
44.交叉表可以帮助人们发现变量之间的相互作用。
45.朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能
46.随着特征维数的增加,样本间区分度提高。
47.K均值(K-Means)算法是密度聚类。
48.赤池信息准则是衡量统计模型拟合优良性的一种标准。
49.贝叶斯定理是概率论中的一个结果,它与随机变量的条件概率以及联合概率分布 有关。
50.标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。
南开23秋学期(仅限-高起专1909、专升本1909)《数据科学导论》在线作业[答案]历年参考题目如下:
南开23秋学期(仅限-高起专1909、专升本1909)《数据科学导论》在线作业[答案][答案]相关练习题:
( )是Oracle维护数据库中其他文件的列表、数据库名称和系统改变号(SCN )的文件
( )被确认为是公司间计算机与计算机交换商业文件的标准形式
不属于决定企业生产能力的基本因素是( )
加强预算执行的监督对审计监督的公开化具有重要意义。()
下列有关先张法预应力筋放张的顺序,说法错误的是( )。
兼有销售货物、提供应税劳务以及应税服务的纳税人,应税货物及劳务销售与应税销售额分别核算,分别适用增值税一般纳税人资格认定标准。
在试用期被证明不符合录用条件的,用人单位可以按以下()方式解除劳动合同。
计算机系统由两大部分组成,它们是( )
针对评估的财务报表层次重大错报风险的总体应对措施包括()。
我们在进行经济效益分析时,有时要用“影子价格”代替现行价格。影子价格反映了资源的稀缺程度,实际上表明了资源的机会收益。这个价格一般说来同现行价格并不相同。政策的最优化当然要考虑这一问题。
交易性金融资产和可供出售金融资产的相同点是都按公允价值进行后续计量,且公允价值变动计入当期损益。( )
笛福的代表作是
风险按性质分类,可以分为( )。
截平面通过圆锥顶点,截交线的形状为()
西方的七声调式是哪几个音?中国五声调式是哪几个音
「午後雨は降るでしょう。」「___かもしれませんね。」
The earnings of women are well below that of men__educational differences that are diminishing between the two sexes.
市场调查属于企业的()识别系统。
所谓行业,可以被定义为:( )。
建立规范性.法制化政府预算的前提条件的预算原则是()
下列内容中,受我国《著作权法》保护的有( )。
生态旅游本应该是实现可持续旅游的方式之一,能够促进自然生态环境良性循环、促进区域经济发展、促进社会进步,但是在生态旅游开发过程中,由于存在人们的思想意识、管理体制、旅游经营管理者和游客的行为等方面存在的问题,可能导致对旅游地自然生态环境、经济环境、社会环境等方面产生一些负面影响,到来一系列环境问题。
变压器分电路和磁路两个部分。
我国的选举制度基本原则的有( )。
地下连续墙在成槽之前首先要按设计位置建筑导墙,其深度一般为(),顶面高出施工地面,防止地面水流入槽段。
当荷载达到某一数值时,体系由稳定平衡状态转变为不稳定状态,而丧失原始平衡状态的稳定性,简称()
美国心理学的先驱也是机能主义的先驱。他们包括詹姆士、霍尔、()、鲍德温等人。
3DS MAX 不是动画制作软件。( )
阅读心态包括( )
19秋《影视文学》作业3