正确答案:B
正确答案:D
试卷总分:100 得分:100
一、单选题 (共 4 道试题,共 20 分)
1.两步聚类算法是一种( )算法。
A.分层聚类
B.K均值聚类
C.凝聚聚类
D.Kohonen network
正确答案:A
2.CARMA算法只需要对数据进行( )次扫描就可以获得比Apriori算法更低的支持度的结果。
A.一
B.两
C.三
D.四
正确答案:A
3.通常,我们期望聚类的数量不能( )。
A.太多
B.太少
C.固定
D.太随机
正确答案:B
4.对于简单指数平滑法的模型,当( )时,表示模型更具有惰性。
A.α=0
B.α=1
C.α>0
D.α<0
正确答案:C
东财22秋《数据分析与决策》单元作业二[答案]多选题答案
正确答案:B
二、多选题 (共 8 道试题,共 40 分)
5.衡量关联规则强弱的指标主要有( )。
A.支持度
B.置信度
C.相似度
D.提升度
正确答案:D
6.决定选择何种时间序列分析法的原则包括( )。
A.要解决的问题
B.目的
C.时间
D.时间序列数据的特点
正确答案:C
7.时间序列的特征主要有( )。
A.趋势
B.季节性周期性变化
C.连续值
D.离群值
正确答案:A
8.K均值聚类算法的基本思想包括( )。
A.首先,随机选择K个对象,每个对象初始的代表了一个簇的均值
B.对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇
C.然后重新计算每个簇的平均值
D.这个过程不断重复,直到准则函数收敛
正确答案:D
9.K均值聚类算法的输入包括( )。
A.聚类个数K
B.初始中心
C.n个数据对象
D.方差
正确答案:C
10.发现关联规则的步骤是( )。
A.预选指定一个最小支持度计数阈值
B.找到所有超过这个值的项目集
C.从频繁项目集中产生强关联规则
D.从频繁项目集中产生弱关联规则
正确答案:D
11.分层聚类可细分为( )。
A.凝聚聚类
B.两步聚类
C.分裂聚类
D.K均值聚类
正确答案:A
12.考察聚类内的特征主要有( )。
A.标准差
正确答案:C
B.聚类半径
C.SSE
D.SSB
正确答案:D
三、判断题 (共 8 道试题,共 40 分)
13.从数据中发现关联规则的问题可以转变为发现频繁项目集。( )
14.分层聚类是尝试建立分层以达到聚类的一类算法。( )
15.当提升度小于1时表明其中一个项集的出现降低了另一个项集出现的可能性。( )
16.移动平均模型描述的是自回归部分的误差累计。( )
17.计算聚类内的每个点至聚类中心点的距离平均值,如果聚类平均值过小,则说明这个聚类需要进一步分割。( )
21.如果当前时间点的值需要通过前两个时间点值的回归加上随机误差来计算,则称之为二阶自回归AR(2)。( )
19.时间序列中带有趋势和季节性因素都会给时间序列的分析和预测带来麻烦。( )
20.Apriori算法使用标准的发现关联规则的步骤,先发现数据中的频繁项目集,然后从中产生关联规则。( )
正确答案:D
东财22秋《数据分析与决策》单元作业二[答案]历年参考题目如下:
东财《数据分析与决策》单元作业一
试卷总分:100 得分:100
一、单选题 (共 5 道试题,共 25 分)
1.( )是后续的数据转化、模型计算的必要前提。
A.变量大小
B.变量转换
C.变量类别
D.变量类型
2.根据数据分析的目的,需要确定每一行都是( )的实体。
A.异质
B.同质
C.随意
D.有结构
3.下列关于回归分析说法不正确的是( )。
A.回归分析试图找出变量间确定的函数关系
B.回归分析是用函数关系描述变量间关系的
C.相关关系和回归分析不可以相互转化
D.回归分析在数据挖掘中被广泛应用,可作为预测的方法
4.在现实世界中一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小,总的影响可以看作是服从( )的。
A.正态分布
B.卡方分布
C.t分布
D.F分布
5.业务分析应该为明确的( )服务。
A.企业目标
B.计划
C.组织目标
D.战略目标
二、多选题 (共 5 道试题,共 25 分)
6.下列关于决策表的说法错误的有( )。
A.决策表是指尝试从模型训练中发现一些规则
B.决策树和决策表是完全不相同的,也完全不相似
C.决策表的规则和记录是一一对应的
D.决策表按照规则的顺序来决定规则的优先级
7.贝叶斯网络的价值主要有( )。
A.分类
B.预测
C.帮助了解因果关系
D.有效避免数据过度拟合
8.下列关于差异的说法正确的有( )。
A.偶然因素引起的差异往往是比较显著的
B.差异的绝对值大于给定的标准的概率分布区间称为拒绝区间
C.事件属于接受区间则判断总体无显著差异
D.事件属于拒绝区间,则认为总体有显著差异
9.下列关于支持向量机的理论正确的是( )。
A.支持向量机的理论基础就是统计学习理论。
B.根据统计学习理论,学习机器的实际风险由经验风险值和置信范围值两部分组成
C.支持向量机在解决大样本、非线性机高维模式识别问题中表现出许多特有的优势
D.线性分类器是支持向量机的基础
10.数据挖掘是从大量数据中寻找其规律的技术,是( )的综合。
A.统计学
B.计算机网络技术
C.数据库技术
D.人工智能技术
三、判断题 (共 10 道试题,共 50 分)
11.最近相邻算法中的邻居的远近是按照距离函数计算的。( )
12.一般来讲,训练集要包含所有可能的分类,这些分类的数目没有任何要求。( )
13.一般来说,如果样本容量越大,估计量会更接近总体参数。( )
14.业务分析主要特征是利用各种统计分析、优化等工具实现决策职能化。( )
15.数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构。( )
16.在前向型的神经网络中,每个输入字段都会对应一个输入神经元。( )
17.数据集中的异常数据和重复数据都可能对建模的速度和精确度造成影响。( )
21.数据可视化技术可以将所有数据的特性通过表的方式展示出来。( )
19.方差分析主要探讨给定量的变量与给定因素之间的关系。( )
20.截尾均值的好处就是能减少极端值的影响,较平均值更能反映实际情况。( )
东财22秋《数据分析与决策》单元作业二[答案]相关练习题:
下列有关绩效考核目标的说法错误的是( )。
()的“三言”是明代的拟话本章回小说,“三言”指《警世通言》《喻世明言》和《醒世恒言》。
()验证Input输入域的格式,即正则表达式
空气中相对湿度()80%为雾
在CRM系统中,客户服务与支持主要是通过()实现的,有助于产生客户的纵向及横向销售业务。
影响世界各国广告媒介选择的因素有( )。
以下行为中,不能代理的有()。
对那些虽属次要、但又必须交代清楚的部分历史事实的讲述应用()
弗里德曼对货币需求的分析比凯恩斯公式复杂是因为他引入了____
假设线性回归模型满足全部基本假设,最小二乘回归得到的参数估计量具备()。
弹性滑动使带速()于主动轮表面速度而又()于从动轮表面速度,从动轮的圆周速度总是()主动轮的圆周速度。
经营租赁的资产,在租赁期间由承租人负责维修、保养、保险维修及提取折旧,承租人必须保证租入资产的安全完整。 ( )
指出正确的表达式()
下列各典籍属于正史的是()。
在进给位置伺服系统中,UDC是指( )
有关宅基地使用权的下列活动,适用土地管理法等法律和国家有关规定( )
“收入-费用=利润”反映的是资金运动的动态方面,反映的是某一时期的经营成果,一个过程,是编制利润表的依据。 ( )
工艺系统刚度和一个物体本身刚度的概念一样,是指工艺系统在受力作用下地扛起变形的能力。
我国关于环境噪声污染防治的立法是针对
宾主双方面对面而坐的方式是()
对于应收账款的分析,可有以下几方面( )
我国婚姻法中所说的三代以内的旁系血亲包括()。