南开21春学期(1709、2103、2109、1903、1909、2003、2009、2103)《数据科学导论》在线作业[免费答案]
正确答案:-----
南开21春学期(1709、2103、2109、1903、1909、2003、2009、2103)《数据科学导论》在线作业[免费答案]满分答案
21春学期(1709、2103、2109、1903、1909、2003、2009、2103)《数据科学导论》在线作业
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.BFR聚类是用于处理数据集()的k-means变体。
A.大
B.中
C.小
D.所有
正确答案:-----
正确答案:-----
正确答案:-----
正确选项:-----
2.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()
A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
正确答案:-----
正确选项:-----
3.以下哪一项不是特征选择常见的方法()
A.过滤式
B.封装式
C.嵌入式
D.开放式
正确答案:-----
正确答案:-----
4.例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
正确答案:-----
正确答案:-----
正确选项:-----
正确选项:-----
5.对于k近邻法,下列说法错误的是()。
A.不具有显式的学习过程
B.适用于多分类任务
C.k值越大,分类效果越好
D.通常采用多数表决的分类决策规则
正确答案:-----
正确选项:-----
6.手肘法的核心指标是()。
A.SES
B.SSE
C.RMSE
D.MSE
正确答案:-----
正确答案:-----
正确答案:-----
7.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
正确答案:-----
正确答案:-----
正确答案:-----
A.减小,减小
B.减小,增大
C.增大,减小
D.增大,增大
正确答案:-----
专业答案:-----
8.变量之间的关系一般可以分为确定性关系与()。
A.非确定性关系
B.线性关系
C.函数关系
D.相关关系
正确答案:-----
正确选项:-----
9.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A.产量每增加一台,单位成本增加100元
B.产量每增加一台,单位成本减少1.2元
C.产量每增加一台,单位成本平均减少1.2元
D.产量每增加一台,单位平均增加100元
正确答案:-----
专业答案:-----
10.层次聚类对给定的数据进行()的分解。
A.聚合
B.层次
C.分拆
D.复制
正确答案:-----
正确选项:-----
11.下列两个变量之间的关系中,哪个是函数关系()。
A.人的性别和他的身高
B.人的工资与年龄
C.正方形的面积和边长
D.温度与湿度
正确答案:-----
正确答案:-----
12.通过变量标准化计算得到的回归方程称为()。
A.标准化回归方程
B.标准化偏回归方程
C.标准化自回归方程
D.标准化多回归方程
正确答案:-----
正确答案:-----
13.以下属于关联分析的是( )
A.CPU性能预测
B.购物篮分析
C.自动判断鸢尾花类别
D.股票趋势建模
正确答案:-----
正确答案:-----
14.单层感知机模型属于()模型。
A.二分类的线性分类模型
B.二分类的非线性分类模型
C.多分类的线性分类模型
D.多分类的非线性分类模型
正确答案:-----
正确选项:-----
15.以下哪一项不属于数据变换()
A.简单函数变换
B.规范化
C.属性合并
D.连续属性离散化
16.层次聚类适合规模较()的数据集
A.大
B.中
C.小
D.所有
17.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )
A.K-means
B.Bayes Network
C.C4.5
D.Apriori
正确答案:-----
正确选项:-----
21.根据映射关系的不同可以分为线性回归和()。
A.对数回归
B.非线性回归
C.逻辑回归
D.多元回归
正确答案:-----
正确选项:-----
19.数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”,概括性来说,脏数据不包括以下()
正确答案:-----
正确答案:-----
A.普通值
B.异常值
C.不一致的值
D.重复值
正确答案:-----
专业答案:-----
20.在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。
A.最优回归线
B.最优分布线
C.最优预测线
D.最佳分布线
正确答案:-----
正确选项:-----
南开21春学期(1709、2103、2109、1903、1909、2003、2009、2103)《数据科学导论》在线作业[免费答案]多选题答案
二、多选题 (共 10 道试题,共 20 分)
21.层次聚类的方法是()
A.聚合方法
B.分拆方法
C.组合方法
D.比较方法
正确答案:-----
正确选项:-----
22.k近邻法的基本要素包括()。
A.距离度量
B.k值的选择
C.样本大小
D.分类决策规则
正确答案:-----
正确答案:-----
23.对于多层感知机,()层拥有激活函数的功能神经元。
A.输入层
B.隐含层
C.输出层
24.Apriori算法的计算复杂度受()影响。
A.支持度阈值
B.项数
C.事务数
D.事务平均宽度
正确答案:-----
正确答案:-----
专业答案:-----
25.系统日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可扩展性
D.高效率
正确答案:-----
正确答案:-----
26.K-means聚类中K值选取的方法是()。
A.密度分类法
B.手肘法
C.大腿法
D.随机选取
正确答案:-----
正确答案:-----
27.多层感知机的学习过程包含()。
A.信号的正向传播
B.信号的反向传播
C.误差的正向传播
D.误差的反向传播
正确答案:-----
正确答案:-----
28.什么情况下结点不用划分()
A.当前结点所包含的样本全属于同一类别
B.当前属性集为空,或是所有样本在所有属性上取值相同
C.当前结点包含的样本集为空
D.还有子集不能被基本正确分类
正确答案:-----
专业答案:-----
29.下面例子属于分类的是()
A.检测图像中是否有人脸出现
B.对客户按照贷款风险大小进行分类
C.识别手写的数字
D.估计商场客流量
正确答案:-----
正确答案:-----
30.距离度量中的距离可以是()
A.欧式距离
B.曼哈顿距离
C.Lp距离
D.Minkowski距离
正确答案:-----
正确答案:-----
三、判断题 (共 20 道试题,共 40 分)
31.增加神经元的个数,无法提高神经网络的训练精度。
32.一个人的身高与体重之间具有函数关系。
33.可信度是对关联规则的准确度的衡量。
34.给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。
35.K均值(K-Means)算法是密度聚类。
36.具有双隐层的感知机足以用于解决任何复杂的分类问题。
37.当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。
38.集中趋势能够表明在一定条件下数据的独特性质与差异
39.给定关联规则A→B,意味着:若A发生,B也会发生。
40.数据科学运用科学方法分析数据,位于几个学科的交叉点并利用领域特定的知识,使大数据的分析成为可能。
41.BFR聚类簇的坐标可以与空间的坐标保持一致。
42.剪枝是决策树学习算法对付“过拟合”的主要手段
正确答案:-----
专业答案:-----