南开23春学期《数据科学导论》在线作业[答案][答案]

作者:奥鹏作业答案 字体:[增加 减小] 来源:大工在线 时间:2023-09-05 05:03

23春学期(高起本1709-2103、专升本/高起专1909-2103)《数据科学导论》在线作业-00002 试卷总分:100 得分:100 一、单选题 (共 20 道试题,共 40 分) 1.一元线性回归中,真实值与预测值的差称为样本的

南开23春学期《数据科学导论》在线作业[答案][答案]

南开23春学期数据科学导论在线作业[答案]

正确答案:A

23春学期(高起本1709-2103、专升本/高起专1909-2103)《数据科学导论在线作业-00002

正确答案:D

试卷总分:100  得分:100

一、单选题 (共 20 道试题,共 40 分)

1.一元线性回归中,真实值与预测值的差称为样本的()。

A.误差

B.方差

C.测差

D.残差

正确答案:D

 

2.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。

正确答案:A

A.减小,减小

B.减小,增大

C.增大,减小

D.增大,增大

正确答案:A

 

3.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。

A.1,线性

B.2,线性

C.1,非线性

D.2,非线性

正确答案:B

 

4.单层感知机模型属于()模型。

A.二分类的线性分类模型

B.二分类的非线性分类模型

C.多分类的线性分类模型

D.多分类的非线性分类模型

正确答案:C

 

5.多层感知机是由()层神经元组成。

A.二

B.三

C.大于等于二层

D.大于等于三层

正确答案:A

 

6.根据映射关系的不同可以分为线性回归和()。

A.对数回归

B.非线性回归

C.逻辑回归

D.多元回归

正确答案:A

 

7.聚类的最简单最基本方法是()。

A.划分聚类

B.层次聚类

C.密度聚类

D.距离聚类

正确答案:C

正确答案:B

 

8.以下哪一项不是特征选择常见的方法()

A.过滤式

B.封装式

C.嵌入式

D.开放式

正确答案:D

 

9.实体识别属于以下哪个过程()

A.数据清洗

B.数据集成

C.数据规约

D.数据变换

正确答案:C

 

10.数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”,概括性来说,脏数据不包括以下()

正确答案:B

A.普通值

B.异常值

C.不一致的值

D.重复值

正确答案:A

 

11.以下属于关联分析的是( )

A.CPU性能预测

B.购物篮分析

C.自动判断鸢尾花类别

D.股票趋势建模

正确答案:B

 

12.在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。

A.最优回归线

B.最优分布线

C.最优预测线

D.最佳分布线

正确答案:B

 

13.下列两个变量之间的关系中,哪个是函数关系()。

A.人的性别和他的身高

B.人的工资与年龄

C.正方形的面积和边长

D.温度与湿度

正确答案:C

 

14.通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()

A.简单函数变换

B.规范化

C.属性构造

D.连续属性离散化

正确答案:C

正确答案:C

 

15.层次聚类适合规模较()的数据集

A.大

B.中

C.小

D.所有

正确答案:C

 

16.在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。

A.越小

B.越大

C.无关

D.不确定

正确答案:D

 

17.以下哪一项不属于数据变换()

A.简单函数变换

B.规范化

C.属性合并

D.连续属性离散化

 

21.K-means聚类适用的数据类型是()。

A.数值型数据

B.字符型数据

C.语音数据

D.所有数据

正确答案:B

 

19.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。

A.4

B.5

C.6

D.7

正确答案:A

 

20.比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()

A.异常值

B.不一致的值

C.重复值

D.缺失值

正确答案:D

 

南开23春学期《数据科学导论》在线作业[答案]多选题答案

正确答案:D

二、多选题 (共 10 道试题,共 20 分)

21.系统日志收集的基本特征有()

A.高可用性

B.高可靠性

C.可扩展性

D.高效率

正确答案:C

 

22.多层感知机的学习过程包含()。

A.信号的正向传播

B.信号的反向传播

C.误差的正向传播

D.误差的反向传播

正确答案:D

 

23.聚类的主要方法有()。

A.划分聚类

B.层次聚类

C.密度聚类

D.距离聚类

 

24.对于多层感知机,()层拥有激活函数的功能神经元。

A.输入层

B.隐含层

C.输出层

 

25.关联规则的评价度量主要有:()。

A.支持度

B.置信度

C.准确率

D.错误率

正确答案:A

 

26.K-means聚类中K值选取的方法是()。

A.密度分类法

B.手肘法

C.大腿法

D.随机选取

正确答案:B

 

27.什么情况下结点不用划分()

A.当前结点所包含的样本全属于同一类别

B.当前属性集为空,或是所有样本在所有属性上取值相同

C.当前结点包含的样本集为空

D.还有子集不能被基本正确分类

正确答案:D

 

28.数据科学具有哪些性质()

A.有效性

B.可用性

C.未预料

D.可理解

正确答案:D

 

29.一元回归参数估计的参数求解方法有()。

A.最大似然法

B.距估计法

C.最小二乘法

D.欧式距离法

正确答案:A

 

30.Apriori算法的计算复杂度受()影响。

A.支持度阈值

B.项数

C.事务数

D.事务平均宽度

正确答案:C

 

三、判断题 (共 20 道试题,共 40 分)

31.如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。

 

32.交叉表可以帮助人们发现变量之间的相互作用。

 

33.K-means算法采用贪心策略,通过迭代优化来近似求解。

 

34.Jaccard系数只关心个体间共同具有的特征是否一致这个问题。

正确答案:D

 

35.对于项集来说,置信度没有意义。

 

36.在树的结构中,特征越重要,就越远离根节点。

 

37.决策树内部结点表示一个类,叶结点表示一个特征或属性

 

38.朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能

 

39.决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程,这一过程对应着特征空间的划分,也对应着决策树的构建

 

40.关联规则可以用枚举的方法产生。

 

41.获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。

 

42.聚合方法是自底向上的方法。

 

43.多层感知机的学习能力有限,只能处理线性可分的二分类问题。

 

44.支持度是衡量关联规则重要性的一个指标。

 

45.可信度是对关联规则的准确度的衡量。

 

46.集中趋势能够表明在一定条件下数据的独特性质与差异

 

47.Apriori算法是一种典型的关联规则挖掘算法。

 

48.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。

正确答案:A

 

49.当训练集较大的时候,标准BP算法通常会更快的获得更好的解。

 

50.一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。

正确答案:B

 

南开23春学期《数据科学导论》在线作业[答案]历年参考题目如下:




2021学期(1709、2103、2109、1903、1909、2003、2009、2103)《数据科学导论》在线作业

试卷总分:100  得分:100

一、单选题 (共 20 道试题,共 40 分)

1.只有非零值才重要的二元属性被称作:( ),其中购物篮数据就属于这种属性。

A.计数属性

B.离散属性

C.非对称的二元属性#对称属性

 

2.BFR聚类是用于处理数据集()的k-means变体。

A.大

B.中

C.小

D.所有

 

3.多层感知机是由()层神经元组成。

A.二

B.三

C.大于等于二层

D.大于等于三层

 

4.以下属于关联分析的是( )

A.CPU性能预测

B.购物篮分析

C.自动判断鸢尾花类别

D.股票趋势建模

 

5.聚类是一种()。

A.有监督学习

B.无监督学习

C.强化学习

D.半监督学习

 

6.在回归分析中,自变量为(),因变量为()。

A.离散型变量,离散型变量

B.连续型变量,离散型变量

C.离散型变量,连续型变量

D.连续型变量,连续型变量

 

7.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。

A.减小,减小

B.减小,增大

C.增大,减小

D.增大,增大

 

8.利用最小二乘法对多元线性回归进行参数估计时,其目标为()。

A.最小化方差#最小化标准差

B.最小化残差平方和

C.最大化信息熵

 

9.聚类的最简单最基本方法是()。

A.划分聚类

B.层次聚类

C.密度聚类

D.距离聚类

 

10.K-means聚类适用的数据类型是()。

A.数值型数据

B.字符型数据

C.语音数据

D.所有数据

 

11.通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()

A.简单函数变换

B.规范化

C.属性构造

D.连续属性离散化

 

12.我们需要对已生成的树()进行剪枝,将树变得简单,从而使它具有更好的泛化能力。

A.自上而下

B.自下而上

C.自左而右

D.自右而左

 

13.对于k近邻法,下列说法错误的是()。

A.不具有显式的学习过程

B.适用于多分类任务

C.k值越大,分类效果越好

D.通常采用多数表决的分类决策规则

 

14.单层感知机是由()层神经元组成。

A.一

B.二

C.三

D.四

 

15.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )

A.K-means

B.Bayes Network

C.C4.5

D.Apriori

 

16.为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。

A.1

B.2

C.3

D.4

 

17.以下哪一项不是特征工程的子问题()

A.特征创建

B.特征提取

C.特征选择

D.特征识别

 

21.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()

A.1,2,3,4

B.1,2,3,5

C.1,2,4,5

D.1,3,4,5

 

19.在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。

A.越小

B.越大

C.无关

D.不确定

 

20.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。

A.1,线性

B.2,线性

C.1,非线性

D.2,非线性

 

二、多选题 (共 10 道试题,共 20 分)

21.对于多层感知机,()层拥有激活函数的功能神经元。

A.输入层

B.隐含层

C.输出层

 

22.K-means聚类中K值选取的方法是()。

A.密度分类法

B.手肘法

C.大腿法

D.随机选取

 

23.Apriori算法的计算复杂度受()影响。

A.支持度阈值

B.项数

C.事务数

D.事务平均宽度

 

24.k近邻法的基本要素包括()。

A.距离度量

B.k值的选择

C.样本大小

D.分类决策规则

 

25.关联规则的评价度量主要有:()。

A.支持度

B.置信度

C.准确率

D.错误率

 

26.下面例子属于分类的是()

A.检测图像中是否有人脸出现

B.对客户按照贷款风险大小进行分类

C.识别手写的数字

D.估计商场客流量

 

27.一元回归参数估计的参数求解方法有()。

A.最大似然法

B.距估计法

C.最小二乘法

D.欧式距离法

 

28.数据科学具有哪些性质()

A.有效性

B.可用性

C.未预料

D.可理解

 

29.什么情况下结点不用划分()

A.当前结点所包含的样本全属于同一类别

B.当前属性集为空,或是所有样本在所有属性上取值相同

C.当前结点包含的样本集为空

D.还有子集不能被基本正确分类

 

30.系统日志收集的基本特征有()

A.高可用性

B.高可靠性

C.可扩展性

D.高效率

 

三、判断题 (共 20 道试题,共 40 分)

31.特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。

 

32.信息熵越大,数据信息的不确定性越小。

 

33.在数据预处理时,无论什么情况,都可以直接将异常值删除

 

34.标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。

 

35.当训练集较大的时候,标准BP算法通常会更快的获得更好的解。

 

36.每个类的先验概率可以通过属于该类的训练记录所占的比例来估计。

 

37.具有双隐层的感知机足以用于解决任何复杂的分类问题。

 

38.子集产生本质上是一个搜索过程,该过程可以从空集、随机产生的一个特征子集或者整个特征集开始。

 

39.探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。

 

40.利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。

 

41.阶跃函数具有不光滑、不连续的特点。

 

42.分拆方法是自底向上的方法。

 

43.EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。

 

44.剪枝是决策树学习算法对付“过拟合”的主要手段

 

45.单层感知机对于线性不可分的数据,学习过程也可以收敛。

 

作业咨询:
点击这里给我发消息

论文咨询:
点击这里给我发消息

合作加盟:
点击这里给我发消息

服务时间:
8:30-24:00(工作日)