正确答案:-----
22春《大数据技术与应用》作业3题目
正确答案:-----
试卷总分:100 得分:100
一、单选题 (共 15 道试题,共 60 分)
1.项集 S ={尿布,啤酒,牛奶,可乐},则项集S称为
A.1项集
B.2项集
C.3项集
D.4项集
正确答案:-----
2.决策树生成过程中,以信息增益率作为特征选择准则生成决策树的算法是
A.ID3
正确答案:-----
B.C4.5
C.CART
D.以上都不对
正确答案:-----
正确答案:-----
正确答案:-----
3.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为
A.2
B.4
C.6
D.8
正确答案:-----
4.从软件库中导入LOF异常检测算法类的语句是
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
正确答案:-----
正确答案:-----
D.X_scores = clf.negative_outlier_factor_
正确答案:-----
正确答案:-----
5.数据等级排序T的是
A.定距等级>定比等级>定类等级>定序等级
B.定比等级>定序等级>定距等级>定类等级
C.定比等级>定距等级>定序等级>定类等级
D.定比等级>定类等级>定序等级>定距等级
正确答案:-----
6.用训练好的LOF实例判断数据是否异常,正常样本用1表示,异常样本用-1表示的语句
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
D.X_scores = clf.negative_outlier_factor_
7.不包含任何项的项集是指
A.项
B.空集
C.超项集
D.子项集
正确答案:-----
8.从软件库中导入模糊C均值聚类算法类的语句是
A.from fcmeans import FCM
B.fcm=FCM(n_clusters=3)
C.fcm.fit(X)
D.fcm_labels=fcm.u.argmax(axis=1)
正确答案:-----
9.如果一个项集包含K个项,则该项集称为
A.项
B.空集
C.超项集
D.K项集
正确答案:-----
10.利用pandas处理数据缺失值时,用于丢弃重复值的函数为
正确答案:-----
A.drop_duplicates
正确答案:-----
B.duplicated
正确答案:-----
C.fillna
D.dropna
正确答案:-----
11.常用于多变量噪声值(异常值)处理的方法是
A.等深分箱
B.聚类法
C.等宽分箱
D.盖帽法
正确答案:-----
12.数据集{1,2,3,5,7,9}的中位数是
A.3
B.5
C.7
D.4
正确答案:-----
正确答案:-----
13.利用pandas处理数据缺失值时,用于发现缺失值的函数为
正确答案:-----
A.isnull
B.head
C.tail
正确答案:-----
D.info
正确答案:-----
14.关联规则 X→Y 表示中Y称为
A.前件
B.后件
C.中间件
D.以上都不对
15.数据集{1,2,2,2,3,4}的众数是
A.1
B.2
C.3
D.4
北语22春《大数据技术与应用》作业3[答案]多选题答案
正确答案:-----
二、多选题 (共 5 道试题,共 20 分)
16.聚类分析可以用于
A.顾客分组
B.分类
C.回归
D.找出显著影响
正确答案:-----
17.关联规则反映的是
A.可分类性
B.可分割性
C.事物之间相互依存性
D.事物之间相互关联性
正确答案:-----
21.大数据收集的途径包括()
A.互联网
B.移动互联网
C.物联网传感器
D.手动
正确答案:-----
19.可用于实现数据one-hot编码的方法包括
A.Pandas的head
正确答案:-----
B.Pandas的get_dummies
正确答案:-----
C.sklearn.preprocessing.OneHotEncoder方法
正确答案:-----
D.Pandas的tail
正确答案:-----
20.决策树的关键点包括
A.采用Bagging框架
B.采用随机特征选择生成每个决策树的训练数据特征子集
C.采用采样数据集的特征子集训练对应决策树
D.以上都不对
三、判断题 (共 5 道试题,共 20 分)
21.定类数据层次比定序数据高
22.数据挖掘的过程都是有统一一致的步骤的
23.定序数据层次比定距数据高
24.下四分位数是指 数据从大到小排列排在第25%位置的数字,即最小的四分位数(下四分位数)
25.上世纪 70 年代,随着数据库管理系统趋于成熟,存储和查询百万兆字节甚至千万亿字节成为可能。而且,数据仓库允许用户从面向事物处理的思维方式向更注重数据分析的方式进行转变。因此,提取复杂深度系信息能力非常强啊
北语22春《大数据技术与应用》作业3[答案]历年参考题目如下:
宁夏财经职业技术学院始建于1958年,隶属于自治区教育厅,是国家示范性高等职业院校,自治区文明校园,宁夏现代服务业职业教育集团理事长单位,教育部第二批现代学徒制试点单位,全国职业院校数字化校园建设实验校,自治区优质专科高等职业院校,自治区“互联网+教育”试点学校,自治区“三全育人”综合改革试点高校,自治区高校实行人员总量管理试点单位。
宁夏财经学院专升本的专业有哪些?
宁夏财经学院专升本的专业有统计与会计核算、会计信息管理、会计、财务管理、审计、物业管理、市场营销、跨境电子商务、计算机应用技术、大数据技术与应用、电子商务技术、移动应用开发、数字媒体艺术设计、广告设计与制作、金融管理、投资与理财、应用英语、国际贸易实务等专业。立即联系学业顾问>>
[奥鹏]北语22春《大数据技术与应用》作业3[答案]相关练习题:
某流域的集水面积为600km2,其多年平均径流总量为5亿m3,试问其多年平均流量多年平均径流深是( )
完整的阐述浪漫主义史学观点的学者是赫尔德。
ICMP报文分成两类:发送问题报告和查询。
黄疸从病因上可分为( )
在农业社会主义改造中,农业合作化必须遵循( )的原则。
喷混凝土施工应先下而上 、先凹后凸。
根据城镇土地使用税法律制度的规定,下列城市土地中,应缴纳城镇土地使用税的是( )。
领导者在做决策时,必须有一个( )
下列属于双因素理论中激励因素的有( )。
克林顿政府时期,把经济安全作为对外政策的主要目标。
执行1条指令所需要的时间称为指令周期。
交流伺服电机分为同步交流电机和异步交流电机
当SQL Server创建一个ABC数据库时,可用于作为模板的系统数据库是()。
与其他形式的家长工作相比,日常性家长工作是一种最普遍最经常的家长工作形式,是班级保教工作的一部分重要内容。
“儒以文乱法”中的“乱”表示的意思是( )。