正确答案:A
22秋《大数据技术与应用》作业2-00001
正确答案:C
试卷总分:100 得分:100
一、单选题 (共 15 道试题,共 60 分)
1.用训练好的LOF实例判断数据是否异常,正常样本用1表示,异常样本用-1表示的语句
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
正确答案:D
正确答案:B
D.X_scores = clf.negative_outlier_factor_
正确答案:C
2.利用pandas处理数据缺失值时,用于填充缺失值的函数为
正确答案:B
A.isnull
B.head
C.fillna
正确答案:C
D.dropna
正确答案:A
3.决策树生成过程中,以信息增益作为特征选择准则生成决策树的算法是
A.ID3
正确答案:C
B.C4.5
C.CART
D.以上都不对
正确答案:B
正确答案:C
正确答案:B
正确答案:B
正确答案:C
正确答案:D
4.决策树的生成是一个递归过程,在决策树基本算法中,满足哪种情形,会导致递归过程返回停止
A.特征选择次数超过一定限制
B.当前属性集为空,或所有样本在所有属性上取值相同
C.决策树深度超过2
D.以上都不对
5.:from sklearn.tree import DecisionTreeClassifiernclf = DecisionTreeClassifier()nclf.fit(Xtrain,Ytrain) npredictions = clf.predict(Xtest)n上面代码第4行中Xtest表示
正确答案:C
A.训练数据集
B.测试数据集
C.训练数据的类别标签数组
D.测试数据的类别标签数组
正确答案:C
6.以下不属于大数据分析方法的是()
A.统计分析
B.数学模型
C.机器学习
D.人工智能
正确答案:C
7.用训练好的孤立森林isolation forest实例对数据进行异常值检测的语句是
A.from sklean.ensemble import IsolationForest
B.LocalOutlierFactor
C.clf= IsolationForest(max_samples=100,random_state=0)
正确答案:A
D.clf.fit(X_train)
正确答案:B
E.y_pred=clf.fit_predict(X)
F.y_pred_test = clf.predict(X_test)
正确答案:B
8.用训练好的模糊C均值聚类实例对数据进行聚类操作的语句是
A.from fcmeans import FCM
B.fcm=FCM(n_clusters=3)
C.fcm.fit(X)
D.fcm_labels=fcm.u.argmax(axis=1)
正确答案:A
正确答案:A
9.数据集{1,2,2,2,3,4}的众数是
A.1
B.2
C.3
D.4
正确答案:A
10.不包含任何项的项集是指
A.项
B.空集
C.超项集
D.子项集
正确答案:D
11.利用Sklearn构建KNN分类器,用于KNN分类器训练的程序为
A.knn.fit(X_train,y_train)
B.y_pred=knn.predict(X_test)
正确答案:B
C.knn=KNeighborsClassifier(n_neighbors=k)
D.以上都不对
12.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为
A.2
B.4
C.6
D.8
正确答案:C
13.关联规则 X→Y 表示中X称为
A.前件
B.后件
C.中间件
D.以上都不对
14.从软件库中导入模糊C均值聚类算法类的语句是
A.from fcmeans import FCM
B.fcm=FCM(n_clusters=3)
C.fcm.fit(X)
D.fcm_labels=fcm.u.argmax(axis=1)
15.如果一个项集包含K个项,则该项集称为
A.项
B.空集
C.超项集
D.K项集
正确答案:C
正确答案:D
二、多选题 (共 5 道试题,共 20 分)
16.数据集中趋势分析的常用指标包括
A.平均值
B.中位数
C.众数
D.四分位数
正确答案:D
17.以下哪些是数据可视化图表
A.柱状图
B.折线图
C.饼图
D.散点图
正确答案:D
21.分箱法包括
A.等深分箱
B.众数分箱
C.等宽分箱
D.以上都不对
19.在数据清洗过程中,用于处理噪声值的方法包括
A.盖帽法
B.分箱法
C.聚类法
D.以上都不对
20.定性数据包括
A.有序数据
B.无序数据
C.定类等级数据
D.定性等级数据
正确答案:A
三、判断题 (共 5 道试题,共 20 分)
21.回归算法的目的是寻找决策边界
22.描述性数据分析属于比较高级复杂的数据分析手段
23.盖帽法是将某连续变量均值上下三倍标准差范围外的数值全部删除
24.定性数据包括离散数据和连续数据
25.等宽分箱方法是指每个分箱中样本数量一致
北语22秋《大数据技术与应用》作业2[答案]历年参考题目如下:
渤海理工职业学院由河北众诚企业集团投资创办,经河北省人民政府批准、国家教育部备案、面向全国招生的全日制普通高等院校。
渤海理工职业学院单招招生范围:参加2020年河北高考报名的高中生、中专技校生。
渤海理工职业学院2020年单招按照有学考和无学考进行招生,招生专业有安全防范技术、城市轨道交通工程技术、城市轨道交通机电技术、城市轨道交通运营管理、大数据技术与应用、电气自动化技术、电子信息工程技术、动漫设计、服装设计与工艺、高速铁路客运乘务、工程造价、工业机器人技术、互联网金融、护理、环境艺术设计、会计、机电一体化技术、机械制造与自动化、计算机网络技术、家政服务与管理、建筑材料工程技术、建筑工程技术、建筑室内设计、建筑智能化工程技术、酒店管理、康复治疗技术、老年服务与管理、旅游管理、汽车检测与维修技术、汽车智能技术、人力资源管理、商务管理、市场营销、无人机应用技术、物联网应用技术、物流管理、新能源汽车技术、休闲服务与管理(高尔夫球俱乐部管理)、药品生产技术、药学、医学检验技术、移动互联应用技术、影视多媒体技术、幼儿发展与健康管理、智能产品开发、智能控制技术(智能制造技术)、助产等。
北语22秋《大数据技术与应用》作业2[答案]相关练习题:
焊接应力对结构()
广义的采购概念包括()。
要想让某个文本框只能输入数字,应使用()动作
神经纤维静息电位的大小接近于:( )
20春《高级日语(一)》作业1
水准管圆弧半径R越小,则水准管分划值越小,整平精度越高。
名义利率指一年内多次复利时给出的年利率,它等于每期利率与年内复利次数的乘积。
拉伸方向总是垂直于草图基准面。
一般多采用动态式不间断电源。
我国把青岛附近某处黄海的平均海平面定位绝对标高的零点。
关于人身保险中投保人对保险标的具有保险利益的时间,下列说法正确的是( )
基于企业购、产、销行为需要的现金就是()要求的现金持有
不是领导素质特点的是()
为了能够依据合同,公平合理地处理建设单位与施工单位之间的争议,工程监理单位必须( )。
我国企业建设学习型组织模式的挑战包括()。
产权的界定和保护属于市场化解决外部性问题的方法。( )
人民法院受理破产案件后,破产企业的债权人应当在法院确定的债权申报期限内向管理人申报债权,逾期未申报债权的,( )。
“小孩走路,从全景推至走动着的脚,然后从走动着的脚拉出一成人在走”反映小孩已经长成大人利用的转场组接是()。
“附属单位缴款”账户的余额年终应转入( )账户。
下列应交的各项税费中,应该计入管理费用的有( )。