正确答案:B
正确答案:C
试卷总分:100 得分:100
一、单选题 (共 15 道试题,共 60 分)
1.用训练好的随机森林对样本进行类别预测的语句是
A.from sklearn.tree import DecisionTreetClassifier
正确答案:D
B.clf=DecisionTreetClassifier()
正确答案:C
C.clf.fit(Xtrain,Ytrain)
D.predictions=clf.predict(Xtest)
正确答案:A
2.以下不是数据可视化工具库的是()
A.pandas
正确答案:C
B.matplotlib
C.matlab
D.seaborn
正确答案:B
3.数据集{1,2,3,5,7,8,9}的中位数是
A.3
B.5
C.7
D.4
正确答案:C
正确答案:A
正确答案:A
4.下面代码能够提取模糊C均值聚类算法类簇中心特征的语句是
A.from fcmeans import FCM
B.fcm=FCM(n_clusters=4)
C.fcm.fit(X)
D.fcm_centers=fcm.cednters
正确答案:C
5.局部异常因子(LOF)算法属于
A.基于统计的异常值检测方法
B.基于密度的异常检测方法
C.基于聚类的异常值检测
D.基于决策树的异常检测
正确答案:C
6.逻辑回归中的“逻辑”是指
正确答案:C
A.规则
B.Sigmoid函数
正确答案:A
C.学者名字
D.以上都不对
正确答案:A
正确答案:D
正确答案:B
正确答案:C
正确答案:A
7.数据集{1,2,2,2,3,4}的众数是
A.1
B.2
C.3
D.4
8.利用pandas处理数据缺失值时,用于发现缺失值的函数为
正确答案:D
A.isnull
B.head
C.tail
正确答案:B
D.info
正确答案:A
9.利用pandas处理数据缺失值时,用于填充缺失值的函数为
正确答案:B
A.isnull
B.head
C.fillna
正确答案:A
D.dropna
正确答案:D
10.关联规则最基础的元素是
A.项
B.项集
C.超项集
D.子项集
正确答案:D
11.from sklearn.neighbors import KNeighborsClassifiernknn = KNeighborsClassifier(n_neighbors=3) n上面代码中可以看出,KNN分类器的k值设置为
A.1
B.2
C.3
D.4
12.决策树生成过程中,以信息增益率作为特征选择准则生成决策树的算法是
A.ID3
正确答案:D
B.C4.5
C.CART
D.以上都不对
13.决策树生成过程的停止条件
A.当前结点包含的样本全属于同一类别,无需划分
B.当前属性集为空,或是所有样本在所有属性上取值相同,无法划分
C.当前结点包含的样本集合为空,不能划分
D.以上都不对
14.用训练好的LOF实例判断数据是否异常,正常样本用1表示,异常样本用-1表示的语句
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
正确答案:D
D.X_scores = clf.negative_outlier_factor_
正确答案:A
15.处理缺失值的方法有删除和()
A.替换
B.复制
C.修改
D.屏蔽
正确答案:C
正确答案:A
二、多选题 (共 5 道试题,共 20 分)
16.常用的分类方法包括
A.朴素贝叶斯分类器
B.决策树
C.KNN
D.以上都不对
17.定性数据包括
A.有序数据
B.无序数据
C.定类等级数据
D.定性等级数据
正确答案:B
21.数据挖掘(Data Mining)则是知识发现(KDD)的核心部分,它指的是从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为
正确答案:D
A.规则
B.概念
C.规律
D.模式
正确答案:A
19.异常检测的难点
A.不能明确定义何为正常,何为异常,在某些领域正常和异常并没有明确的界限
B.数据本身存在噪声,致使噪声和异常难以区分
C.正常行为并不是一成不变,也会随着时间演化,如正常用户被盗号之后,进行一系列的非法操作
D.难以获取标记数据,没有数据,再好的算法也是无用
正确答案:D
20.分箱法包括
A.等深分箱
B.众数分箱
C.等宽分箱
D.以上都不对
三、判断题 (共 5 道试题,共 20 分)
21.众数在一组数据中只有一个
22.因为 Bayes 理论能够帮助理解基于概率估计的复杂现况,所以它成为了数据挖掘和概率论的基础
23.下四分位数是指 数据从大到小排列排在第25%位置的数字,即最小的四分位数(下四分位数)
24.高层次数据无法向低层次转化,会出现F
25.描述性数据分析属于比较高级复杂的数据分析手段
北语22秋《大数据技术与应用》作业4[答案]历年参考题目如下:
芜湖职业技术学院是全国首批、安徽首所国家示范性高等职业院校和国家高职高专人才培养工作水平评估优秀院校,入选中国特色高水平高职学校和专业建设计划,为安徽省唯一入选高水平学校建设单位;全国第二批深化创新创业教育改革示范校(安徽唯一一所高职院校入选),全国首批现代学徒制试点院校(已通过验收),安徽省“四年一贯制”技术技能型本科人才培养模式改革试点院校,安徽省第二批“三全育人”综合改革试点院校。
芜湖职业技术学院改名升本科?
根据上级主管部门的公开信息显示,芜湖职业技术学院目前是全日制招生的高等职业院校。
面向社会招生高职高专学生,开设招生专业有数控技术、数控设备应用与维护、机械设计与制造、模具设计与制造、材料成型与控制技术、汽车检测与维修技术、汽车制造与装配技术、飞机机电设备维修、通用航空器维修、电气自动化技术、应用电子技术、机电一体化技术、工业过程自动化技术、电子制造技术与设备、城市轨道交通机电技术、自动化专业(本科,联合培养)、嵌入式技术与应用、计算机应用技术、汽车智能技术、物联网应用技术、工业机器人技术、电子信息工程技术、人工智能技术服务、文秘、旅游管理、酒店管理、涉外旅游、建筑工程技术、建设工程管理、工程造价、道路桥梁工程技术、食品生物技术(生物技术及应用)、食品营养与检测、药品生产技术(生物制药技术)、畜牧兽医(动物科学与技术)、动物防疫与检疫、宠物养护与驯导、 药品质量与安全(食品药品监督管理)、高分子材料工程技术、建筑材料检测技术、应用化工技术、精细化工技术、工业分析技术、环境监测与控制技术、储能材料技术、 园艺技术、园林技术、园林工程技术、建设工程监理、风景园林设计、环境艺术设计、计算机网络技术、软件技术、计算机信息管理、云计算技术与应用、大数据技术与应用等。
北语22秋《大数据技术与应用》作业4[答案]相关练习题:
北交《施工组织与概预算》在线作业一-0004
“国家分配论”认为,财政分配的主体是国家,财政分配的客体则是( )。
These leather handbags are fully illustrated in the catalogue and are()the same high quality as our gloves.
针对打凿引起墙体开裂事件,项目经理部应采取哪些纠正和预防措施?
艾维.李的公共关系思想提出的两个原则是()
公共关系策略与广告策略相比,它能以广告无法实现的方式提高产品、服务的知名度、可信度,并且更减低成本。
埋藏并充满两个隔水带之间的重力水叫做( )
在解决计算机主机与打印机之间速度不匹配问题时,通常设置一个打印数据缓冲区,主机将要输出的数据依次写入该缓冲区,打印机依次从该缓冲区中取出数据打印,则该缓冲区的结构应该是( )。
企业利用同种原材料,在同一生产过程种同时生产出的几种地位相同的主要产品称为( )。
下列哪一项不是患者角色的义务?
敌百虫中毒时不宜使用碱性溶液洗胃的原因是:
结构工程中使用钢材的塑性指标,目前最主要用( )表示。
催化加氢反应中,为了维持体系中H2的浓度接近饱和,H2的传质速率与反应速率间的关系为( )
朱自清的散文思想是什么?
德莱弗和布朗提出的休闲需求种类有:( )等
所谓心理结构,就是以人物内心活动为线索来结构人物关系和情节的影片,较有代表性的是20世纪60年代出现的()
凡( )的人都是中华人民共和国公民。( )
下列属于医疗保险的特征的是( )。
项目融资的运行过程包括( )。
可以放置文档的所有可视资源,其中包括文本、图像、视频和影片的是( )。