正确答案:A
22秋《大数据技术与应用》作业1-00001
正确答案:B
试卷总分:100 得分:100
一、单选题 (共 15 道试题,共 60 分)
1.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为
A.2
B.4
C.6
D.8
正确答案:D
正确答案:A
2.在pandas中脏数据的典型表示有()
正确答案:A
A.np.nan
B.*
C.?
D.no
正确答案:D
3.利用pandas处理数据缺失值时,用于丢弃缺失值的函数为
正确答案:C
A.isnull
B.head
C.tail
正确答案:A
D.dropna
正确答案:C
正确答案:C
4.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22}的中四分位数为
A.2
B.4
C.6
D.8
5.数据集{1,2,3,5,7,8,9}的中位数是
A.3
B.5
C.7
D.4
正确答案:B
6.用训练好的LOF实例对数据进行LOF分数计算并排序的语句是
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
正确答案:B
正确答案:D
D.X_scores = clf.negative_outlier_factor_
正确答案:B
正确答案:D
7.利用pandas处理数据缺失值时,用于发现重复值的函数为
正确答案:B
A.isnull
B.duplicated
正确答案:B
C.fillna
D.dropna
8.分类的目标是
A.将一组对象分组以发现它们之间是否存在某种关系
B.从一组预定义的类中查找新对象所属的类
C.提高数据标签利用效率
D.以上都不对
正确答案:A
正确答案:D
正确答案:B
正确答案:A
9.项集 S ={ },则项集S称为
A.1项集
B.2项集
C.3项集
D.空集
正确答案:A
10.训练随机森林模型实例的语句是
A.from sklearn.tree import DecisionTreetClassifier
正确答案:D
B.clf=DecisionTreetClassifier()
正确答案:A
C.clf.fit(Xtrain,Ytrain)
D.predictions=clf.predict(Xtest)
正确答案:C
11.:from sklearn.tree import DecisionTreeClassifiernclf = DecisionTreeClassifier()nclf.fit(Xtrain,Ytrain) npredictions = clf.predict(Xtest)n上面代码第4行中Xtest表示
正确答案:C
A.训练数据集
B.测试数据集
C.训练数据的类别标签数组
D.测试数据的类别标签数组
正确答案:D
12.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的上四分位数为
A.20
B.22
C.20.5
D.28
正确答案:C
13.关联规则 X→Y 表示中Y称为
A.前件
B.后件
C.中间件
D.以上都不对
14.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的四分位差为
A.20
B.22
C.20.5
D.21.5
正确答案:C
15.用训练好的LOF实例判断数据是否异常,正常样本用1表示,异常样本用-1表示的语句
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
D.X_scores = clf.negative_outlier_factor_
正确答案:B
二、多选题 (共 5 道试题,共 20 分)
16.常用的描述统计分析方法包括
A.对比分析法
B.平均分析法
C.交叉分析法
D.以上都不对
17.关联规则反映的是
A.可分类性
B.可分割性
C.事物之间相互依存性
D.事物之间相互关联性
正确答案:C
21.数据集中趋势分析的常用指标包括
A.平均值
B.中位数
C.众数
D.四分位数
正确答案:B
19.数据挖掘是适应信息社会从海量数据中提取信息的需要而产生的新学科,也是交叉学科,包括
A.统计学
B.机器学习
C.数据库
D.模式识别
正确答案:C
20.常用的分类方法包括
A.朴素贝叶斯分类器
B.决策树
C.KNN
D.以上都不对
三、判断题 (共 5 道试题,共 20 分)
21.分箱法是针对连续的数值型数据中噪声进行处理
22.因为 Bayes 理论能够帮助理解基于概率估计的复杂现况,所以它成为了数据挖掘和概率论的基础
23.数据类型等级最高的是定类数据
24.分类算法的目的是找到数据的最优拟合
25.数据类型等级最低的是定比数据
北语22秋《大数据技术与应用》作业1[答案]历年参考题目如下:
深职院是指深圳职业技术学院,深圳职业技术学院1993年创建,是国内最早独立举办高等职业技术教育的院校之一。学校设有电子与通信工程学院等17个二级学院和体育部、工业中心、国际教育部等教学单位,招生专业80个。
深职院有哪些专业可以专升本
深职院即深圳职业技术学院,是一所高职专科院校,专科毕业学生可以通过统招专升本(即专插本)或自考、成考、远程教育等成人高等教育专升本方式报考本科院校,学习获得本科毕业证书。深圳职业技术学院的电子信息工程技术、移动互联应用技术、物联网应用技术、计算机网络技术、信息安全与管理、通信技术、计算机应用技术、软件技术、云计算技术与应用、大数据技术与应用、虚拟现实应用技术、人工智能技术服务、电气自动化技术、建筑智能化工程技术、金融管理、会计、法律事务、社区管理与服务、旅游管理、包装策划与设计、药学等专科专业毕业学生可报考相近或其他专升本专业。
北语22秋《大数据技术与应用》作业1[答案]相关练习题:
关于营造信任氛围的方法,说法不正确的是(? )。
汛期河水回落时河堤非常容易塌落。
形态测量包括()。
设哈希表长m=14,哈希函数H(key)=key%11。表中已有4个结点:addr (15)=4;addr (38)=5;addr (61)=6;addr (84)=7,如用二次探测再散列处理冲突,关键字为49的结点的地址是()。
下列经济业务不应通过“无形资产” 科目核算的有( )
(3)行业的交易量是多少?
抽样推断的目的是,通过对部分单位的调查,来取得样本的各项指标。
四、主观填空题 (共 5 道试题,共 15 分)
社会的基本功能有()
高血压急症是指短时期内(数小时或数天)血压重度升高,( ),同时伴有重要器官组织如心脏、脑、肾脏、眼底、大动脉的严重功能障碍或不可逆性损害。
一个社会组织的领导者必须对本组织的声誉和形象承担( )。
肩胛骨是一块三角形扁骨。()
下列仲裁协议约定的内容中,属于有效条款的是( )。
度假饭店选址,多依托于( )
购买来尚未使用的生产资料处于资本循环的()
智力因素包括( )等基本因素。
在语法分析处理中,FIRST集合.FOLLOW集合均是( )
笼形水合物的“主体”一般由( )个水分子组成
下列各项工资费用中应直接或间接计入产品成本的有( )。
9.属于国家行政机关的是( )。