百年教育职业培训中心 百年教育学习服务平台
国开搜题

2024秋最新国家开放大学国开电大机考期末3大数据预处理试卷9机考期末试卷参考试题

来源: 更新时间:

20230506大数据预处理试卷-09关注公众号【飞鸟搜题】,回复【试题】获取试卷答案文档说明:本人针对该科精心汇总了历年题库及答案,形成一个完整的题库,并且每年都在更新。该题库对考生的复习、作业和考

20230506大数据预处理试卷-09

关注公众号【飞鸟搜题】,回复【试题】获取试卷答案

文档说明:本人针对该科精心汇总了历年题库及答案,形成一个完整的题库,并且每年都在更新。该题库对考生的复习、作业和考试起着非常重要的作用,会给您节省大量的时间。做考题时,利用本文档中的查找工具,把考题中的关键字输到查找工具的查找内容框内,就可迅速查找到该题答案。本文库还有期末考核试题、其他网核及教学考一体化、一网一平台复习试题与答案,敬请查看。

课程题目试题是随机的,请按题目关键词查找(或按Ctrl+F输入题目中的关键词,尽量不要输入整个题目,不要复制空格,连续的几个字就行)

本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究

本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究

本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究


一 、单选题

1. 下列选项中,属于将连续型变量离散化为定性变量具有的作用的是()。

A. 填补数据中的缺失值。

B. 消除数据中的异常值。

C. 克服连续型变量中隐藏的缺陷。

D. 提高数据的准确性。

答案:C
- 关注公众号【飞鸟搜题】查看答案

2. 下列表述中,正确的是()。

A. 含有缺失值的变量必须被剔除。

B. 数据缺失的原因是该数据不存在。

C. 数据缺失对于数据建模分析不存在影响。

D. 随机缺失类型是指数据的缺失仅仅依赖于其它变量。

答案:D
- 关注公众号【飞鸟搜题】查看答案

3. 下列选项中与哑变量具有不同含义是()。

A. 二分类变量

B. 虚拟变量

C. 定量变量

D. 0-1型变量

答案:C
- 关注公众号【飞鸟搜题】查看答案

4. 下列数据特征缩放的公式中,正确的是()。

A. 数据中心化公式为:Xscaled=X−X-S。

B. 数据标准化公式为:Xscaled=X−X-。

C. Min-Max缩放公式为:Xscaled=XXmax。

D. Robust缩放公式为:Xscaled=X−MedianIQR。

答案:D
- 关注公众号【飞鸟搜题】查看答案

5. 下列关于数据归约的意义中,不正确的是()。

A. 可以降低无效、错误数据对数据建模的影响,提高建模准确性

B. 大幅缩减模型的训练时间,在需要反复训练模型的场景下能够极大地提高建模效率。

C. 可以降低数据存储的空间成本。

D. 有利于不同量纲数据之间的比较,也避免了自变量的不同量纲对建模的影响。

答案:关注公众号【飞鸟搜题】查看答案

6. 在大多数箱线图绘图工具中,定义上限值位置和下限值位置分别为()。

A. 上限值:Q1+1.5×IQR ,下限值:Q3−1.5×IQR

B. 上限值:Q1−1.5×IQR ,下限值:Q3+1.5×IQR

C. 上限值:Q3−1.5×IQR ,下限值:Q1+1.5×IQR

D. 上限值:Q3+1.5×IQR ,下限值:Q1−1.5×IQR

答案:关注公众号【飞鸟搜题】查看答案

7. 下列选项中,属于“简化数据”的操作是()。

A. 缺失值填补。

B. 变量选择。

C. 数据特征缩放。

D. 数据纠错。

答案:关注公众号【飞鸟搜题】查看答案

8. 下列关于Robust缩放方法的表述中,不正确的是()。

A. Robust缩放方法的理念是“首先中心化,然后除以尺度”。

B. Robust缩放方法用到的指标不易受极端值影响。

C. Robust缩放方法用中位数代替了标准化方法里的均值指标。

D. Robust缩放方法用方差代替了标准化方法里的标准差指标。

答案:关注公众号【飞鸟搜题】查看答案

9. 下列表述中正确的是()。

A. 低频分类数据都是真实的分类结果确实存在低频类别导致的。

B. 处理低频分类数据的唯一方法是将这些数据删除。

C. 过多的低频类别会严重影响建模的效率,在数据预处理阶段需要尽量进行处理。

D. 低频分类数据全部是采集数据时格式不规范或错误所导致的。

答案:关注公众号【飞鸟搜题】查看答案

10. 下列表述中,正确的是()。

A. 对字符串型变量的缺失值,可以使用众数进行填补

B. 对于分类型变量的缺失值,可以使用中位数进行填补。

C. 对字浮点型变量的缺失值,可以使用众数进行填补。

D. 对于所有数据类型变量的缺失值,都可以使用中位数进行填补。

答案:关注公众号【飞鸟搜题】查看答案

二 、判断题

1. 删除异常值会导致数据量的降低。()?

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

2. 经过Min-Max缩放,数据的正负不会发生改变。()?

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

3. Spearman相关系数为-1时,两个变量不相关。()?

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

4. 哑变量又可称为虚拟变量。()?

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

5. Python中,使用datetime对象的datetime.now()方法可以获得当前系统时间。()?

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

6. 使用合理的方法对缺失值进行填补成为缺失值处理的主要形式。()?

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

7. 分箱法主要有等宽法(等宽分箱)和等频法(等频分箱)两种形式。()?

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

8. 不是所有的数据错误都可以被发现并纠正的。()?

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

9. 模型预测准确度总是随着样本数量的增加而同步增加。()?

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

10. 数据标准化是数据中心化的第一个步骤。()?

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

三 、问答题

1. 简述数据离散化方法中的等宽法的适用情况。

答案:关注公众号【飞鸟搜题】查看答案

2. 请简述数据特征缩放对数据分析的意义。

答案:关注公众号【飞鸟搜题】查看答案

四 、填空题

1. 在使用GBDT模型进行变量选择时,使用训练集数据train的全部变量建立了模型m,现需要提取重要程度最大的9个变量: fi = pd.Series(m. feature_importances_,index=train_x.columns) var_tree = fi. (ascending=False).head(9).index

A. sort_values

答案:关注公众号【飞鸟搜题】查看答案

2. 对数据集data中的所有变量进行Robust缩放,结果保存在data_scale中: rob_scaler = () data_scale = rob_scaler.fit_transform (data)

A. RobustScaler

答案:关注公众号【飞鸟搜题】查看答案

3. 对序列B进行标准化,结果保存在B1中: B1 = (B, with_std= true)

A. scale

答案:关注公众号【飞鸟搜题】查看答案

4. 请将定性变量序列s其转换为哑变量,每个哑变量的变量名均以字母d开头,缺失值也作为一个类别,并将结果存储于数据框df中: df = pd.get_dummies(s, prefix="d", =True)

A. dummy_na

答案:关注公众号【飞鸟搜题】查看答案

5. 将数据集data_1 中的变量age数据中的-1和999替换为缺失值: data_1["age"]. ([-1, 999], np.nan, inplace=True)

A. replace

答案:关注公众号【飞鸟搜题】查看答案

6. 计算变量y与x的Pearson相关系数: Pearson_xy = (y, x)

A. pearsonr

答案:关注公众号【飞鸟搜题】查看答案

7. 对data数据采用等频分箱,分组数为5组,结果保存在result中: result=pd. (data,bins=5)

A. qcut

答案:关注公众号【飞鸟搜题】查看答案

8. 将数据集data中变量v1的缺失值使用其均值进行填补,将填补完的变量保存在v1_fill中: v1_fill = data["v1"].fillna(data["v1"]. )

A. mean()

答案:关注公众号【飞鸟搜题】查看答案

9. car_data数据集中变量make的每一个类别的频数存储在make_count中,现在将car_data数据集中的变量make的频数低于100的类别合并为一类: car_data["make1"] = car_data["make"].map( lambda x:"category_under100" if else x, na_action="ignore")

A. make_count[x]<100

答案:关注公众号【飞鸟搜题】查看答案

10. 在序列d1中以字符串形式存储这日期数据,其格式类似于:"2022/08/28",将d1中的所有日期转换为日期时间型数据并存储于d2中。现需要从d2中提取小时信息。 d2 = pd.to_datetime(d1, format="%Y/%m/%d") hour = d2.

A. dt. hour

答案:关注公众号【飞鸟搜题】查看答案

五 、综合题

1. 已知变量x为数值型变量,请写出下方代码的功能: x_mean = x.mean() x_std = x.std() x_max = x_mean + 5 * x_std x_min = x_mean - 5 * x_std x[x.gt(x_mean + 5 * x_std)] = x_max x[x.lt(x_mean - 5 * x_std)] = x_min

答案:关注公众号【飞鸟搜题】查看答案

2. 已知变量d为分类型变量,请写出下方代码的功能。 d_count = d.value_counts() d1 = d.map(lambda x:"U100" if d_count[x]<100 else x, na_action="ignore")

答案:关注公众号【飞鸟搜题】查看答案

关注公众号【飞鸟搜题】,回复【试题】获取试卷答案

电话咨询