国开搜题

2024秋最新国家开放大学国开电大机考期末3大数据预处理试卷9机考期末试卷参考试题

来源：百年教育职业培训中心　更新时间：2025-01-11 03:11:35

20230506大数据预处理试卷-09关注公众号【飞鸟搜题】，回复【试题】获取试卷答案文档说明:本人针对该科精心汇总了历年题库及答案，形成一个完整的题库，并且每年都在更新。该题库对考生的复习、作业和考

20230506大数据预处理试卷-09

关注公众号【飞鸟搜题】，回复【试题】获取试卷答案

文档说明:本人针对该科精心汇总了历年题库及答案，形成一个完整的题库，并且每年都在更新。该题库对考生的复习、作业和考试起着非常重要的作用，会给您节省大量的时间。做考题时，利用本文档中的查找工具，把考题中的关键字输到查找工具的查找内容框内，就可迅速查找到该题答案。本文库还有期末考核试题、其他网核及教学考一体化、一网一平台复习试题与答案，敬请查看。

课程题目试题是随机的，请按题目关键词查找（或按Ctrl+F输入题目中的关键词，尽量不要输入整个题目，不要复制空格，连续的几个字就行）

本文由【飞鸟搜题】微信公众号提供，禁止复制盗取，违者必究

一、单选题

1. 下列选项中，属于将连续型变量离散化为定性变量具有的作用的是（）。

A. 填补数据中的缺失值。

B. 消除数据中的异常值。

C. 克服连续型变量中隐藏的缺陷。

D. 提高数据的准确性。

答案：C
- 关注公众号【飞鸟搜题】查看答案

2. 下列表述中，正确的是（）。

A. 含有缺失值的变量必须被剔除。

B. 数据缺失的原因是该数据不存在。

C. 数据缺失对于数据建模分析不存在影响。

D. 随机缺失类型是指数据的缺失仅仅依赖于其它变量。

答案：D
- 关注公众号【飞鸟搜题】查看答案

3. 下列选项中与哑变量具有不同含义是（）。

A. 二分类变量

B. 虚拟变量

C. 定量变量

D. 0-1型变量

答案：C
- 关注公众号【飞鸟搜题】查看答案

4. 下列数据特征缩放的公式中，正确的是（）。

A. 数据中心化公式为：Xscaled=X−X-S。

B. 数据标准化公式为：Xscaled=X−X-。

C. Min-Max缩放公式为：Xscaled=XXmax。

D. Robust缩放公式为：Xscaled=X−MedianIQR。

答案：D
- 关注公众号【飞鸟搜题】查看答案

5. 下列关于数据归约的意义中，不正确的是（）。

A. 可以降低无效、错误数据对数据建模的影响，提高建模准确性

B. 大幅缩减模型的训练时间，在需要反复训练模型的场景下能够极大地提高建模效率。

C. 可以降低数据存储的空间成本。

D. 有利于不同量纲数据之间的比较，也避免了自变量的不同量纲对建模的影响。

答案：关注公众号【飞鸟搜题】查看答案

6. 在大多数箱线图绘图工具中，定义上限值位置和下限值位置分别为（）。

A. 上限值：Q1+1.5×IQR ，下限值：Q3−1.5×IQR

B. 上限值：Q1−1.5×IQR ，下限值：Q3+1.5×IQR

C. 上限值：Q3−1.5×IQR ，下限值：Q1+1.5×IQR

D. 上限值：Q3+1.5×IQR ，下限值：Q1−1.5×IQR

答案：关注公众号【飞鸟搜题】查看答案

7. 下列选项中，属于“简化数据”的操作是（）。

A. 缺失值填补。

B. 变量选择。

C. 数据特征缩放。

D. 数据纠错。

答案：关注公众号【飞鸟搜题】查看答案

8. 下列关于Robust缩放方法的表述中，不正确的是（）。

A. Robust缩放方法的理念是“首先中心化，然后除以尺度”。

B. Robust缩放方法用到的指标不易受极端值影响。

C. Robust缩放方法用中位数代替了标准化方法里的均值指标。

D. Robust缩放方法用方差代替了标准化方法里的标准差指标。

答案：关注公众号【飞鸟搜题】查看答案

9. 下列表述中正确的是（）。

A. 低频分类数据都是真实的分类结果确实存在低频类别导致的。

B. 处理低频分类数据的唯一方法是将这些数据删除。

C. 过多的低频类别会严重影响建模的效率，在数据预处理阶段需要尽量进行处理。

D. 低频分类数据全部是采集数据时格式不规范或错误所导致的。

答案：关注公众号【飞鸟搜题】查看答案

10. 下列表述中，正确的是（）。

A. 对字符串型变量的缺失值，可以使用众数进行填补

B. 对于分类型变量的缺失值，可以使用中位数进行填补。

C. 对字浮点型变量的缺失值，可以使用众数进行填补。

D. 对于所有数据类型变量的缺失值，都可以使用中位数进行填补。

答案：关注公众号【飞鸟搜题】查看答案

二、判断题

1. 删除异常值会导致数据量的降低。（）？

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

2. 经过Min-Max缩放，数据的正负不会发生改变。（）？

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

3. Spearman相关系数为-1时，两个变量不相关。（）？

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

4. 哑变量又可称为虚拟变量。（）？

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

5. Python中，使用datetime对象的datetime.now()方法可以获得当前系统时间。（）？

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

6. 使用合理的方法对缺失值进行填补成为缺失值处理的主要形式。（）？

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

7. 分箱法主要有等宽法（等宽分箱）和等频法（等频分箱）两种形式。（）？

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

8. 不是所有的数据错误都可以被发现并纠正的。（）？

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

9. 模型预测准确度总是随着样本数量的增加而同步增加。（）？

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

10. 数据标准化是数据中心化的第一个步骤。（）？

A. √

B. ×

答案：关注公众号【飞鸟搜题】查看答案

三、问答题

1. 简述数据离散化方法中的等宽法的适用情况。

答案：关注公众号【飞鸟搜题】查看答案

2. 请简述数据特征缩放对数据分析的意义。

答案：关注公众号【飞鸟搜题】查看答案

四、填空题

1. 在使用GBDT模型进行变量选择时，使用训练集数据train的全部变量建立了模型m，现需要提取重要程度最大的9个变量： fi = pd.Series(m. feature_importances_,index=train_x.columns) var_tree = fi. (ascending=False).head(9).index

A. sort_values

答案：关注公众号【飞鸟搜题】查看答案

2. 对数据集data中的所有变量进行Robust缩放，结果保存在data_scale中： rob_scaler = () data_scale = rob_scaler.fit_transform (data)

A. RobustScaler

答案：关注公众号【飞鸟搜题】查看答案

3. 对序列B进行标准化，结果保存在B1中： B1 = (B, with_std= true)

A. scale

答案：关注公众号【飞鸟搜题】查看答案

4. 请将定性变量序列s其转换为哑变量，每个哑变量的变量名均以字母d开头，缺失值也作为一个类别，并将结果存储于数据框df中： df = pd.get_dummies(s, prefix="d", =True)

A. dummy_na

答案：关注公众号【飞鸟搜题】查看答案

5. 将数据集data_1 中的变量age数据中的-1和999替换为缺失值： data_1["age"]. ([-1, 999], np.nan, inplace=True)

A. replace

答案：关注公众号【飞鸟搜题】查看答案

6. 计算变量y与x的Pearson相关系数： Pearson_xy = (y, x)

A. pearsonr

答案：关注公众号【飞鸟搜题】查看答案

7. 对data数据采用等频分箱，分组数为5组，结果保存在result中： result=pd. (data,bins=5)

A. qcut

答案：关注公众号【飞鸟搜题】查看答案

8. 将数据集data中变量v1的缺失值使用其均值进行填补，将填补完的变量保存在v1_fill中： v1_fill = data["v1"].fillna(data["v1"]. )

A. mean()

答案：关注公众号【飞鸟搜题】查看答案

9. car_data数据集中变量make的每一个类别的频数存储在make_count中，现在将car_data数据集中的变量make的频数低于100的类别合并为一类： car_data["make1"] = car_data["make"].map( lambda x:"category_under100" if else x, na_action="ignore")

A. make_count[x]<100

答案：关注公众号【飞鸟搜题】查看答案

10. 在序列d1中以字符串形式存储这日期数据，其格式类似于："2022/08/28"，将d1中的所有日期转换为日期时间型数据并存储于d2中。现需要从d2中提取小时信息。 d2 = pd.to_datetime(d1, format="%Y/%m/%d") hour = d2.

A. dt. hour

答案：关注公众号【飞鸟搜题】查看答案

五、综合题

1. 已知变量x为数值型变量，请写出下方代码的功能： x_mean = x.mean() x_std = x.std() x_max = x_mean + 5 * x_std x_min = x_mean - 5 * x_std x[x.gt(x_mean + 5 * x_std)] = x_max x[x.lt(x_mean - 5 * x_std)] = x_min

答案：关注公众号【飞鸟搜题】查看答案

2. 已知变量d为分类型变量，请写出下方代码的功能。 d_count = d.value_counts() d1 = d.map(lambda x:"U100" if d_count[x]<100 else x, na_action="ignore")

答案：关注公众号【飞鸟搜题】查看答案

关注公众号【飞鸟搜题】，回复【试题】获取试卷答案

2024秋最新国家开放大学国开电大机考期末3大数据预处理试卷9机考期末试卷参考试题

来源：百年教育职业培训中心 更新时间：2025-01-11 03:11:35

来源：百年教育职业培训中心　更新时间：2025-01-11 03:11:35