国开搜题

20230506大数据预处理试卷-01

来源：批量Word文档　更新时间：2026-05-18 07:23:42

20230506大数据预处理试卷-01 20230506大数据预处理试卷-01 关注公众号【飞鸟搜题】，回复【试题】获取试卷答案文档说明:本人针对该科精心汇总了历年题库及答案，形成一个完整的题库，并且每年都在更新。该题库对考生的复习、作业...

20230506大数据预处理试卷-01

20230506大数据预处理试卷-01

关注公众号【飞鸟搜题】，回复【试题】获取试卷答案

文档说明:本人针对该科精心汇总了历年题库及答案，形成一个完整的题库，并且每年都在更新。该题库对考生的复习、作业和考试起着非常重要的作用，会给您节省大量的时间。做考题时，利用本文档中的查找工具，把考题中的关键字输到查找工具的查找内容框内，就可迅速查找到该题答案。本文库还有期末考核试题、其他网核及教学考一体化、一网一平台复习试题与答案，敬请查看。

课程题目试题是随机的，请按题目关键词查找（或按Ctrl+F输入题目中的关键词，尽量不要输入整个题目，不要复制空格，连续的几个字就行）

本文由【飞鸟搜题】微信公众号提供，禁止复制盗取，违者必究

一、单选题

1. 下列表述中，正确的是（）。

将连续型变量离散化为定性变量，其数据信息含量会增加。

等频法属于有监督离散化方法。

数据离散化是指把无限空间中有限的个体映射到有限的空间中，以此提高算法的时空效率。

数据离散化是指将连续型变量的部分取值映射到根据客观或主观依据事先确定好的一系列分组或分类中，从而得到另一个连续型变量的数据预处理方法。

答案：C- 关注公众号【飞鸟搜题】查看答案

2. 下列表述中，正确的是（）。

含有缺失值的变量必须被剔除。

数据缺失的原因一定是该数据不存在。

数据缺失对于数据建模分析不存在影响。

随机缺失类型是指数据的缺失仅仅依赖于其它变量。

答案：D- 关注公众号【飞鸟搜题】查看答案

3. 哑变量也可以被称作（）。

二分类变量

连续型变量

多分类变量

数值型变量

答案：A- 关注公众号【飞鸟搜题】查看答案

4. 数据标准化公式为（）。

Xscaled=X−X-S。

Xscaled=X−X-。

Xscaled=XXmax。

Xscaled=X−MedianIQR。

答案：A- 关注公众号【飞鸟搜题】查看答案

5. 下列关于决策树模型的表述中，不正确的是（）。

越晚进入决策树的变量，其对于目标变量而言越重要。

该算法形象的以树状结构建立模型，再现了人类决策的过程。

具有建立过程直观易理解、便于可视化、应用范围广等一系列优点。

存在不能保证得到全局最优决策树、容易形成复杂结构从而过拟合等缺点。

答案：关注公众号【飞鸟搜题】查看答案

6. 下列哪个方法不能用于异常值处理（）。

直接删除

标记

截断

替换为任意值

答案：关注公众号【飞鸟搜题】查看答案

7. 下列关于数据预处理的目的中，不正确的说法是（）。

完善数据，使其满足分析建模的质量和数据形式要求。

使数据集得以简化，提高建模分析的效率。

作为数据分析项目的第一步，为数据采集提供指导。

提高数据信息含量，进而提高数据分析模型的准确性。

答案：关注公众号【飞鸟搜题】查看答案

8. 下列关于变量的数据特征的表述中，不正确的是（）。

Robust缩放方法的理念是“首先中心化，然后除以尺度”。

Robust缩放方法用到的指标不易受极端值影响。

Robust缩放方法用标准差代替了标准化方法里的均值指标。

Robust缩放方法用四分位差（IQR）代替了标准化方法里的标准差指标。

答案：关注公众号【飞鸟搜题】查看答案

9. 下列表述中，不正确的是（）。

低频分类数据都是真实的分类结果确实存在低频类别导致的。

可以通过绘制分类变量的各类别频数分布的箱线图来发现数据是否为低频分类数据。

过多的低频类别会严重影响建模的效率，在数据预处理阶段需要尽量进行处理。

低频分类数据通常呈现出类别众多，而且很多类别仅有几个甚至一个样本的情况。

答案：关注公众号【飞鸟搜题】查看答案

10. 关于在计算机系统中的日期时间型数据，下列说法正确的是（）。

日期时间型数据是以文本形式存储的。

日期时间型数据是以缺失值形式存储的。

日期时间型数据以“1970年1月1日0时0分0秒”这个时间点为0。

在Python中，datetime模块不支持日期和时间的数学运算。

答案：关注公众号【飞鸟搜题】查看答案

二、判断题

1. 一旦发现异常值，就应当将其删除。（）？

√

答案：关注公众号【飞鸟搜题】查看答案

2. Min-Max缩放只能将数据缩放至[0,1]的范围内。（）？

√

答案：关注公众号【飞鸟搜题】查看答案

3. Spearman相关系数小于0时，两个变量正相关。（）？

√

答案：关注公众号【飞鸟搜题】查看答案

4. 哑变量与one-hot码完全相同。（）？

√

答案：关注公众号【飞鸟搜题】查看答案

5. 日期时间型数据可进行计算。（）？

√

答案：关注公众号【飞鸟搜题】查看答案

6. 在数据存储过程中，由于设备故障造成存储失败而导致的数据缺失，属于机械原因。（）？

√

答案：关注公众号【飞鸟搜题】查看答案

7. 如果输入数据是连续型数据，使用决策树模型时，需要将连续型变量离散化为定性变量使用。（）？

√

答案：关注公众号【飞鸟搜题】查看答案

8. 不是所有的数据错误都可以被发现并纠正的。（）？

√

答案：关注公众号【飞鸟搜题】查看答案

9. 数量归约是指从所有样本中选择一个有代表性的子集，因此也称为样本归约。（）？

√

答案：关注公众号【飞鸟搜题】查看答案

10. 某变量数据中心化结果可由该变量数据标准化的结果除以变量的标准差得到。（）？

√

答案：关注公众号【飞鸟搜题】查看答案

三、问答题

1. 简述缺失值填补的思路。

答案：关注公众号【飞鸟搜题】查看答案

2. 请简述使用Lasso算法选择变量的思想。

答案：关注公众号【飞鸟搜题】查看答案

四、填空题

1. 使用test_x数据集计算只包含部分变量var_new的新模型model_new的AUC值： auc = (y_true=test_y, y_score=model_new.predict_proba (test_x[var_new])[:,1])

roc_auc_score

答案：关注公众号【飞鸟搜题】查看答案

2. 对数据集data中的所有变量进行Max-ABS缩放，结果保存在data_scale中： ma_scaler = () data_scale = ma_scaler.fit_transform(data)

MinAbsScaler

答案：关注公众号【飞鸟搜题】查看答案

3. 对序列B进行Min-Max缩放，缩放至区间[0,1]，结果保存在B1中： B1 = (B)

minmax_scale

答案：关注公众号【飞鸟搜题】查看答案

4. 请将定性变量序列s其转换为哑变量，每个哑变量的变量名均以字母d开头，且不以某一类别为全0项（即每个类别均对应一个哑变量），并将结果存储于数据框df中： df = pd.get_dummies(s, prefix="d", drop_first= )

False

答案：关注公众号【飞鸟搜题】查看答案

5. 使用boston数据集实现GBDT模型填补。首先初始化一个GBDT模型，模型的训练集为train，将含有缺失值的变量LSTAT作为目标变量，其余变量作为自变量拟合模型： train = boston.dropna(subset=["LSTAT"]) = GradientBoostingRegressor() GBDT.fit(X=train.drop("LSTAT",axis=1 ), y=train["LSTAT"])

GBDT

答案：关注公众号【飞鸟搜题】查看答案

6. 已知某数据集中，目标变量与其他所有变量的Pearson相关系数存储在序列p中，现需要查找相关系数的绝对值大于0.5的变量： var_cor = p.abs() > 0.5 var_cor = var_cor[var_cor].

index

答案：关注公众号【飞鸟搜题】查看答案

7. 对数据序列d1采用等宽分箱，分组数为7组，结果保存在d2中： d2 = pd. (d1, bins=7)

cut

答案：关注公众号【飞鸟搜题】查看答案

8. 对boston数据集中的变量LSTAT进行处理，随机选择10个值将其赋值为缺失值： sample = random.sample(range(boston.shape[0]), 10) boston. [sample, "LSTAT"] = np.nan

loc

答案：关注公众号【飞鸟搜题】查看答案

9. 使用截断方法，将大于data_mean+5*data_std赋值为data_mean+5*data_std : data[data. (data_mean+5*data_std)] = data_mean+5*data_std

答案：关注公众号【飞鸟搜题】查看答案

10. 在序列d1中以字符串形式存储这日期数据，其格式类似于："2022/08/28"，请将d1中的所有日期转换为日期时间型数据并存储于d2中。 d2 = pd. (d1, format="%Y/%m/%d")

to_datetime

答案：关注公众号【飞鸟搜题】查看答案

五、综合题

1. 请写出下方代码的功能 dt = pd.Series("") dt[0] = "2020/12/20" dt[1] = "2020/12/21" dt = pd.to_datetime(dt, format = "%Y/%m/%d")

答案：关注公众号【飞鸟搜题】查看答案

2. 已知变量x为分类变量，请写出下方代码的功能 x_count = x.value_counts() print(x_count)

答案：关注公众号【飞鸟搜题】查看答案

关注公众号【飞鸟搜题】，回复【试题】获取试卷答案

20230506大数据预处理试卷-01

来源：批量Word文档 更新时间：2026-05-18 07:23:42

来源：批量Word文档　更新时间：2026-05-18 07:23:42