题库试卷

【国开搜题】国家开放大学一网一平台20230506大数据预处理试卷03期末考试押题试卷与答案

来源：百年教育职业培训中心　更新时间：2024-04-20 18:02:50

20230506大数据预处理试卷-03关注公众号【国开搜题】，回复【试题】获取试题答案渝粤搜题一、单选题1.下列选项中，属于将连续型变量离散化为定性变量具有的作用的是（）。A.适应算法的需要。B.消除

20230506大数据预处理试卷-03

关注公众号【国开搜题】，回复【试题】获取试题答案渝粤搜题

一、单选题

1. 下列选项中，属于将连续型变量离散化为定性变量具有的作用的是（）。

A. 适应算法的需要。

B. 消除数据中的异常值。

C. 填补数据中的缺失值。

D. 提高数据的准确性。

答案：A
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 下列表述中，正确的是（）。渝粤题库，我们的目标是要做全覆盖、全正确的答案搜索服务。

A. 含有缺失值的变量必须被剔除

B. 数据缺失的原因是该数据不存在。国开搜题

C. 数据缺失会造成模型解释能力下降。

D. 非随机缺失类型是指数据的缺失仅仅依赖于其它变量。

答案：C
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

3. 哑变量也可以被称作（）。

A. 连续型变量

B. 多分类变量

C. 0-1型变量渝粤教育

D. 数值型变量

答案：C
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

4. Robust缩放公式为（）。

A. Xscaled=X−X-S。

B. Xscaled=X−X-。

C. Xscaled=XXmax。

D. Xscaled=X−MedianIQR。

答案：D
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。渝粤搜题

5. 下列关于数据归约的表述中，不正确的是（）。

A. 过多的数据会导致模型训练效率低下。

B. 在进行数据分析前可以通过数据归约简化数据。

C. 为了简化数据，可以允许损失较多的信息。

D. 在样本量增加到一定程度后，信息含量趋近于不变。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

6. 确定某个数据是否为异常值时，需要比较该值与（）的距离。渝粤题库，我们的目标是要做全覆盖、全正确的答案搜索服务。

A. 平均值

B. 中值

C. 最大值

D. 最小值

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

7. 下列关于数据预处理的表述中，不正确的是（）。

A. 具备专业经验的数据科学家可以在数据分析前忽略数据预处理。

B. 数据预处理是在数据采集后，分析前这段时间里对数据进行的处理操作。

C. 数据预处理的效果与数据分析顺利与否直接相关。

D. 数据预处理往往占据数据分析项目总工作量的60%以上。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

8. 下列关于数据中心化的表述中，不正确的是（）。

A. 中心化后，平均值大于0。

B. 中心化后，标准差没有发生改变。

C. 中心化后，极差没有发生改变。

D. 中心化后，分布形状没有发生改变。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

9. 下列表述中正确的是（）。

A. 低频分类数据可能是由于真实的分类结果确实存在低频分类。

B. 处理低频分类数据的唯一方法是将这些数据删除。

C. 低频分类数据全部是采集数据时格式不规范或错误所导致的。

D. 低频分类数据通常呈现出类别很少，且很多类别仅有几个甚至一个样本的情况。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

10. 关于在计算机系统中的日期时间型数据，下列说法正确的是（）。

A. 日期时间型数据是以文本形式存储的。

B. 日期时间型数据是以缺失值形式存储的。

C. 日期时间型数据以“1970年1月1日0时0分0秒”这个时间点为0。

D. 在Python中，datetime模块不支持日期和时间的数学运算。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

二、判断题

1. 异常值的数值可能是真实的值。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. Robust缩放不易受极端值影响。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

3. Pearson相关系数的值在[0,1]之间分布。（）？渝粤题库

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

4. 多分类定性变量可以转变为哑变量。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

5. 日期时间型数据不能进行任何计算。（）？

A. √国开一网一平台

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

6. 在数据存储过程中，由于设备故障造成存储失败而导致的数据缺失，属于机械原因。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。渝粤题库，我们的目标是要做全覆盖、全正确的答案搜索服务。

7. 如果输入数据是连续型数据，使用决策树模型时，需要将连续型变量离散化为定性变量使用。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

8. 过多的低频类别会严重影响建模的效率。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。渝粤搜题

9. 使用LASSO算法可以进行变量选择。（）？

A. √

B. ×渝粤搜题

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

10. 具有不同的数据特征的变量不能直接纳入到同一个分析体系中。（）？

A. √国开搜题

B. ×渝粤搜题

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

三、问答题

1. 请简述大数据预处理的目标。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 请简述数据归约的概念及其形式。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

四、填空题

1. 使用Lasso算法进行变量选择： Lasso_model = Lasso(alpha=0.03, random_state=0) lasso_model. fit (train_x, train_y) coef = pd.Series(lasso_model.coef_ ,index=train_x.columns) var_lasso = coef[coef. ].index

A. ne(0)

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 对数据集data中的所有变量进行Min-Max缩放，结果保存在data_scale中： mm_scaler = () data_scale = mm_scaler.fit_transform(data)

A. MinMaxScaler

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

3. 对序列B进行中心化，结果保存在centralize_b中： scaler = StandardScaler( =False) centralize_b = scaler.fit_transform(B)

A. with_std

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

4. 请将定性变量序列s其转换为哑变量，每个哑变量的变量名均以字母d开头，并将结果存储于数据框df中： df = pd.get_dummies(s, prefix= )

A. "d"国开一网一平台

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

5. 截取保存了地址的变量addr的前三个字，并查看其唯一值情况： addr. (0, 3).unique()

A. str.slice

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

6. 计算变量y与x的Spearman相关系数： Spearman_xy = (y, x)

A. spearmanr

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

7. 对数据序列d1采用等宽分箱，分组数为7组，结果保存在d2中： d2 = pd. (d1, bins=7)

A. cut

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。渝粤题库，我们的目标是要做全覆盖、全正确的答案搜索服务。

8. 对boston数据集中的变量LSTAT进行处理，随机选择10个值将其赋值为缺失值： sample = random.sample(range(boston.shape[0]), 10) boston. [sample, "LSTAT"] = np.nan

A. loc

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

9. 对序列B进行Max-ABS缩放，结果保存在B1中： B1 = pd.Series( (B))

A. robust_scale

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

10. 在序列d1中以字符串形式存储这日期数据，其格式类似于："2022/08/28"，请将d1中的所有日期转换为日期时间型数据并存储于d2中。 d2 = pd.to_datetime(d1, ="%Y/%m/%d")

A. format

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

五、综合题

1. 已知date1为以文本形式存储日期数据的序列，其存储形式形如“2022/12/31”，请写出下方代码的功能 date2 = pd.to_datetime(date1, format="%Y/%m/%d") w = date2.dt.dayofweek weekend = w.isin([5, 6])

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 请写出下方代码的功能 model_all = GradientBoostingClassifier(random_state=0) model_all.fit(X=train_x, y=train_y) feature_imp = pd.Series(model_all.feature_importances_, index=train_x.columns) var_tree = feature_imp.sort_values(ascending=False).head(8).index print(feature_imp.sort_values(ascending=False)) print(" 结果为： %s" % var_tree.values)

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

关注公众号【国开搜题】，回复【试题】获取试题答案

【国开搜题】国家开放大学 一网一平台20230506大数据预处理试卷03期末考试押题试卷与答案

来源：百年教育职业培训中心 更新时间：2024-04-20 18:02:50

【国开搜题】国家开放大学一网一平台20230506大数据预处理试卷03期末考试押题试卷与答案

来源：百年教育职业培训中心　更新时间：2024-04-20 18:02:50