题库试卷

【国开搜题】国家开放大学一网一平台20230506大数据预处理试卷05期末考试押题试卷与答案

来源：百年教育职业培训中心　更新时间：2024-04-20 18:04:50

20230506大数据预处理试卷-05关注公众号【国开搜题】，回复【试题】获取试题答案一、单选题渝粤教育1.下列选项中，属于将连续型变量离散化为定性变量具有的作用的是（）。A.提高数据的准确性。B.填

20230506大数据预处理试卷-05

关注公众号【国开搜题】，回复【试题】获取试题答案

一、单选题渝粤教育

1. 下列选项中，属于将连续型变量离散化为定性变量具有的作用的是（）。

A. 提高数据的准确性。

B. 填补数据中的缺失值。

C. 消除数据中的异常值。

D. 使变量包含的信息更接近知识层面的表达从而让人更容易理解。

答案：D
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。渝粤题库，我们的目标是要做全覆盖、全正确的答案搜索服务。

2. Pandas中默认的缺失值形式为（）。

A. NA

B. NaN

C. Null

D. ""

答案：B
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。渝粤搜题

3. 关于哑变量与one-hot码，下列说法正确的是（）。

A. 哑变量与one-hot码是完全相同的概念。

B. 任何一个k个类别的定性变量都可以转换为k−1个哑变量。

C. 任何一个k个类别的定性变量都可以转换为k−2个哑变量。

D. 任何一个k个类别的定性变量都可以转换为k−1个比特的one-hot码。

答案：B
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

4. 下列数据特征缩放的公式中，正确的是（）。

A. 数据中心化公式为：Xscaled=X−X-S。

B. 数据标准化公式为：Xscaled=X−X-。

C. Max-ABS缩放公式为：Xscaled=XXmax。

D. Robust缩放公式为：Xscaled=X−MedianS。

答案：C
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

5. 下列关于数据归约的表述中正确的是（）。

A. 数据量的增加会导致模型训练效率提升。

B. 初学者需要通过数据归约简化数据，专业数据分析师则不需要。

C. 进行数据归约时，数据集的信息不会有任何损失。

D. 在样本量增加到一定程度后，信息含量趋近于不变。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

6. 在大多数箱线图绘图工具中，定义上限值位置和下限值位置分别为（）。渝粤题库

A. 上限值：Q1+1.5×IQR ，下限值：Q3−1.5×IQR

B. 上限值：Q1−1.5×IQR ，下限值：Q3+1.5×IQR

C. 上限值：Q3−1.5×IQR ，下限值：Q1+1.5×IQR

D. 上限值：Q3+1.5×IQR ，下限值：Q1−1.5×IQR

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

7. 下列哪个选项不是大数据预处理的主要内容（）。

A. 完善数据

B. 简化数据

C. 提高数据信息含量

D. 降低数据信息含量

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

8. 下列关于变量的数据特征的表述中，不正确的是（）。

A. Robust缩放方法的理念是“首先中心化，然后除以尺度”。

B. Robust缩放方法用到的指标不易受极端值影响。

C. Robust缩放方法用标准差代替了标准化方法里的均值指标。

D. Robust缩放方法用四分位差（IQR）代替了标准化方法里的标准差指标。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。国开一网一平台

9. 下图是某分类变量各类别计数分布的箱线图，从图中可知（）。

A. 变量中存在大量计数很低的类别。

B. 该变量类别很少，可以清晰的用箱线图展示各类别的频数。

C. 这个变量不存在低频分类现象。

D. 绝大多数分类计数很高。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

10. 关于在计算机系统中的日期时间型数据，下列说法正确的是（）。

A. 日期时间型数据是以文本形式存储的。

B. 日期时间型数据是以数值形式存储的。

C. 日期时间型数据以“1980年1月1日0时0分0秒”这个时间点为0。

D. 在Python中，datetime模块不支持日期和时间的数学运算。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

二、判断题

1. 异常值是错误的数据。（）？

A. √渝粤题库

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 经过Min-Max缩放，数据的正负可能会发生改变。（）？

A. √渝粤搜题

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

3. Spearman相关系数为-1时，两个变量不相关。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

4. 哑变量可以有多个类别。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

5. 数据分析项目中，数据预处理环节不重要，可以忽略不做。（）？

A. √

B. ×渝粤搜题

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

6. 在数据存储过程中，由于设备故障造成存储失败而导致的数据缺失，属于机械原因。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

7. 数据离散化会破坏连续型变量的基本数据含义。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

8. 不是所有的数据错误都可以被发现并纠正的。（）？国开搜题

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

9. 在进行变量选择时需要遵循的原则是，剔除的变量必须对数据分析影响较大。（）？渝粤搜题

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

10. 经过标准化处理后，新值体现的是原值在序列中的相对位置。（）？国开搜题

A. √

B. ×国开搜题

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

三、问答题

1. 简述数据离散化的操作含义。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 请简述将变量缩放至区间[-1,1]时，Max-ABS缩放与Min-Max缩放的效果是否相同。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

四、填空题

1. 在使用GBDT模型进行变量选择时，使用训练集数据train的全部变量建立了模型m，现需要提取重要程度最大的9个变量： fi = pd.Series(m. feature_importances_,index=train_x.columns) var_tree = fi. (ascending=False).head(9).index

A. sort_values

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 将数据集data中的所有变量缩放到区间[0,5]，结果保存在data_scale中： new_scaler = MinMaxScaler (feature_range=(0,5)) data_scaler = .fit_transform(data)

A. new_scaler

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。渝粤教育

3. 对序列B进行中心化，结果保存在centralize_b中： centralize_b = (B, with_std=False)

A. scale国开一网一平台

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

4. 请将定性变量序列s其转换为哑变量，每个哑变量的变量名均以字母d开头，缺失值也作为一个类别，并将结果存储于数据框df中： df = pd.get_dummies(s, prefix="d", =True)

A. dummy_na

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

5. 截取保存了地址的变量addr的前三个字，并查看其唯一值情况： addr. (0, 3).unique()

A. str.slice

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

6. 计算序列y与数据集X中每一个变量的Pearson相关系数，并将结果依次存储在序列p中： for i in X: = pearsonr (y, X[i])[0]

A. p[i]

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

7. 使用客观法离散化data，设定了参数为bins = [0, 10000, 100000, 200000, np.inf]，标签为["new", "used", "old", "worn"]，结果保存在result中： result=pd.cut(data, ,labels=["new", "used", "old", "worn"],include_lowest=True)

A. bins=[0,10000,100000,200000,np.inf]

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

8. 对boston数据集中的变量LSTAT进行处理，随机选择10个值将其赋值为缺失值： sample = random.sample(range(boston.shape[0]), 10) boston.loc[sample, " "] = np.nan

A. LSTAT

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

9. 对数据data计算标准差，结果保存在result中： result=data. ()国开一网一平台

A. std

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

10. 在序列d1中以字符串形式存储这日期数据，其格式类似于："2022/08/28"，将d1中的所有日期转换为日期时间型数据并存储于d2中。现需要从d2中提取秒信息。 d2 = pd.to_datetime(d1, format="%Y/%m/%d") second = d2.

A. dt. second

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

五、综合题

1. 已知变量x为数值型变量，请写出下方代码的功能： x_mean = x.mean() x_std = x.std() x_s = (x - x_mean)/x_std x_outlier = 0 * x_s x_outlier[x_s.gt(5)] = 1 x_outlier[x_s.lt(-5)] = -1

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 已知变量x为分类变量，请写出下方代码的功能 x_count = x.value_counts() print(x_count)

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

关注公众号【国开搜题】，回复【试题】获取试题答案

【国开搜题】国家开放大学 一网一平台20230506大数据预处理试卷05期末考试押题试卷与答案

来源：百年教育职业培训中心 更新时间：2024-04-20 18:04:50

【国开搜题】国家开放大学一网一平台20230506大数据预处理试卷05期末考试押题试卷与答案

来源：百年教育职业培训中心　更新时间：2024-04-20 18:04:50