题库试卷

【国开搜题】国家开放大学一网一平台20230506大数据预处理试卷04期末考试押题试卷与答案

来源：百年教育职业培训中心　更新时间：2024-04-20 18:03:50

20230506大数据预处理试卷-04关注公众号【国开搜题】，回复【试题】获取试题答案一、单选题渝粤题库1.下列对定性变量的描述中，不正确的是（）。A.顺序型变量可以转变为哑变量。B.连续型数据很难转

20230506大数据预处理试卷-04

关注公众号【国开搜题】，回复【试题】获取试题答案

一、单选题渝粤题库

1. 下列对定性变量的描述中，不正确的是（）。

A. 顺序型变量可以转变为哑变量。

B. 连续型数据很难转变为定性数据。渝粤搜题

C. 多分类定性变量可以转变为哑变量。

D. 顺序型变量可以转变成得分变量。渝粤题库，我们的目标是要做全覆盖、全正确的答案搜索服务。

答案：B
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 下列表述中，正确的是（）。

A. 含有缺失值的变量必须被剔除

B. 数据缺失的原因是该数据不存在。

C. 数据缺失会造成模型解释能力下降。国开搜题

D. 非随机缺失类型是指数据的缺失仅仅依赖于其它变量。

答案：C
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

3. 关于哑变量与one-hot码，下列说法正确的是（）。渝粤搜题

A. 任何一个k个类别的定性变量都可以转换为k−1个哑变量

B. 任何一个k个类别的定性变量都可以转换为k−1个比特的one-hot码。

C. 哑变量与one-hot码是完全相同的概念。

D. 哑变量既有两个类别形式的，又有多个类别形式的。

答案：A
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

4. Robust缩放公式为（）。

A. Xscaled=X−X-S。

B. Xscaled=X−X-。

C. Xscaled=XXmax。

D. Xscaled=X−MedianIQR。

答案：D
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

5. 下列关于数据归约的表述中，不正确的是（）。

A. 过多的数据会导致模型训练效率低下。

B. 初学者需要通过数据归约简化数据，专业数据分析师则不需要。

C. 进行数据归约时，需要保证数据集的信息不过多损失。

D. 在样本量增加到一定程度后，信息含量趋近于不变。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

6. 下列关于异常值处理的表述中，不正确的是（）。

A. 异常值可能是准确的数据

B. 由于录入数据时的错误所造成的的异常值，可以删除

C. 删除异常值不会改变数据集的样本量

D. 截断方法没改变样本容量渝粤题库

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

7. 下列哪个选项不是大数据预处理的主要内容（）。

A. 完善数据渝粤题库

B. 简化数据

C. 建模分析

D. 提高数据信息含量

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

8. 下列关于Robust缩放方法的表述中，不正确的是（）。

A. Robust缩放方法的理念是“首先中心化，然后除以尺度”。

B. Robust缩放方法用到的指标不易受极端值影响。

C. Robust缩放方法用中位数代替了标准化方法里的均值指标。

D. Robust缩放方法用方差代替了标准化方法里的标准差指标。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

9. 下图是某分类变量各类别计数分布的箱线图，从图中可知（）。

A. 少部分分类计数很低。

B. 该变量类别数量非常多。

C. 这个变量不存在低频分类现象。

D. 绝大多数分类计数很高。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。渝粤题库

10. 关于日期时间型数据，下列说法正确的是（）。

A. 在计算机系统中，日期时间型数据是以文本形式存储的。

B. 在计算机系统中，日期时间型数据是以数值形式存储的。

C. 在计算机系统中，日期时间型数据是以因子形式存储的。

D. 在计算机系统中，日期时间型数据是以缺失值形式存储的。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

二、判断题

1. 异常值必定是由于数据获取过程中出现错误造成的。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 经过Max-ABS缩放后，数据的正负不会发生改变。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

3. Pearson相关系数为大于0时，两个变量正相关。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

4. 哑变量与one-hot码完全相同。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

5. 在数据预处理时，数据集里面变量的数量不能发生变化。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

6. 在数据存储过程中，由于设备故障造成存储失败而导致的数据缺失，属于主观条件原因。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

7. “分箱”是主观法数据离散化的方法。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

8. 数据错误是指数据集中的数据与其真值不一致的情况。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

9. 在进行变量选择时需要遵循的原则是，剔除的变量必须对数据分析影响较大。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

10. 数据标准化是数据中心化的第一个步骤。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

三、问答题

1. 请简述异常值的含义。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。渝粤教育

2. 请简述数据归约的意义。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

四、填空题

1. 在使用GBDT模型进行变量选择时，使用训练集数据train的全部变量建立了模型m，现需要提取重要程度最大的9个变量： fi = pd.Series(m. feature_importances_,index=train_x.columns) var_tree = fi. sort_values (ascending=False).head(9).国开搜题

A. index

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 将数据集data中的变量y缩放到区间[0,10]，结果保存在y1中： scaler = MinMaxScaler(feature_range =(0,10)) y1 = scaler.fit_transform( )

A. data[["y"]]

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

3. 对序列B进行Min-Max缩放，缩放至区间[0,1]，结果保存在B1中： B1 = (B)

A. minmax_scale

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

4. 请将定性变量序列s其转换为哑变量，每个哑变量的变量名均以字母d开头，并将结果存储于数据框df中： df = pd.get_dummies(s, prefix= )国开一网一平台

A. "d"

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

5. 使用boston数据集实现线性回归模型填补。首先初始化一个线性回归模型，模型的训练集为train，将含有缺失值的变量LSTAT作为目标变量，其余变量作为自变量拟合模型： train = boston.dropna(subset=["LSTAT"]) = LinearRegression() reg.fit(X=train.drop ("LSTAT",axis=1 ), y=train["LSTAT"])国开一网一平台

A. reg

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。渝粤题库，我们的目标是要做全覆盖、全正确的答案搜索服务。

6. 计算变量y与x的Pearson相关系数： Pearson_xy = (y, x)

A. pearsonr渝粤题库

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

7. 对数据序列d1采用等宽分箱，分组数为7组，结果保存在d2中： d2 = pd. (d1, bins=7)

A. cut

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

8. 将数据集data中变量v1的缺失值使用其众数进行填补，将填补完的变量保存在v1_fill中： v1_fill = data["v1"].fillna(data["v1"]. [0])渝粤题库

A. mode()

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

9. 计算car_data数据集中的make变量每一个类别的频数，将计算结果存储在make_count中： make_count = car_data["make"].

A. value_counts()

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

10. 在序列d1中以字符串形式存储这日期数据，其格式类似于："2022/08/28"，将d1中的所有日期转换为日期时间型数据并存储于d2中。现需要从d2中提取日信息。 d2 = pd.to_datetime(d1, format="%Y/%m/%d") day = d2.

A. dt. day

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

五、综合题

1. 请写出下方代码的功能 car_data = pd.read_csv(r"d:cardata.csv",header=0) v1_fill = car_data["v1"].fillna(car_data["v1"].median())

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 已知变量x为数值型变量，请写出下方代码的功能，并说明操作结果1和操作结果2输出的内容。 x_bin = x.eq(0) | x.isna() x_bin = x_bin.astype(int) d1 = {"X":x, "bin":x_bin} p1 = pd.DataFrame(data = d1) print(“操作结果1: %s”%p1) print(“操作结果2: %s”%x_bin.value_counts())

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

关注公众号【国开搜题】，回复【试题】获取试题答案

【国开搜题】国家开放大学 一网一平台20230506大数据预处理试卷04期末考试押题试卷与答案

来源：百年教育职业培训中心 更新时间：2024-04-20 18:03:50

【国开搜题】国家开放大学一网一平台20230506大数据预处理试卷04期末考试押题试卷与答案

来源：百年教育职业培训中心　更新时间：2024-04-20 18:03:50