百年教育职业培训中心 百年教育学习服务平台
题库试卷

【国开搜题】国家开放大学 一网一平台20230506大数据预处理试卷04期末考试押题试卷与答案

来源: 更新时间:

20230506大数据预处理试卷-04关注公众号【国开搜题】,回复【试题】获取试题答案一、单选题渝粤题库1.下列对定性变量的描述中,不正确的是()。A.顺序型变量可以转变为哑变量。B.连续型数据很难转

20230506大数据预处理试卷-04

关注公众号【国开搜题】,回复【试题】获取试题答案

、单选题渝粤题库

1. 下列对定性变量的描述中,不正确的是()。

A. 顺序型变量可以转变为哑变量。

B. 连续型数据很难转变为定性数据。渝粤搜题

C. 多分类定性变量可以转变为哑变量。

D. 顺序型变量可以转变成得分变量。渝粤题库,我们的目标是要做全覆盖、全正确的答案搜索服务。

答案:B
- 关注公众号【国开搜题】,对话框内发送试题,获得答案。

2. 下列表述中,正确的是()。

A. 含有缺失值的变量必须被剔除

B. 数据缺失的原因是该数据不存在。

C. 数据缺失会造成模型解释能力下降。国开搜题

D. 非随机缺失类型是指数据的缺失仅仅依赖于其它变量。

答案:C
- 关注公众号【国开搜题】,对话框内发送试题,获得答案。

3. 关于哑变量与one-hot码,下列说法正确的是()。渝粤搜题

A. 任何一个k个类别的定性变量都可以转换为k−1个哑变量

B. 任何一个k个类别的定性变量都可以转换为k−1个比特的one-hot码。

C. 哑变量与one-hot码是完全相同的概念。

D. 哑变量既有两个类别形式的,又有多个类别形式的。

答案:A
- 关注公众号【国开搜题】,对话框内发送试题,获得答案。

4. Robust缩放公式为()。

A. Xscaled=X−X-S

B. Xscaled=X−X-

C. Xscaled=XXmax

D. Xscaled=X−MedianIQR

答案:D
- 关注公众号【国开搜题】,对话框内发送试题,获得答案。

5. 下列关于数据归约的表述中,不正确的是()。

A. 过多的数据会导致模型训练效率低下。

B. 初学者需要通过数据归约简化数据,专业数据分析师则不需要。

C. 进行数据归约时,需要保证数据集的信息不过多损失。

D. 在样本量增加到一定程度后,信息含量趋近于不变。

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

6. 下列关于异常值处理的表述中,不正确的是()。

A. 异常值可能是准确的数据

B. 由于录入数据时的错误所造成的的异常值,可以删除

C. 删除异常值不会改变数据集的样本量

D. 截断方法没改变样本容量渝粤题库

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

7. 下列哪个选项不是大数据预处理的主要内容()。

A. 完善数据渝粤题库

B. 简化数据

C. 建模分析

D. 提高数据信息含量

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

8. 下列关于Robust缩放方法的表述中,不正确的是()。

A. Robust缩放方法的理念是首先中心化,然后除以尺度

B. Robust缩放方法用到的指标不易受极端值影响。

C. Robust缩放方法用中位数代替了标准化方法里的均值指标。

D. Robust缩放方法用方差代替了标准化方法里的标准差指标。

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

9. 下图是某分类变量各类别计数分布的箱线图,从图中可知()。

A. 少部分分类计数很低。

B. 该变量类别数量非常多。

C. 这个变量不存在低频分类现象。

D. 绝大多数分类计数很高。

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。渝粤题库

10. 关于日期时间型数据,下列说法正确的是()。

A. 在计算机系统中,日期时间型数据是以文本形式存储的。

B. 在计算机系统中,日期时间型数据是以数值形式存储的。

C. 在计算机系统中,日期时间型数据是以因子形式存储的。

D. 在计算机系统中,日期时间型数据是以缺失值形式存储的。

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

、判断题

1. 异常值必定是由于数据获取过程中出现错误造成的。()?

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

2. 经过Max-ABS缩放后,数据的正负不会发生改变。()?

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

3. Pearson相关系数为大于0时,两个变量正相关。()?

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

4. 哑变量与one-hot码完全相同。()?

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

5. 在数据预处理时,数据集里面变量的数量不能发生变化。()?

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

6. 在数据存储过程中,由于设备故障造成存储失败而导致的数据缺失,属于主观条件原因。()?

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

7. “分箱是主观法数据离散化的方法。()?

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

8. 数据错误是指数据集中的数据与其真值不一致的情况。()?

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

9. 在进行变量选择时需要遵循的原则是,剔除的变量必须对数据分析影响较大。()?

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

10. 数据标准化是数据中心化的第一个步骤。()?

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

、问答题

1. 请简述异常值的含义。

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。渝粤教育

2. 请简述数据归约的意义。

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

、填空题

1. 在使用GBDT模型进行变量选择时,使用训练集数据train的全部变量建立了模型m,现需要提取重要程度最大的9个变量: fi = pd.Series(m. feature_importances_,index=train_x.columns) var_tree = fi. sort_values (ascending=False).head(9).国开搜题

A. index

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

2. 将数据集data中的变量y缩放到区间[0,10],结果保存在y1中: scaler = MinMaxScaler(feature_range =(0,10)) y1 = scaler.fit_transform( )

A. data[["y"]]

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

3. 对序列B进行Min-Max缩放,缩放至区间[0,1],结果保存在B1中: B1 = (B)

A. minmax_scale

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

4. 请将定性变量序列s其转换为哑变量,每个哑变量的变量名均以字母d开头,并将结果存储于数据框df中: df = pd.get_dummies(s, prefix= )国开一网一平台

A. "d"

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

5. 使用boston数据集实现线性回归模型填补。首先初始化一个线性回归模型,模型的训练集为train,将含有缺失值的变量LSTAT作为目标变量,其余变量作为自变量拟合模型: train = boston.dropna(subset=["LSTAT"]) = LinearRegression() reg.fit(X=train.drop ("LSTAT",axis=1 ), y=train["LSTAT"])国开一网一平台

A. reg

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。渝粤题库,我们的目标是要做全覆盖、全正确的答案搜索服务。

6. 计算变量yxPearson相关系数: Pearson_xy = (y, x)

A. pearsonr渝粤题库

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

7. 对数据序列d1采用等宽分箱,分组数为7组,结果保存在d2中: d2 = pd. (d1, bins=7)

A. cut

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

8. 将数据集data中变量v1的缺失值使用其众数进行填补,将填补完的变量保存在v1_fill中: v1_fill = data["v1"].fillna(data["v1"]. [0])渝粤题库

A. mode()

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

9. 计算car_data数据集中的make变量每一个类别的频数,将计算结果存储在make_count中: make_count = car_data["make"].

A. value_counts()

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

10. 在序列d1中以字符串形式存储这日期数据,其格式类似于:"2022/08/28",将d1中的所有日期转换为日期时间型数据并存储于d2中。现需要从d2中提取日信息。 d2 = pd.to_datetime(d1, format="%Y/%m/%d") day = d2.

A. dt. day

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

、综合题

1. 请写出下方代码的功能 car_data = pd.read_csv(r"d:cardata.csv",header=0) v1_fill = car_data["v1"].fillna(car_data["v1"].median())

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

2. 已知变量x为数值型变量,请写出下方代码的功能,并说明操作结果1和操作结果2输出的内容。 x_bin = x.eq(0) | x.isna() x_bin = x_bin.astype(int) d1 = {"X":x, "bin":x_bin} p1 = pd.DataFrame(data = d1) print(“操作结果1: %s”%p1) print(“操作结果2: %s”%x_bin.value_counts())

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

关注公众号【国开搜题】,回复【试题】获取试题答案

电话咨询