百年教育职业培训中心 百年教育学习服务平台
题库试卷

【国开搜题】国家开放大学 一网一平台20230506大数据预处理试卷05期末考试押题试卷与答案

来源: 更新时间:

20230506大数据预处理试卷-05关注公众号【国开搜题】,回复【试题】获取试题答案一、单选题渝粤教育1.下列选项中,属于将连续型变量离散化为定性变量具有的作用的是()。A.提高数据的准确性。B.填

20230506大数据预处理试卷-05

关注公众号【国开搜题】,回复【试题】获取试题答案

、单选题渝粤教育

1. 下列选项中,属于将连续型变量离散化为定性变量具有的作用的是()。

A. 提高数据的准确性。

B. 填补数据中的缺失值。

C. 消除数据中的异常值。

D. 使变量包含的信息更接近知识层面的表达从而让人更容易理解。

答案:D
- 关注公众号【国开搜题】,对话框内发送试题,获得答案。渝粤题库,我们的目标是要做全覆盖、全正确的答案搜索服务。

2. Pandas中默认的缺失值形式为()。

A. NA

B. NaN

C. Null

D. ""

答案:B
- 关注公众号【国开搜题】,对话框内发送试题,获得答案。渝粤搜题

3. 关于哑变量与one-hot码,下列说法正确的是()。

A. 哑变量与one-hot码是完全相同的概念。

B. 任何一个k个类别的定性变量都可以转换为k−1个哑变量。

C. 任何一个k个类别的定性变量都可以转换为k−2个哑变量。

D. 任何一个k个类别的定性变量都可以转换为k−1个比特的one-hot码。

答案:B
- 关注公众号【国开搜题】,对话框内发送试题,获得答案。

4. 下列数据特征缩放的公式中,正确的是()。

A. 数据中心化公式为:Xscaled=X−X-S

B. 数据标准化公式为:Xscaled=X−X-

C. Max-ABS缩放公式为:Xscaled=XXmax

D. Robust缩放公式为:Xscaled=X−MedianS

答案:C
- 关注公众号【国开搜题】,对话框内发送试题,获得答案。

5. 下列关于数据归约的表述中正确的是()。

A. 数据量的增加会导致模型训练效率提升。

B. 初学者需要通过数据归约简化数据,专业数据分析师则不需要。

C. 进行数据归约时,数据集的信息不会有任何损失。

D. 在样本量增加到一定程度后,信息含量趋近于不变。

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

6. 在大多数箱线图绘图工具中,定义上限值位置和下限值位置分别为()。渝粤题库

A. 上限值:Q1+1.5×IQR ,下限值:Q3−1.5×IQR

B. 上限值:Q1−1.5×IQR ,下限值:Q3+1.5×IQR

C. 上限值:Q3−1.5×IQR ,下限值:Q1+1.5×IQR

D. 上限值:Q3+1.5×IQR ,下限值:Q1−1.5×IQR

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

7. 下列哪个选项不是大数据预处理的主要内容()。

A. 完善数据

B. 简化数据

C. 提高数据信息含量

D. 降低数据信息含量

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

8. 下列关于变量的数据特征的表述中,不正确的是()。

A. Robust缩放方法的理念是首先中心化,然后除以尺度

B. Robust缩放方法用到的指标不易受极端值影响。

C. Robust缩放方法用标准差代替了标准化方法里的均值指标。

D. Robust缩放方法用四分位差(IQR)代替了标准化方法里的标准差指标。

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。国开一网一平台

9. 下图是某分类变量各类别计数分布的箱线图,从图中可知()。

A. 变量中存在大量计数很低的类别。

B. 该变量类别很少,可以清晰的用箱线图展示各类别的频数。

C. 这个变量不存在低频分类现象。

D. 绝大多数分类计数很高。

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

10. 关于在计算机系统中的日期时间型数据,下列说法正确的是()。

A. 日期时间型数据是以文本形式存储的。

B. 日期时间型数据是以数值形式存储的。

C. 日期时间型数据以“198011000这个时间点为0

D. Python中,datetime模块不支持日期和时间的数学运算。

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

、判断题

1. 异常值是错误的数据。()?

A. 渝粤题库

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

2. 经过Min-Max缩放,数据的正负可能会发生改变。()?

A. 渝粤搜题

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

3. Spearman相关系数为-1时,两个变量不相关。()?

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

4. 哑变量可以有多个类别。()?

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

5. 数据分析项目中,数据预处理环节不重要,可以忽略不做。()?

A.

B. ×渝粤搜题

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

6. 在数据存储过程中,由于设备故障造成存储失败而导致的数据缺失,属于机械原因。()?

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

7. 数据离散化会破坏连续型变量的基本数据含义。()?

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

8. 不是所有的数据错误都可以被发现并纠正的。()?国开搜题

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

9. 在进行变量选择时需要遵循的原则是,剔除的变量必须对数据分析影响较大。()?渝粤搜题

A.

B. ×

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

10. 经过标准化处理后,新值体现的是原值在序列中的相对位置。()?国开搜题

A.

B. ×国开搜题

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

、问答题

1. 简述数据离散化的操作含义。

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

2. 请简述将变量缩放至区间[-1,1]时,Max-ABS缩放与Min-Max缩放的效果是否相同。

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

、填空题

1. 在使用GBDT模型进行变量选择时,使用训练集数据train的全部变量建立了模型m,现需要提取重要程度最大的9个变量: fi = pd.Series(m. feature_importances_,index=train_x.columns) var_tree = fi. (ascending=False).head(9).index

A. sort_values

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

2. 将数据集data中的所有变量缩放到区间[0,5],结果保存在data_scale中: new_scaler = MinMaxScaler (feature_range=(0,5)) data_scaler = .fit_transform(data)

A. new_scaler

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。渝粤教育

3. 对序列B进行中心化,结果保存在centralize_b中: centralize_b = (B, with_std=False)

A. scale国开一网一平台

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

4. 请将定性变量序列s其转换为哑变量,每个哑变量的变量名均以字母d开头,缺失值也作为一个类别,并将结果存储于数据框df中: df = pd.get_dummies(s, prefix="d", =True)

A. dummy_na

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

5. 截取保存了地址的变量addr的前三个字,并查看其唯一值情况: addr. (0, 3).unique()

A. str.slice

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

6. 计算序列y与数据集X中每一个变量的Pearson相关系数,并将结果依次存储在序列p中: for i in X: = pearsonr (y, X[i])[0]

A. p[i]

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

7. 使用客观法离散化data,设定了参数为bins = [0, 10000, 100000, 200000, np.inf],标签为["new", "used", "old", "worn"],结果保存在result中: result=pd.cut(data, ,labels=["new", "used", "old", "worn"],include_lowest=True)

A. bins=[0,10000,100000,200000,np.inf]

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

8. boston数据集中的变量LSTAT进行处理,随机选择10个值将其赋值为缺失值: sample = random.sample(range(boston.shape[0]), 10) boston.loc[sample, " "] = np.nan

A. LSTAT

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

9. 对数据data计算标准差,结果保存在result中: result=data. ()国开一网一平台

A. std

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

10. 在序列d1中以字符串形式存储这日期数据,其格式类似于:"2022/08/28",将d1中的所有日期转换为日期时间型数据并存储于d2中。现需要从d2中提取秒信息。 d2 = pd.to_datetime(d1, format="%Y/%m/%d") second = d2.

A. dt. second

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

、综合题

1. 已知变量x为数值型变量,请写出下方代码的功能: x_mean = x.mean() x_std = x.std() x_s = (x - x_mean)/x_std x_outlier = 0 * x_s x_outlier[x_s.gt(5)] = 1 x_outlier[x_s.lt(-5)] = -1

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

2. 已知变量x为分类变量,请写出下方代码的功能 x_count = x.value_counts() print(x_count)

答案:关注公众号【国开搜题】,对话框内发送试题,获得答案。

关注公众号【国开搜题】,回复【试题】获取试题答案

电话咨询