题库试卷

【国开搜题】国家开放大学一网一平台20230506大数据预处理试卷06期末考试押题试卷与答案

来源：百年教育职业培训中心　更新时间：2024-04-20 18:05:50

20230506大数据预处理试卷-06关注公众号【国开搜题】，回复【试题】获取试题答案渝粤搜题国开一网一平台一、单选题1.下列关于分箱法的表述中，不正确的是（）。A.使用客观法进行数据离散化是计算机科

20230506大数据预处理试卷-06

关注公众号【国开搜题】，回复【试题】获取试题答案

渝粤搜题国开一网一平台

一、单选题

1. 下列关于分箱法的表述中，不正确的是（）。

A. 使用客观法进行数据离散化是计算机科学领域通常的做法，通常用名词“分箱”称呼这种方法。

B. 分箱法主要有等宽法（等宽分箱）和等频法（等频分箱）两种形式。

C. 等宽分箱法一般被称作“分类”。

D. 在统计分析领域，客观法和主观法中都会用到分箱法。

答案：C
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 下列表述中，正确的是（）。

A. 含有缺失值的变量必须被剔除

B. 数据缺失的原因是该数据不存在。

C. 数据缺失会造成模型解释能力下降。

D. 非随机缺失类型是指数据的缺失仅仅依赖于其它变量。

答案：C
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。渝粤搜题

3. 下列关于哑变量的说法中，不正确的是（）。

A. 任何一个k个类别的定性变量都可以转换为k-1个哑变量

B. 哑变量只有两个类别，用0和1表示。

C. 哑变量的0-1形态与逻辑型数据的False和True相同，0表示True，1表示False。

D. 哑变量属于定性变量。

答案：C
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

4. 数据中心化公式为（）。

A. Xscaled=X−X-S。

B. Xscaled=X−X-。

C. Xscaled=XXmax。国开一网一平台

D. Xscaled=X−MedianIQR。

答案：B
- 关注公众号【国开搜题】，对话框内发送试题，获得答案。

5. 下列关于数据归约的表述中，不正确的是（）。

A. 过多的数据会导致模型训练效率低下。

B. 在进行数据分析前可以通过数据归约简化数据。

C. 为了简化数据，可以允许损失较多的信息。

D. 在样本量增加到一定程度后，信息含量趋近于不变。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

6. 在大多数箱线图绘图工具中，定义上限值位置和下限值位置分别为（）。

A. 上限值：Q1+1.5×IQR ，下限值：Q3−1.5×IQR

B. 上限值：Q1−1.5×IQR ，下限值：Q3+1.5×IQR国开搜题

C. 上限值：Q3−1.5×IQR ，下限值：Q1+1.5×IQR

D. 上限值：Q3+1.5×IQR ，下限值：Q1−1.5×IQR

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

7. 数据分析项目的基本工作流程是（）。

A. 数据预处理->数据获取(采集)->数据分析(建模)->数据分析结果的展示和应用。

B. 数据获取(采集)->数据分析(建模)->数据预处理->数据分析结果的展示和应用。

C. 数据获取(采集)->数据预处理->数据分析(建模)->数据分析结果的展示和应用。

D. 数据获取(采集)->数据预处理->数据分析结果的展示和应用 ->数据分析(建模)。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

8. 下列关于数据中心化的表述中，不正确的是（）。

A. 中心化后，平均值等于0。

B. 中心化后，标准差没有发生改变。

C. 中心化后，极差变大。

D. 中心化后，分布形状没有发生改变。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

9. 下图是某分类变量各类别计数分布的箱线图，从图中可知（）。渝粤题库

A. 变量中存在大量计数很低的类别。国开搜题

B. 该变量类别很少，可以清晰的用箱线图展示各类别的频数。

C. 这个变量不存在低频分类现象。

D. 绝大多数分类计数很高。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

10. 关于计算机系统中的日期时间型数据，下列说法不正确的是（）。

A. 日期时间型数据是以数值形式存储的。

B. 日期时间型数据以“1970年1月1日0时0分0秒”这个时间点为0。

C. 日期时间型数据是以缺失值形式存储的。

D. 在Python中，datetime模块可支持日期和时间的数学运算。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

二、判断题

1. 一旦发现异常值，就应当将其删除。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 经过Max-ABS缩放后，数据的正负可能会发生改变。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

3. Spearman相关系数的值在[0,1]之间分布。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

4. 顺序型变量可以转变成得分变量（）？

A. √国开一网一平台渝粤题库，我们的目标是要做全覆盖、全正确的答案搜索服务。

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

5. 在计算机系统中，日期时间型数据是以文本形式存储的。（）？

A. √

B. ×渝粤教育

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

6. 数据缺失使得数据集信息含量降低，还会使一些模型无法应用。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

7. 在数据离散化中，使用客观法得到的是分类或顺序形式的定性变量，依据的是研究者基于研究目的所确定的类别。（）？

A. √

B. ×渝粤搜题

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

8. 数据错误是指数据集中的数据与其真值不一致的情况。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

9. 变量选择的目的是减少数据集的列。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

10. 某变量的数据标准化结果以0为中心对称分布。（）？

A. √

B. ×

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

三、问答题

1. 简述哑变量的概念与特征。

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 请简述维度归约的思路。渝粤教育

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

四、填空题

1. 使用test_x数据集计算只包含部分变量var_new的新模型model_new的AUC值： auc = (y_true=test_y, y_score=model_new.predict_proba (test_x[var_new])[:,1])

A. roc_auc_score

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 将数据集data中的变量y缩放到区间[0,10]，结果保存在y1中： scaler = MinMaxScaler(feature_range =(0,10)) y1 = scaler.fit_transform( )

A. data[["y"]]

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

3. 对序列B进行中心化，结果保存在centralize_b中： centralize_b = (B, with_std=False)

A. scale

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

4. 请将定性变量序列s其转换为哑变量，每个哑变量的变量名均以字母d开头，缺失值也作为一个类别，并将结果存储于数据框df中： df = pd.get_dummies(s, prefix="d", =True)

A. dummy_na

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

5. 使用boston数据集实现GBDT模型填补。首先初始化一个GBDT模型，模型的训练集为train，将含有缺失值的变量LSTAT作为目标变量，其余变量作为自变量拟合模型： train = boston.dropna(subset=["LSTAT"]) GBDT = GBDT.fit(X=train.drop("LSTAT",axis=1 ), y=train["LSTAT"])

A. GradientBoostingRegressor()

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

6. 计算序列y与数据集X中每一个变量的Spearman相关系数，并将结果依次存储在序列p中： for i in X: p[i] = (y, X[i])[0]渝粤教育

A. spearmanr

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

7. 对data数据采用等宽分箱，分组数为5组，结果保存在result中： result = pd.cut(data, =5)

A. bins

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。渝粤题库

8. 将数据集data中变量v1的缺失值使用其均值进行填补，将填补完的变量保存在v1_fill中： v1_fill = data["v1"].fillna(data["v1"]. )

A. mean()

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

9. 对数据data计算标准分数，data_mean是data的平均值，data_std是data的标准差，结果保存在result中： result=(data- )/ data_std

A. data_mean

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

10. 在序列d1中以字符串形式存储这日期数据，其格式类似于："2022/08/28"，将d1中的所有日期转换为日期时间型数据并存储于d2中。现需要从d2中提取月份信息。 d2 = pd.to_datetime(d1, format="%Y/%m/%d") month = d2.

A. dt. month

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

五、综合题

1. 请写出下方代码的功能 data = pd.read_csv(r"d:data.csv",header=0) x1_fill = data["x1"].fillna(data["x1"].mean())

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

2. 请写出下方代码的功能 minmax_scaler = MinMaxScaler(feature_range=(0,10)) data_s = minmax_scaler.fit_transform(data)国开搜题

答案：关注公众号【国开搜题】，对话框内发送试题，获得答案。

关注公众号【国开搜题】，回复【试题】获取试题答案

【国开搜题】国家开放大学 一网一平台20230506大数据预处理试卷06期末考试押题试卷与答案

来源：百年教育职业培训中心 更新时间：2024-04-20 18:05:50

【国开搜题】国家开放大学一网一平台20230506大数据预处理试卷06期末考试押题试卷与答案

来源：百年教育职业培训中心　更新时间：2024-04-20 18:05:50