百年教育职业培训中心 百年教育学习服务平台
国开搜题

2024秋最新国家开放大学国开电大机考期末3大数据预处理试卷机考期末试卷参考试题

来源: 更新时间:

20230506大数据预处理试卷-02关注公众号【飞鸟搜题】,回复【试题】获取试卷答案文档说明:本人针对该科精心汇总了历年题库及答案,形成一个完整的题库,并且每年都在更新。该题库对考生的复习、作业和考

20230506大数据预处理试卷-02

关注公众号【飞鸟搜题】,回复【试题】获取试卷答案

文档说明:本人针对该科精心汇总了历年题库及答案,形成一个完整的题库,并且每年都在更新。该题库对考生的复习、作业和考试起着非常重要的作用,会给您节省大量的时间。做考题时,利用本文档中的查找工具,把考题中的关键字输到查找工具的查找内容框内,就可迅速查找到该题答案。本文库还有期末考核试题、其他网核及教学考一体化、一网一平台复习试题与答案,敬请查看。

课程题目试题是随机的,请按题目关键词查找(或按Ctrl+F输入题目中的关键词,尽量不要输入整个题目,不要复制空格,连续的几个字就行)

本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究

本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究

本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究


一 、单选题

1. 下列表述中,正确的是()。

A. 将连续型变量离散化为定性变量,其数据信息含量会增加。

B. 等频法属于有监督离散化方法。

C. 数据离散化是指把无限空间中有限的个体映射到有限的空间中,以此提高算法的时空效率。

D. 数据离散化是指将连续型变量的部分取值映射到根据客观或主观依据事先确定好的一系列分组或分类中,从而得到另一个连续型变量的数据预处理方法。

答案:C
- 关注公众号【飞鸟搜题】查看答案

2. 下列关于数据缺失的表述中,正确的是()。

A. 缺失值处理的主要手段就是使用最接近的值进行填补。

B. 只要数据录入人员避免漏录,数据就不会缺失。

C. 在预处理阶段,遇到数据缺失情况可以忽略,不做处理。

D. 某个变量的值为0,说明产生了数据缺失。

答案:A
- 关注公众号【飞鸟搜题】查看答案

3. 下列选项中与哑变量具有不同含义是()。

A. 二分类变量

B. 连续型变量

C. 虚拟变量

D. 0-1型变量

答案:B
- 关注公众号【飞鸟搜题】查看答案

4. 下列数据特征缩放的公式中,正确的是()。

A. 数据中心化公式为:Xscaled=X−X-S。

B. 数据标准化公式为:Xscaled=X−X-S

C. Min-Max缩放公式为:Xscaled=X−X-Xmax。

D. Robust缩放公式为:Xscaled=X−MedianS。

答案:B
- 关注公众号【飞鸟搜题】查看答案

5. 下列关于数据归约的表述中正确的是()。

A. 数据量的增加会导致模型训练效率提升。

B. 初学者需要通过数据归约简化数据,专业数据分析师则不需要。

C. 进行数据归约时,需要保证数据集的信息不过多损失。

D. 随着样本量增加,数据信息含量会同比例增加。

答案:关注公众号【飞鸟搜题】查看答案

6. 下列关于异常值处理的表述中,不正确的是()。

A. 异常值可能是准确的数据

B. 由于录入数据时的错误所造成的的异常值,可以删除

C. 删除异常值将改变数据集的样本量

D. 截断方法改变了样本容量

答案:关注公众号【飞鸟搜题】查看答案

7. 数据分析项目的基本工作流程是()。

A. 数据预处理->数据获取(采集)->数据分析(建模)->数据分析结果的展示和应用。

B. 数据获取(采集)->数据分析(建模)->数据预处理->数据分析结果的展示和应用。

C. 数据获取(采集)->数据预处理->数据分析(建模)->数据分析结果的展示和应用。

D. 数据获取(采集)->数据预处理->数据分析结果的展示和应用 ->数据分析(建模)。

答案:关注公众号【飞鸟搜题】查看答案

8. 下列关于变量的数据特征的表述中,不正确的是()。

A. Robust缩放方法的理念是“首先中心化,然后除以尺度”。

B. Robust缩放方法用到的指标易受极端值影响。

C. Robust缩放方法用中位数代替了标准化方法里的均值指标。

D. Robust缩放方法用四分位差(IQR)代替了标准化方法里的标准差指标。

答案:关注公众号【飞鸟搜题】查看答案

9. 下列表述中正确的是()。

A. 低频分类数据都是真实的分类结果确实存在低频类别导致的。

B. 处理低频分类数据的唯一方法是将这些数据删除。

C. 过多的低频类别会严重影响建模的效率,在数据预处理阶段需要尽量进行处理。

D. 低频分类数据全部是采集数据时格式不规范或错误所导致的。

答案:关注公众号【飞鸟搜题】查看答案

10. 关于计算机系统中的日期时间型数据,下列说法不正确的是()。

A. 日期时间型数据是以数值形式存储的。

B. 日期时间型数据以“1970年1月1日0时0分0秒”这个时间点为0。

C. 日期时间型数据是以缺失值形式存储的。

D. 在Python中,datetime模块可支持日期和时间的数学运算。

答案:关注公众号【飞鸟搜题】查看答案

二 、判断题

1. 利用箱线图可以识别出异常值。()?

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

2. Max-ABS缩放只可以将变量缩放至区间[0,1]。()?

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

3. Pearson相关系数为小于0时,两个变量正相关。()?

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

4. 哑变量与one-hot码完全相同。()?

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

5. 在计算机系统中,日期时间型数据是以文本形式存储的。()?

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

6. 数据缺失使得数据集信息含量降低,还会使一些模型无法应用。()?

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

7. “分箱”是客观法数据离散化的方法。()?

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

8. 数据错误是指数据集中的数据与其真值不一致的情况。()?

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

9. 使用GBDT算法可以进行变量选择。()?

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

10. 具有不同的数据特征的变量不能直接纳入到同一个分析体系中。()?

A.

B. ×

答案:关注公众号【飞鸟搜题】查看答案

三 、问答题

1. 请简述大数据预处理的目标。

答案:关注公众号【飞鸟搜题】查看答案

2. 简述低频分类数据的特点、形成原因及影响。

答案:关注公众号【飞鸟搜题】查看答案

四 、填空题

1. 使用Lasso算法进行变量选择: Lasso_model = Lasso(alpha=0.03, random_state=0) lasso_model. fit (train_x, train_y) coef = pd.Series(lasso_model.coef_ ,index=train_x.columns) var_lasso = coef[coef. ].index

A. ne(0)

答案:关注公众号【飞鸟搜题】查看答案

2. 对数据集data中的所有变量进行Robust缩放,结果保存在data_scale中: rob_scaler = () data_scale = rob_scaler.fit_transform (data)

A. RobustScaler

答案:关注公众号【飞鸟搜题】查看答案

3. 对序列B进行中心化,结果保存在centralize_b中: scaler = StandardScaler( =False) centralize_b = scaler.fit_transform(B)

A. with_std

答案:关注公众号【飞鸟搜题】查看答案

4. 请将定性变量序列s其转换为哑变量,每个哑变量的变量名均以字母d开头,并将结果存储于数据框df中: df = pd. (s, prefix="d")

A. get_dummies

答案:关注公众号【飞鸟搜题】查看答案

5. 使用boston数据集实现GBDT模型填补。首先初始化一个GBDT模型,模型的训练集为train,将含有缺失值的变量LSTAT作为目标变量,其余变量作为自变量拟合模型: train = boston.dropna(subset=["LSTAT"]) GBDT = GradientBoostingRegressor() GBDT.fit(X=train. ("LSTAT",axis=1 ), y=train["LSTAT"])

A. drop

答案:关注公众号【飞鸟搜题】查看答案

6. 已知某数据集中,目标变量与其他所有变量的Pearson相关系数存储在序列p中,现需要查找相关系数的绝对值大于0.5的变量: var_cor = > 0.5 var_cor = var_cor[var_cor].index

A. p.abs()

答案:关注公众号【飞鸟搜题】查看答案

7. 将data离散化为0-1型变量,结果保存在result中: result=data. (0).astype(int)

A. eq

答案:关注公众号【飞鸟搜题】查看答案

8. 对boston数据集中的变量LSTAT进行处理,随机选择10个值将其赋值为缺失值: sample = random.sample(range(boston.shape[0]), 10) boston.loc[sample, " "] = np.nan

A. LSTAT

答案:关注公众号【飞鸟搜题】查看答案

9. 计算car_data数据集中的make变量每一个类别的频数,将计算结果存储在make_count中: make_count = car_data["make"].

A. value_counts()

答案:关注公众号【飞鸟搜题】查看答案

10. 在序列d1中以字符串形式存储这日期数据,其格式类似于:"2022/08/28",将d1中的所有日期转换为日期时间型数据并存储于d2中。现需要从d2中提取秒信息。 d2 = pd.to_datetime(d1, format="%Y/%m/%d") second = d2.

A. dt. second

答案:关注公众号【飞鸟搜题】查看答案

五 、综合题

1. 请写出下方代码的功能 data = pd.read_csv(r"d:data.csv",header=0) x1_fill = data["x1"].fillna(data["x1"].mean())

答案:关注公众号【飞鸟搜题】查看答案

2. 请写出下方代码的功能 scaler = StandardScaler() new_data = scaler.fit_transform(mydata) print(pd.DataFrame({"Scale":scaler.scale_,"Mean":scaler.mean_}, index= mydata.columns))

答案:关注公众号【飞鸟搜题】查看答案

关注公众号【飞鸟搜题】,回复【试题】获取试卷答案

电话咨询