20230506大数据预处理试卷-08
20230506大数据预处理试卷-08
关注公众号【飞鸟搜题】,回复【试题】获取试卷答案
文档说明:本人针对该科精心汇总了历年题库及答案,形成一个完整的题库,并且每年都在更新。该题库对考生的复习、作业和考试起着非常重要的作用,会给您节省大量的时间。做考题时,利用本文档中的查找工具,把考题中的关键字输到查找工具的查找内容框内,就可迅速查找到该题答案。本文库还有期末考核试题、其他网核及教学考一体化、一网一平台复习试题与答案,敬请查看。
课程题目试题是随机的,请按题目关键词查找(或按Ctrl+F输入题目中的关键词,尽量不要输入整个题目,不要复制空格,连续的几个字就行)
本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究
本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究
本文由【飞鸟搜题】微信公众号提供,禁止复制盗取,违者必究
一 、单选题
1. 下列选项中,属于将连续型变量离散化为定性变量具有的作用的是()。
提高数据的准确性。
填补数据中的缺失值。
消除数据中的异常值。
使变量包含的信息更接近知识层面的表达从而让人更容易理解。
答案:D- 关注公众号【飞鸟搜题】查看答案
2. 下列关于缺失值的形式的说法中,正确的是()。
Python中默认的缺失值形式为NA
Pandas中默认的缺失值形式为NaN
Python中默认的缺失值形式为Null
Pandas中默认的缺失值形式为空字符串("")
答案:B- 关注公众号【飞鸟搜题】查看答案
3. 关于哑变量与one-hot码,下列说法正确的是()。
任何一个k个类别的定性变量都可以转换为k−1个哑变量
任何一个k个类别的定性变量都可以转换为k−1个比特的one-hot码。
哑变量与one-hot码是完全相同的概念。
哑变量既有两个类别形式的,又有多个类别形式的。
答案:A- 关注公众号【飞鸟搜题】查看答案
4. Max-ABS缩放公式为()。
Xscaled=X−X-S。
Xscaled=X−X-。
Xscaled=XXmax。
Xscaled=X−MedianIQR。
答案:C- 关注公众号【飞鸟搜题】查看答案
5. 下列关于数据归约的表述中正确的是()。
过多的数据会导致模型训练效率低下。
初学者需要通过数据归约简化数据,专业数据分析师则不需要。
进行数据归约时,数据集的信息不会有任何损失。
随着样本量增加,数据信息含量会同比例增加。
答案:关注公众号【飞鸟搜题】查看答案
6. 下列哪个方法不能用于异常值处理()。
直接删除
标记
截断
替换为任意值
答案:关注公众号【飞鸟搜题】查看答案
7. 下列关于数据预处理的表述中,不正确的是()。
具备专业经验的数据科学家可以在数据分析前忽略数据预处理。
数据预处理是在数据采集后,分析前这段时间里对数据进行的处理操作。
数据预处理的效果与数据分析顺利与否直接相关。
数据预处理往往占据数据分析项目总工作量的60%以上。
答案:关注公众号【飞鸟搜题】查看答案
8. 下列关于数据标准化的表述中,不正确的是()。
标准化后,正负号代表了原始值是大于(+)还是小于(-)均值。
标准化后,可以避免数据尺度差异对后续建模造成负面影响。
标准化后,数据的标准差并没有变化,只有均值发生变化。
标准化后,通过新值可以发现原始数据中的异常值。
答案:关注公众号【飞鸟搜题】查看答案
9. 下列表述中正确的是()。
低频分类数据全部是真实的分类结果确实存在低频类别导致的。
绘制分类变量的各类别频数分布的箱线图可以发现数据是否为低频分类数据。
低频类别不会影响建模的效率,在数据预处理阶段不需要处理。
低频分类数据全部是采集数据时格式不规范或错误所导致的。
答案:关注公众号【飞鸟搜题】查看答案
10. 下列关于数据错误的表述中,不正确的是()。
不是所有的数据错误都可以被发现并予以纠正。
数据自身的逻辑规律可以帮助我们发现一些数据错误。
类别名称不统一会造成数据错误。
文字表述不规范不会造成数据错误。
答案:关注公众号【飞鸟搜题】查看答案
二 、判断题
1. 异常值也可以称为离群值。()?
√
×
答案:关注公众号【飞鸟搜题】查看答案
2. Max-ABS缩放只可以将变量缩放至区间[0,1]。()?
√
×
答案:关注公众号【飞鸟搜题】查看答案
3. Pearson相关系数为小于0时,两个变量正相关。()?
√
×
答案:关注公众号【飞鸟搜题】查看答案
4. 顺序型变量可以转变成得分变量()?
√
×
答案:关注公众号【飞鸟搜题】查看答案
5. 日期时间型数据不能进行任何计算。()?
√
×
答案:关注公众号【飞鸟搜题】查看答案
6. 完全随机缺失类型是指数据的缺失不受任何内部和外部因素的影响。()?
√
×
答案:关注公众号【飞鸟搜题】查看答案
7. “分箱”是主观法数据离散化的方法。()?
√
×
答案:关注公众号【飞鸟搜题】查看答案
8. 逻辑纠错中比较简单的方式是将不合理的值替换为缺失值,这样既保持了变量的性质不变,又避免了错误数据的危害。()?
√
×
答案:关注公众号【飞鸟搜题】查看答案
9. 模型预测准确度总是随着样本数量的增加而同步增加。()?
√
×
答案:关注公众号【飞鸟搜题】查看答案
10. 经过标准化处理后,新值体现的是原值在序列中的相对位置。()?
√
×
答案:关注公众号【飞鸟搜题】查看答案
三 、问答题
1. 简述大数据预处理的主要内容。
答案:关注公众号【飞鸟搜题】查看答案
2. 请简述样本归约的思想。
答案:关注公众号【飞鸟搜题】查看答案
四 、填空题
1. 在使用GBDT模型进行变量选择时,使用训练集数据train的全部变量建立了模型m,现需要提取重要程度最大的9个变量: fi = pd.Series(m. feature_importances_,index=train_x.columns) var_tree = fi. sort_values (ascending=False).head(9).
index
答案:关注公众号【飞鸟搜题】查看答案
2. 将数据集data中的所有变量缩放到区间[0,10],结果保存在data1中: scaler = MinMaxScaler(feature_range =(0,10)) data1 = scaler. (data)
fit_transform
答案:关注公众号【飞鸟搜题】查看答案
3. 对序列B进行中心化,结果保存在centralize_b中: scaler = StandardScaler( =False) centralize_b = scaler.fit_transform(B)
with_std
答案:关注公众号【飞鸟搜题】查看答案
4. 请将定性变量序列s其转换为哑变量,每个哑变量的变量名均以字母d开头,缺失值也作为一个类别,并将结果存储于数据框df中: df = pd.get_dummies(s, prefix="d", dummy_na= )
True
答案:关注公众号【飞鸟搜题】查看答案
5. 使用boston数据集实现线性回归模型填补。首先初始化一个线性回归模型,模型的训练集为train,将含有缺失值的变量LSTAT作为目标变量,其余变量作为自变量拟合模型: train = boston.dropna(subset=["LSTAT"]) reg = LinearRegression() reg. (X=train.drop ("LSTAT",axis=1 ), y=train["LSTAT"])
fit
答案:关注公众号【飞鸟搜题】查看答案
6. 计算变量y与x的Pearson相关系数: Pearson_xy = (y, x)
pearsonr
答案:关注公众号【飞鸟搜题】查看答案
7. 对数据序列d1采用等宽分箱,分组数为7组,结果保存在d2中: d2 = pd. (d1, bins=7)
cut
答案:关注公众号【飞鸟搜题】查看答案
8. 将数据集data中变量v1的缺失值使用其均值进行填补,将填补完的变量保存在v1_fill中: v1_fill = data["v1"]. (data["v1"].mean())
fillna
答案:关注公众号【飞鸟搜题】查看答案
9. car_data数据集中变量make的每一个类别的频数存储在make_count中,现在将car_data数据集中的变量make的频数低于100的类别合并为一类: car_data["make1"] = car_data["make"].map( lambda x:"category_under100" if else x, na_action="ignore")
make_count[x]<100
答案:关注公众号【飞鸟搜题】查看答案
10. 在序列d1中以字符串形式存储这日期数据,其格式类似于:"2022/08/28",将d1中的所有日期转换为日期时间型数据并存储于d2中。现需要从d2中提取分钟信息。 d2 = pd.to_datetime(d1, format="%Y/%m/%d") minute = d2.
dt. minute
答案:关注公众号【飞鸟搜题】查看答案
五 、综合题
1. 请写出下方代码的功能 dt = pd.Series("") dt[0] = "2020/12/20" dt[1] = "2020/12/21" dt = pd.to_datetime(dt, format = "%Y/%m/%d")
答案:关注公众号【飞鸟搜题】查看答案
2. 已知变量x为数值型变量,请写出下方代码的功能,并说明操作结果1和操作结果2输出的内容。 x_bin = x.eq(0).astype(int) d1 = {"X":x, "bin":x_bin} p1 = pd.DataFrame(data = d1) print(“操作结果1: %s”%p1) print(“操作结果2: %s”%x_bin.value_counts())
答案:关注公众号【飞鸟搜题】查看答案
关注公众号【飞鸟搜题】,回复【试题】获取试卷答案
微信扫码添加好友
如二维码无法识别,可拨打 13662661040 咨询。