网站建设项目开发_seo公司是做什么的_seo营销外包_网站推广网

一.空题目

二.解答题目

一.空题目

9：已知样本集合为：([3,4],1),([2,5],2),([8,10],3),([7,8],4),([6,9],5)，请计算样本数据部分的均值______

10：当样本数较小时，为什么最小化经验风险会带来过拟合问题？该如何解决？

11：已知某模型对测试样本的输出结果分别为：

(x’1,2)->1

(x’2,1)->2

(x’3,1)->1

(x’4,2)->2

(x’5,1)->2

(x’6,1)->1

请计算错误率______

13：请说出期望风险最小化、经验风险最小化、结构风险最小化的区别。

14：模型测试时，留出法是将样本的数据集随机划分为两部分，一部分组成训练样本，一部分组成测试样本，经过多次测试，取测试结果的平均值作为最终的测试结果。对错

15：模型测试时，K折交叉验证的方法是什么？

20：在进行主成分分析前，需要进行数据的预处理，将数据标准化为均值为0，方差为1的向量，标准化的目的是？

21：主成分分析的主要步骤是什么？

23：请说出确定线性判别分析最佳投影方向的原则。

24：如果样本有两类，在线性判别分析中，类间距离是用什么衡量的？

25：如果样本有两类，在线性判别分析中，类内距离是用什么衡量的？

38：请描述支持向量机中最优数据分界线的选择原则。

39：请写出以下代码的含义：

from sklearn.svm import SVC

svc = SVC(kernel='linear')

clf = svc.fit(trainx,trainy)

testy = clf.predict(testx)

48：K均值聚类中，K值选取的方法有________和_________。

49：请描述K均值聚类方法的步骤。

50：请复习每次直播课程上课讲解的范例代码。

76：在支持向量机中，划分样本集最优的超平面，应是具有的超平面。

77：在主成分分析中，降维后部分特征向量被舍弃了，舍弃后可以使，同时，能够起到的效果。

78：在聚类中，用于计算两个样本之间的距离，通常采用的距离度量方式是欧氏距离。

79：在线性回归算法中，最优回归函数中的参数使得回归函数的输出f(x)与测试样本真实输出值之间的最。

:80：已知训练数据集合（trainx,trainy），测试数据集（testx,testy),SVM算法代码如下

（1）from sklearn.svm import SVC

（2）svc = SVC(kernel='linear')

（3）clf = svc.fit(trainx,trainy)

（4）testny = clf.predict(testx)

SVM模型对测试数据的预测结果存储在变量中。

81：在主成分分析中，为使样本点经过投影后尽可能分开，则应该使投影后的样本点

82：聚类是将样本集划分为若干互不相交的子集，即样本簇，为使聚类结果比较好，应使聚类后高且低。

83：在支持向量机中，最优划分超平面所产生的分类结果是最的，对未见示例的最强。

84：给定数据集，模型采用函数预测测试样本的y值，则该模型属于模型，可采用算法得到该函数。

85：已知训练数据集合（trainx,trainy），测试数据集（testx,testy),SVM算法代码如下

（1）from sklearn.svm import SVC

（2）svc = SVC(kernel='linear')

（3）clf = svc.fit(trainx,trainy)

（4）testny = clf.predict(testx)

代码（3）完成的功能为。

86：假设输入数据存储在x_data中，类别标签存储在y_data中，在线性回归分析代码中，代码如下：

（1）from sklearn.linear_model import LinearRegression

（2）lr = LinearRegression()

（3）lr.fit(x_data, y_data)

（4）y_pred = lr.predict(x_data)

请回答代码（3）（4）的含义。

87：给定两类数据集

编辑，其中m=1000，

编辑，每类有500个样本，请设计10折交叉验证法，用于评估模型的测试误差。

，，，

88：已知某模型对两类问题（0为正例，1为反例）的测试样本输出结果如下表所示：

测试样本	测试样本所属类别	模型输出类别
编辑	0	1
编辑	0	0
编辑	1	0
编辑	1	1
编辑	1	1
编辑	0	1

请计算该模型查准率、查全率及F1，结果保留两位小数。

89：已知数据集的定义为

编辑，表示包含m个样本的数据集，其中每个样本有d个属性，则每个样本

编辑是d维空间中的一个向量，其中

编辑是样本

编辑在第j个属性上的取值，d称为样本

编辑的维数。

90：有500个人脸图像样本’（像素点128*68=8704）构成的人脸图像数据集，所有像素点的值构成图像样本的属性，请根据数据集的定义及右图给出该人脸图像数据集中以下变量的值。

（1）数据集的大小m

（2）样本的维数d

编辑（3）

编辑（下标从0开始）

m=500
D=8704

(3)144

90: 假设数据的协方差矩阵存在data中，采用主成分分析算法对数据进行降维，以下代码的含义是什么？

（1）eigValue, eigVec = np.linalg.eig(data)

（2）eigValInd = np.argsort(-eigValue)

（3）selectVec = eigVec[:, eigValInd[:3]]

给定两类数据集

编辑，其中m=1000，

编辑，每类有500个样本，请设计留出法，用于评估模型的测试误差。

已知某模型对两类问题的测试样本输出结果如下表所示：

请计算该模型的错误率。

测试样本	测试样本所属类别	模型输出类别
编辑	2	1
编辑	1	2
编辑	1	1
编辑	2	2
编辑	1	2
编辑	1	1

二.解答题目

9：已知样本集合为：([3,4],1),([2,5],2),([8,10],3),([7,8],4),([6,9],5)，请计算样本数据部分的均值______________________。[5.2,7.2]。

其中，每个样本点的第一个数字表示第一个特征的值，第二个数字表示第二个特征的值，而后面的数字（1, 2, 3, 4, 5）是样本的标签或类别，在计算均值时不考虑它们。

首先，我们提取所有样本点的第一个特征的值：3,2,8,7,6，
然后计算这些值的均值：
第一个特征的均值=(53+2+8+7+6)/5=526=5.2，

接着，我们提取所有样本点的第二个特征的值：4,5,10,8,9，
然后计算这些值的均值：
第二个特征的均值=(54+5+10+8+9)/5=536=7.2，

因此，样本数据部分的均值为 [5.2,7.2]。

10：当样本数较小时，为什么最小化经验风险会带来过拟合问题？该如何解决？

答案：___________

样本数较小时,经验风险不等于期望风险,最小化经验风险得到的模型其期望风险不一定最最小,同时,最小化经验风险时,在每个训练样本上的训练误差可能为零,得到的模型过于复杂,造成过拟合问题,然而当数据不在训练集合中时,预测误差较大,造成过拟合问题。

解决过拟合问题可以采用正则化的方法,其基本思想是希望模型尽量简单。

11：已知某模型对测试样本的输出结果分别为：

(x’1,2)->1

(x’2,1)->2

(x’3,1)->1

(x’4,2)->2

(x’5,1)->2

(x’6,1)->1

请计算错误率_______50%__

(x1′,2)→1：真实类别是2，模型预测为1。

(x2′,1)→2：真实类别是1，模型预测为2。

(x3′,1)→1：真实类别是1，模型预测为1。

(x4′,2)→2：真实类别是2，模型预测为2。

(x5′,1)→2：真实类别是1，模型预测为2。

(x6′,1)→1：真实类别是1，模型预测为1。

错误预测的样本数：3（即第1、2、5个测试样本的预测是错误的）。

3/6=0.5

13：请说出期望风险最小化、经验风险最小化、结构风险最小化的区别。

答案解析：期望风险最小化是最小化模型在总体上的预测风险，经验风险最小化是最小化模型在训练样本上的预测风险值，结构风险最小化是最小化经验风险与模型结构复杂度的和。

14：模型测试时，留出法是将样本的数据集随机划分为两部分，一部分组成训练样本，一部分组成测试样本，经过多次测试，取测试结果的平均值作为最终的测试结果。

对错

15：模型测试时，K折交叉验证的方法是什么？

答案：将数据集分为K个互不相交的大小相同数据集，用k-1个子集训练，用剩下的1个子集测试，重复K次，选出平均测试误差最小的模型

20：在进行主成分分析前，需要进行数据的预处理，将数据标准化为均值为0，方差为1的向量，标准化的目的是？

答案：标准化的目的是使数据不同的特征能够在同一标准下进行度量。

21：主成分分析的主要步骤是什么？

答案：设有m条n维数据，PCA的一般步骤如下：

1)进行数据预处理（标准化为均值为0，方差为1）

2)将原始数据按列组成n行m列矩阵X

3)计算矩阵X中每个特征属性（n维）的平均向量M（平均值）

4)将X的每行（代表一个属性字段）进行零均值化，即减去M

5)按照公式C=1/m XX^T求出协方差矩阵

6)求出协方差矩阵的特征值及对应的特征向量

7)将特征向量按对应特征值从大到小按行排列成矩阵，取前k（k < n）行组成基向量P

8)通过Y=PX计算降维到k维后的样本特征

23：请说出确定线性判别分析最佳投影方向的原则。

答案：最佳投影方向是最易于分类的方向，即投影后，类内距离最小，类间距离最大

24：如果样本有两类，在线性判别分析中，类间距离是用什么衡量的？

答案：类间距离是两类样本均值的距离

25：如果样本有两类，在线性判别分析中，类内距离是用什么衡量的？

答案：每一类样本到其均值距离的和再求和。

请描述支持向量机中最优数据分界线的选择原则。

答案：最优分界线，要尽可能地远离两类数据点，即数据集的边缘点到分界线的距离d最大。

请写出以下代码的含义：

from sklearn.svm import SVC

svc = SVC(kernel='linear')

clf = svc.fit(trainx,trainy)

testy = clf.predict(testx)

答案解析：

K均值聚类中，K值选取的方法有________和_________。

答案：肘方法和轮廓系数法

请描述K均值聚类方法的步骤。

答案:

1)首先选取k个类簇（k需要用户进行指定）的质心，通常是随机选取。

2）对剩余的每个样本点，计算它们到各个质心的欧式距离，并将其归入到相互间距离最小的质心所在的簇。计算各个新簇的质心。

3）在所有样本点都划分完毕后，根据划分情况重新计算各个簇的质心所在位置，然后迭代计算各个样本点到各簇质心的距离，对所有样本点重新进行划分。

4）重复第2）步和第3）步, 直到迭代计算后，所有样本点的划分情况保持不变，此时说明k-均值算法已经得到了最优解，将运行结果返回。

请复习每次直播课程上课讲解的范例代码。

在支持向量机中，划分样本集最优的超平面，应是具有的超平面。最大间隔
在主成分分析中，降维后部分特征向量被舍弃了，舍弃后可以使，同时，能够起到的效果。使样本的采样密度增大，去噪
在聚类中，用于计算两个样本之间的距离，通常采用的距离度量方式是欧氏距离。
在线性回归算法中，最优回归函数中的参数使得回归函数的输出f(x)与测试样本真实输出值之间的最。均方误差小
已知训练数据集合（trainx,trainy），测试数据集（testx,testy),SVM算法代码如下

（1）from sklearn.svm import SVC

（2）svc = SVC(kernel='linear')

（3）clf = svc.fit(trainx,trainy)

（4）testny = clf.predict(testx)

SVM模型对测试数据的预测结果存储在变量中。

在主成分分析中，为使样本点经过投影后尽可能分开，则应该使投影后的样本点

。投影后样本点的方差最大化

聚类是将样本集划分为若干互不相交的子集，即样本簇，为使聚类结果比较好，应使聚类后高且低。簇内相似度，簇间相似度
在支持向量机中，最优划分超平面所产生的分类结果是最的，对未见示例的最强。鲁棒，泛化能力
给定数据集，模型采用函数预测测试样本的y值，则该模型属于模型，可采用算法得到该函数。线性，线性回归
已知训练数据集合（trainx,trainy），测试数据集（testx,testy),SVM算法代码如下

（1）from sklearn.svm import SVC

（2）svc = SVC(kernel='linear')

（3）clf = svc.fit(trainx,trainy)

（4）testny = clf.predict(testx)

代码（3）完成的功能为。采用训练数据对SVM模型进行训练

假设输入数据存储在x_data中，类别标签存储在y_data中，在线性回归分析代码中，代码如下：

（1）from sklearn.linear_model import LinearRegression

（2）lr = LinearRegression()

（3）lr.fit(x_data, y_data)

（4）y_pred = lr.predict(x_data)

请回答代码（3）（4）的含义。

答案

采用训练数据x_data和 y_data训练线性回归模型lr.
对x_data数据采用训练好的模型进行预测，预测结果存储在y_pred中。

给定两类数据集

编辑，其中m=1000，

编辑，每类有500个样本，请设计10折交叉验证法，用于评估模型的测试误差。

，，，

1）将数据集划分10个互斥的子集，每个子集包含随机抽取的标签为1的样本50个，标签为-1的样本50个。

2）随机选取一个子集作为测试集，剩余集合作为训练集。

3）选定模型，采用训练集进行训练，测试集进行测试，记录测试误差。

4）重复2-3步10次，每次选取的测试子集不同，取平均测试误差为最终测试误差。

89：已知某模型对两类问题（0为正例，1为反例）的测试样本输出结果如下表所示：

测试样本	测试样本所属类别	模型输出类别
编辑	0	1
编辑	0	0
编辑	1	0
编辑	1	1
编辑	1	1
编辑	0	1

请计算该模型查准率、查全率及F1，结果保留两位小数。

(查准率

，查全率

，其中，TP为真正例数，即实际为正例，识别结果也为正例的样本个数；FP为假正例数，即实际为反例，识别结果为正例的样本个数；FN为假反例数，即实际为正例，识别结果为反例的样本个数；TN为真反例数，即实际为反例，识别结果也为反例的样本个数）

查准率P=1/2=50%

查全率R=1/3=33.33%

F1=2/5=40%

已知数据集的定义为

编辑，表示包含m个样本的数据集，其中每个样本有d个属性，则每个样本

编辑是d维空间中的一个向量，其中

编辑是样本

编辑在第j个属性上的取值，d称为样本

编辑的维数。

有500个人脸图像样本’（像素点128*68=8704）构成的人脸图像数据集，所有像素点的值构成图像样本的属性，请根据数据集的定义及右图给出该人脸图像数据集中以下变量的值。

（1）数据集的大小m

（2）样本的维数d

编辑（3）

编辑（下标从0开始）

m=500

D=8704

(3)144

90: 假设数据的协方差矩阵存在data中，采用主成分分析算法对数据进行降维，以下代码的含义是什么？

（1）eigValue, eigVec = np.linalg.eig(data)

（2）eigValInd = np.argsort(-eigValue)

（3）selectVec = eigVec[:, eigValInd[:3]]

（1）计算协方差矩阵的特征值和特征向量

（2）对特征值进行排序

（3）依据特征值的排序结果，取三个最大的特征值对应的特征向量存入selectVec中。

给定两类数据集

编辑，其中m=1000，

编辑，每类有500个样本，请设计留出法，用于评估模型的测试误差。

1）划分训练集与测试集

2）训练集为800个样本，其中随机抽取标签为-1的样本400个，标签为+1的样本400个，测试集为剩余样本。

3）选定模型，采用训练集进行训练，测试集进行测试，记录测试误差。

4）重复1-3步10次，取平均测试误差为最终测试误差。

已知某模型对两类问题的测试样本输出结果如下表所示：

请计算该模型的错误率。

测试样本	测试样本所属类别	模型输出类别
编辑	2	1
编辑	1	2
编辑	1	1
编辑	2	2
编辑	1	2
编辑	1	1

答案：错误率=3/6= 50%

网站建设项目开发_seo公司是做什么的_seo营销外包_网站推广网

一.空题目

二.解答题目

最新新闻

热搜词