您的位置:首页 > 汽车 > 新车 > 网站建设项目开发_seo公司是做什么的_seo营销外包_网站推广网

网站建设项目开发_seo公司是做什么的_seo营销外包_网站推广网

2024/12/24 2:57:21 来源:https://blog.csdn.net/Abraxs/article/details/144494332  浏览:    关键词:网站建设项目开发_seo公司是做什么的_seo营销外包_网站推广网
网站建设项目开发_seo公司是做什么的_seo营销外包_网站推广网

目录

一.空题目

二.解答题目

.空题目

9:已知样本集合为:([3,4],1),([2,5],2),([8,10],3),([7,8],4),([6,9],5),请计算样本数据部分的均值______

10:当样本数较小时,为什么最小化经验风险会带来过拟合问题?该如何解决?

11:已知某模型对测试样本的输出结果分别为:

(x’1,2)->1

(x’2,1)->2

(x’3,1)->1

(x’4,2)->2

(x’5,1)->2

(x’6,1)->1

请计算错误率______

13:请说出期望风险最小化、经验风险最小化、结构风险最小化的区别。

14:模型测试时,留出法是将样本的数据集随机划分为两部分,一部分组成训练样本,一部分组成测试样本,经过多次测试,取测试结果的平均值作为最终的测试结果。对  错

15:模型测试时,K折交叉验证的方法是什么?

20:在进行主成分分析前,需要进行数据的预处理,将数据标准化为均值0方差1的向量,标准化的目的是?

21:主成分分析的主要步骤是什么?

23:请说出确定线性判别分析最佳投影方向的原则

24:如果样本有两类,在线性判别分析中,类间距离是用什么衡量的?

25:如果样本有两类,在线性判别分析中,类内距离是用什么衡量的?

38:请描述支持向量机中最优数据分界线的选择原则

39:请写出以下代码的含义:

from sklearn.svm import SVC

svc = SVC(kernel='linear')

clf = svc.fit(trainx,trainy)

testy = clf.predict(testx)

48:K均值聚类中,K值选取的方法有________和_________。

49:请描述K均值聚类方法的步骤。

50:请复习每次直播课程上课讲解的范例代码。

76:在支持向量机中,划分样本集最优的超平面,应是具有         的超平面。 

77:在主成分分析中,降维后部分特征向量被舍弃了,舍弃后可以使           ,同时,能够起到            的效果。

78:在聚类中,用于计算两个样本之间的距离,通常采用的距离度量方式是欧氏距离

79:在线性回归算法中,最优回归函数中的参数使得回归函数的输出f(x)与测试样本真实输出值之间的                           

:80:已知训练数据集合(trainx,trainy),测试数据集(testx,testy),SVM算法代码如下

(1)from sklearn.svm import SVC

(2)svc = SVC(kernel='linear')

(3)clf = svc.fit(trainx,trainy)

(4)testny = clf.predict(testx)

SVM模型对测试数据的预测结果存储在变量            中。

81:在主成分分析中,为使样本点经过投影后尽可能分开,则应该使投影后的样本点       

82:聚类是将样本集划分为若干互不相交子集,即样本簇,为使聚类结果比较好,应使聚类               高且             低。

83:在支持向量机中,最优划分超平面所产生的分类结果是最              的,对未见示例的               最强。

84:给定数据集,模型采用函数预测测试样本的y值,则该模型属于           模型,可采用                   算法得到该函数。

85:已知训练数据集合(trainx,trainy),测试数据集(testx,testy),SVM算法代码如下

(1)from sklearn.svm import SVC

(2)svc = SVC(kernel='linear')

(3)clf = svc.fit(trainx,trainy)

(4)testny = clf.predict(testx)

代码(3)完成的功能为                       。

86:假设输入数据存储在x_data中,类别标签存储在y_data中,在线性回归分析代码中,代码如下:

(1)from sklearn.linear_model import LinearRegression

(2)lr = LinearRegression()

(3)lr.fit(x_data, y_data)

(4)y_pred = lr.predict(x_data)

请回答代码(3)(4)的含义。

87:给定两类数据集

​编辑,其中m=1000,

​编辑,每类500个样本,请设计10折交叉验证法,用于评估模型测试误差

         ,         ,         ,         

88:已知某模型对两类问题(0正例1反例)的测试样本输出结果如下表所示:

测试样本

测试样本所属类别

模型输出类别

​编辑

0

1

​编辑

0

0

​编辑

1

0

​编辑

1

1

​编辑

1

1

​编辑

0

1

请计算该模型查准率查全率F1,结果保留两位小数。

89:已知数据集的定义为

​编辑,表示包含m个样本的数据集,其中每个样本有d个属性,则每个样本

​编辑是d维空间中的一个向量,其中

​编辑是样本

​编辑在第j个属性上的取值,d称为样本

​编辑的维数。

90:有500个人脸图像样本’(像素点128*68=8704)构成的人脸图像数据集,所有像素点的值构成图像样本的属性,请根据数据集的定义及右图给出该人脸图像数据集中以下变量的值。

(1)数据集的大小m

(2)样本的维数d

​编辑(3)

​编辑(下标从0开始)

  1. m=500
  2. D=8704

(3)144

90: 假设数据的协方差矩阵存在data中,采用主成分分析算法对数据进行降维,以下代码的含义是什么?

(1)eigValue, eigVec = np.linalg.eig(data)

(2)eigValInd = np.argsort(-eigValue)

(3)selectVec = eigVec[:, eigValInd[:3]]

  1. 给定两类数据集

    ​编辑,其中m=1000,

    ​编辑,每类有500个样本,请设计留出法,用于评估模型的测试误差。
  1. 已知某模型对两类问题的测试样本输出结果如下表所示:

请计算该模型的错误率。

测试样本

测试样本所属类别

模型输出类别

​编辑

2

1

​编辑

1

2

​编辑

1

1

​编辑

2

2

​编辑

1

2

​编辑

1

1

.解答题目

9:已知样本集合为:([3,4],1),([2,5],2),([8,10],3),([7,8],4),([6,9],5),请计算样本数据部分的均值______________________。[5.2,7.2]。

其中,每个样本点的第一个数字表示第一个特征的值,第二个数字表示第二个特征的值,而后面的数字(1, 2, 3, 4, 5)是样本的标签或类别,在计算均值时不考虑它们。

首先,我们提取所有样本点的第一个特征的值:3,2,8,7,6
然后计算这些值的均值:
第一个特征的均值=(53+2+8+7+6)/5​=526​=5.2

接着,我们提取所有样本点的第二个特征的值:4,5,10,8,9
然后计算这些值的均值:
第二个特征的均值=(54+5+10+8+9)/5​=536​=7.2

因此,样本数据部分的均值为 [5.2,7.2]

10:当样本数较小时,为什么最小化经验风险会带来过拟合问题?该如何解决?

答案:___________

样本数较小时,经验风险不等于期望风险,最小化经验风险得到的模型其期望风险不一定最最小,同时,最小化经验风险时,在每个训练样本上的训练误差可能为,得到的模型过于复杂,造成过拟合问题,然而当数据不在训练集合中时,预测误差较大,造成过拟合问题。

解决过拟合问题可以采用正则化的方法,其基本思想是希望模型尽量简单

11:已知某模型对测试样本的输出结果分别为:

(x’1,2)->1

(x’2,1)->2

(x’3,1)->1

(x’4,2)->2

(x’5,1)->2

(x’6,1)->1

请计算错误率_______50%__

(x1′​,2)→1:真实类别是2,模型预测为1。

(x2′​,1)→2:真实类别是1,模型预测为2。

(x3′​,1)→1:真实类别是1,模型预测为1。

(x4′​,2)→2:真实类别是2,模型预测为2。

(x5′​,1)→2:真实类别是1,模型预测为2。

(x6′​,1)→1:真实类别是1,模型预测为1。

错误预测的样本数:3(即第1、2、5个测试样本的预测是错误的)。

3/6=0.5

13:请说出期望风险最小化、经验风险最小化、结构风险最小化的区别。

答案解析:期望风险最小化是最小化模型总体上的预测风险,经验风险最小化是最小化模型在训练样本上的预测风险值,结构风险最小化是最小化经验风险模型结构复杂度

14:模型测试时,留出法是将样本的数据集随机划分为两部分,一部分组成训练样本,一部分组成测试样本,经过多次测试,取测试结果的平均值作为最终的测试结果。

对  错

15:模型测试时,K折交叉验证的方法是什么?

答案:将数据集分为K个互不相交的大小相同数据集,用k-1个子集训练,用剩下的1个子集测试,重复K次,选出平均测试误差最小的模型

20:在进行主成分分析前,需要进行数据的预处理,将数据标准化为均值0方差1的向量,标准化的目的是?

答案:标准化的目的是使数据不同特征能够在同一标准下进行度量

21:主成分分析的主要步骤是什么?

答案:设有m条n维数据,PCA的一般步骤如下:

1)进行数据预处理(标准化为均值为0,方差为1)

2)将原始数据按列组成n行m列矩阵X

3)计算矩阵X中每个特征属性(n维)的平均向量M(平均值)

4)将X的每行(代表一个属性字段)进行零均值化,即减去M

5)按照公式C=1/m XX^T求出协方差矩阵

6)求出协方差矩阵的特征值及对应的特征向量

7)将特征向量按对应特征值大到小按行排列矩阵,取前k(k < n)行组成基向量P

8)通过Y=PX计算降维k维后样本特征

23:请说出确定线性判别分析最佳投影方向的原则

答案:最佳投影方向是最易于分类的方向,即投影后,类内距离最小,类间距离最大

24:如果样本有两类,在线性判别分析中,类间距离是用什么衡量的?

答案:类间距离是两类样本均值的距离

25:如果样本有两类,在线性判别分析中,类内距离是用什么衡量的?

答案:每一类样本到其均值距离的和再求和

  1. 请描述支持向量机中最优数据分界线的选择原则

答案:最优分界线,要尽可能地远离两类数据点,即数据集的边缘点分界线距离d最大

  1. 请写出以下代码的含义:

from sklearn.svm import SVC

svc = SVC(kernel='linear')

clf = svc.fit(trainx,trainy)

testy = clf.predict(testx)

答案解析:

  1. K均值聚类中,K值选取的方法有________和_________。

答案:方法和轮廓系数

  1. 请描述K均值聚类方法的步骤。

答案:

1)首先选取k个类簇(k需要用户进行指定)的质心,通常是随机选取。

2)对剩余的每个样本点,计算它们到各个质心的欧式距离,并将其归入到相互间距离最小的质心所在的簇。计算各个新簇的质心。

3)在所有样本点都划分完毕后,根据划分情况重新计算各个簇的质心所在位置,然后迭代计算各个样本点到各簇质心的距离,对所有样本点重新进行划分。

4)重复第2)步和第3)步, 直到迭代计算后,所有样本点的划分情况保持不变,此时说明k-均值算法已经得到了最优解,将运行结果返回。

  1. 请复习每次直播课程上课讲解的范例代码。
  1. 在支持向量机中,划分样本集最优的超平面,应是具有         的超平面。  最大间隔
  2. 在主成分分析中,降维后部分特征向量被舍弃了,舍弃后可以使           ,同时,能够起到            的效果。使样本的采样密度增大  去噪  
  3. 在聚类中,用于计算两个样本之间的距离,通常采用的距离度量方式是欧氏距离
  4. 线性回归算法中,最优回归函数中的参数使得回归函数的输出f(x)与测试样本真实输出值之间的                           均方误差    小
  5. 已知训练数据集合(trainx,trainy),测试数据集(testx,testy),SVM算法代码如下

(1)from sklearn.svm import SVC

(2)svc = SVC(kernel='linear')

(3)clf = svc.fit(trainx,trainy)

(4)testny = clf.predict(testx)

SVM模型对测试数据的预测结果存储在变量            中。

  1. 主成分分析中,为使样本点经过投影后尽可能分开,则应该使投影后的样本点       

                  。 投影后样本点的方差最大化      

  1. 聚类是将样本集划分为若干互不相交子集,即样本簇,为使聚类结果比较好,应使聚类               高且             低。簇内相似度  簇间相似度
  2. 在支持向量机中,最优划分超平面所产生的分类结果是最              的,对未见示例的               最强。  鲁棒   泛化能力    
  3. 给定数据集,模型采用函数预测测试样本的y值,则该模型属于           模型,可采用                   算法得到该函数。 线性 , 线性回归
  4. 已知训练数据集合(trainx,trainy),测试数据集(testx,testy),SVM算法代码如下

(1)from sklearn.svm import SVC

(2)svc = SVC(kernel='linear')

(3)clf = svc.fit(trainx,trainy)

(4)testny = clf.predict(testx)

代码(3)完成的功能为                       。采用训练数据对SVM模型进行训练

  1. 假设输入数据存储在x_data中,类别标签存储在y_data中,在线性回归分析代码中,代码如下:

(1)from sklearn.linear_model import LinearRegression

(2)lr = LinearRegression()

(3)lr.fit(x_data, y_data)

(4)y_pred = lr.predict(x_data)

请回答代码(3)(4)的含义。

答案

  1. 用训练数据x_data和 y_data训练线性回归模型lr.
  2. 对x_data数据采用训练好的模型进行预测,预测结果存储在y_pred中。
  1. 给定两类数据集

    ​编辑,其中m=1000,

    ​编辑,每类500个样本,请设计10折交叉验证法,用于评估模型测试误差

         ,         ,         ,         

1)将数据集划分10个互斥子集,每个子集包含随机抽取的标签为1的样本50个,标签为-1的样本50个。

2)随机选取一个子集作为测试集,剩余集合作为训练集。

3)选定模型,采用训练集进行训练测试集进行测试,记录测试误差。

4)重复2-3步10次,每次选取的测试子集不同,取平均测试误差为最终测试误差。

89:已知某模型对两类问题(0正例1反例)的测试样本输出结果如下表所示:

测试样本

测试样本所属类别

模型输出类别

​编辑

0

1

​编辑

0

0

​编辑

1

0

​编辑

1

1

​编辑

1

1

​编辑

0

1

请计算该模型查准率查全率F1,结果保留两位小数。

                          

(查准率

,查全率

,其中,TP为真正例数,即实际为正例,识别结果也为正例的样本个数;FP为假正例数,即实际为反例,识别结果为正例的样本个数;FN为假反例数,即实际为正例,识别结果为反例的样本个数;TN为真反例数,即实际为反例,识别结果也为反例的样本个数)

查准率P=1/2=50%

查全率R=1/3=33.33%

F1=2/5=40%

  1. 已知数据集的定义为

    ​编辑,表示包含m个样本的数据集,其中每个样本有d个属性,则每个样本

    ​编辑是d维空间中的一个向量,其中

    ​编辑是样本

    ​编辑在第j个属性上的取值,d称为样本

    ​编辑的维数。

  1. 有500个人脸图像样本’(像素点128*68=8704)构成的人脸图像数据集,所有像素点的值构成图像样本的属性,请根据数据集的定义及右图给出该人脸图像数据集中以下变量的值。

(1)数据集的大小m

(2)样本的维数d

​编辑(3)

​编辑(下标从0开始)

  1. m=500
  2. D=8704

(3)144

90: 假设数据的协方差矩阵存在data中,采用主成分分析算法对数据进行降维,以下代码的含义是什么?

(1)eigValue, eigVec = np.linalg.eig(data)

(2)eigValInd = np.argsort(-eigValue)

(3)selectVec = eigVec[:, eigValInd[:3]]

(1)计算协方差矩阵特征值特征向量

(2)对特征值进行排序

(3)依据特征值排序结果,取三个最大的特征值对应的特征向量存入selectVec中。

  1. 给定两类数据集

    ​编辑,其中m=1000,

    ​编辑,每类有500个样本,请设计留出法,用于评估模型的测试误差。

1)划分训练集测试集

2)训练集为800个样本,其中随机抽取标签为-1的样本400个,标签为+1的样本400个,测试集为剩余样本。

3)选定模型,采用训练集进行训练,测试集进行测试,记录测试误差

4)重复1-3步10次,取平均测试误差为最终测试误差

  1. 已知某模型对两类问题的测试样本输出结果如下表所示:

请计算该模型的错误率。

测试样本

测试样本所属类别

模型输出类别

​编辑

2

1

​编辑

1

2

​编辑

1

1

​编辑

2

2

​编辑

1

2

​编辑

1

1

答案:错误率=3/6= 50%