外发加工流程管理制度_温州发生的重大新闻_360推广怎么收费_成都网站快速开发

判断题：

T 模式识别中的人脸识别问题是根据已知数据类别预测未知数据类别的问题。
F 人脸图像在计算机中是以矩阵的方式存储的。
F 训练集和测试集有交集。
T 算法（模型）是以样本所包含的信息为基础，对总体的某些特征进行判断、预测和估计的计算方法。
T 识别率是某个模型对测试样本识别正确的概率，通常的计算方法为识别正确的测试样本数量除以测试样本总数
T 对于人脸识别问题而言，输入空间是所有样本的人脸图像数据构成的集合。
F 对于人脸识别问题而言，特征空间是所有样本的类别构成的集合。
F 对于人脸识别问题而言，输出空间是所有样本的图像经过特征变换后得到的特征向量构成的集合。

填空：

已知样本集合为：([3,4],1),([2,5],2),([8,10],3),([7,8],4),([6,9],5)，请计算样本数据部分的均值______________________。
当样本数较小时，为什么最小化经验风险会带来过拟合问题？该如何解决？

答案：___________

已知某模型对测试样本的输出结果分别为：

(x’1,2)->1

(x’2,1)->2

(x’3,1)->1

(x’4,2)->2

(x’5,1)->2

(x’6,1)->1

请计算错误率______

判断题：

T ROC曲线可用于判断模型的性能，ROC曲线下的面积越小，即AUC指标越小，模型的性能越好。

填空：

请说出期望风险最小化、经验风险最小化、结构风险最小化的区别。

答案解析：

模型测试时，留出法是将样本的数据集随机划分为两部分，一部分组成训练样本，一部分组成测试样本，经过多次测试，取测试结果的平均值作为最终的测试结果。

对错

模型测试时，K折交叉验证的方法是什么？

答案：

判断题：

F 主成分分析是非线性变换。
T 主成分分析的主要目的是降低数据维数，留下主要特征。
T 主成分分析降维后，使得降维后信息量保留最多的原因是，投影方向上数据的方差最大。
T 在主成分分析中，使得方差最大的投影方向是数据协方差矩阵中，最大的K个特征值对应的K个特征向量构成的映射方向。

填空题：

在进行主成分分析前，需要进行数据的预处理，将数据标准化为均值为0，方差为1的向量，标准化的目的是？

答案：标准化的目的是使数据不同的特征能够在同一标准下进行度量。

主成分分析的主要步骤是什么？

答案：

判断题：

T 线性判别分析是在特征空间中，找到一个最佳的投影方向，使得不同类别的样本投影到该方向上后，更易于分类。

填空题：

请说出确定线性判别分析最佳投影方向的原则。

答案：

如果样本有两类，在线性判别分析中，类间距离是用什么衡量的？

答案：

如果样本有两类，在线性判别分析中，类内距离是用什么衡量的？

答案：。

选择题：

B 类内离散度用来衡量

A.类间距离的大小

B.类内离散程度，类内样本到其均值的平方误差总和

C.不同类均值的距离

B A 两类问题中，类内离散矩阵的计算方法是

A.两类散列矩阵的和

B.两类均值的差向量乘以其转置得到的矩阵

C.类内样本点间所有距离的和

B 两类问题中，类间离散矩阵的计算方法是

A.两类散列矩阵的和

B.两类均值的差向量乘以其转置得到的矩阵

C.不同类样本点间所有距离的和

判断题：

F 线性判别分析得到的投影方向，使得（类间距离/类内距离）的值最小
T 线性判别分析的到的投影矩阵是类内离散矩阵的逆乘以类间离散矩阵，求其前K个特征值对应的特征向量构成的投影矩阵。
T 分析一个变量与其他一个（或几个）变量之间的相关关系的统计方法就称为回归分析
F 回归过程是给出一个样本集，用函数拟合这个样本集，使拟合函数与样本集完全一致

32. T 线性回归是通过拟合自变量与因变量之间最佳线性关系，来预测目标变量的方法。

T 一元线性回归是描述一个变量与多个变量之间线性相关关系的最简单的回归模型。
T 一元线性回归模型表示为y=ax+b。
T 多元线性回归是研究一个变量与多个变量之间线性关系的回归模型。
F 评价回归模型好坏一般用R2，R2越接近0拟合程度越好。

答案解析：

T 对于两类数据而言，支持向量是在两类数据中距离分界线最近的边缘点。

填空题：

请描述支持向量机中最优数据分界线的选择原则。

答案解析：最优分界线，要尽可能地远离两类数据点，即数据集的边缘点到分界线的距离d最大。

请写出以下代码的含义：

from sklearn.svm import SVC

svc = SVC(kernel='linear')

clf = svc.fit(trainx,trainy)

testy = clf.predict(testx)

答案解析：

判断题：

F 在有监督的识别/分类中，样本的类别是预先设定的。
F 在无监督的识别/分类中，样本的类别是预先设定的。
F 聚类分析是一种有监督的分类方法。
T 聚类的目标是得到较高的簇内相似度和较低的簇间相似度，使得簇间的距离尽可能大，簇内样本与簇中心的距离尽可能小。
T 聚类中心是一个类别中所有样本点的均值（质心）
F 在聚类分析中，样本点间的距离衡量方法有曼哈顿距离、切比雪夫距离和明可夫斯基距离等。
F k-均值算法对离群点和噪声点不敏感，少量的离群点和噪声点对聚类结果影响不大。
F k-均值算法中初始聚类中心的选取对算法结果影响不大。

填空题：

K均值聚类中，K值选取的方法有________和_________。

答案解析：

请描述K均值聚类方法的步骤。

请复习每次直播课程上课讲解的范例代码。

选择题：

B 聚类算法计算停止的条件是( )

A.错误率小于某个阈值 B.迭代结果与上一次迭代结果相同

C.精度小于某个阈值 D.迭代结果与上一次迭代结果的差值小于某个阈值

C 在线性判别分析中，将样本投影到合适的投影轴上，使得（）

A、同类样本的投影点尽可能接近，异类样本的投影点尽可能接近

B、同类样本的投影点尽可能远离，异类样本的投影点尽可能接近

C、同类样本的投影点尽可能接近，异类样本的投影点尽可能远离

D、同类样本的投影点尽可能远离，异类样本的投影点尽可能远离

B 在聚类分析里，以下代码的作用是( )

iris = datasets.load_iris()

A.创建txt文件 B.读入鸢尾花数据 C.计算鸢尾花数据的质心

D.计算鸢尾花数据的特征值

D C 在使用主成分分析对经济数据进行分析的代码中，数据存储在data中，以下代码的作用是( )

temp = np.std(data, axis=0)

data -= np.mean(data, axis=0)

data /= temp

A.计算数据的特征值 B.计算数据的特征向量

C.对数据进行归一化，使得数据的均值为零，方差为1 D.计算数据的协方差矩阵

D 在线性判别分析中，类内散度矩阵用来衡量（）

A、某些样本的离散程度 B、不同类样本间的离散程度

C、所有样本的离散程度 D、同类样本的类内离散程度

B k均值聚类算法属于( )

A.有监督学习 B.无监督学习 C.集成学习 D.强化学习

B 以下描述正确的是( )

A.精度和误差相等 B.精度等于1减去误差

C.精度等于1除以误差 D.精度等于100减去误差

D 以下描述正确的是( )

A.样例和数据一样 B.样例和数据的区别在于类别标签不一样

C.样例和数据的区别在于数据量不一样

D.样例和数据的区别在于是否有类别标签

C 在使用线性判别分析对鸢尾花数据进行分类的程序里，读入数据存储在X中，以下代码的作用是( )

X_cent = X - X.mean(axis=0)

X_std = X_cent / X.std(axis=0)

A.计算数据的类内散度矩阵 B.计算数据的类间散度矩阵

C.对数据进行归一化，使得数据的均值为零，方差为1

D.计算使目标函数J(W)取最大值的W的值

B 在线性判别分析中，类间散度矩阵用来衡量（）

A、某些样本的离散程度 B、不同类样本间的离散程度

C、所有样本的离散程度 D、同类样本的类内离散程度

判断题：

T 学习器的性能度量主要指对学习器泛化性能进行评估。()
T 在信息检索中，查全率是指用户感兴趣的信息有多少被检索出来了。()
T ROC曲线下的面积越小（即AUC指标越小），模型性能越好。()
F 训练集和测试集有交集。()
F 我们期望得到经验误差最小的模型。()
F 当模型处于过拟合状态，其对新样本的分类效果最好。)
T F1度量是综合考虑查全率与查准率的性能度量方法。()
T 学习过程就是为了找出或者逼近真相。从假设空间中进行搜索，找到最匹配训练集的假设。()
T 线性判别分析是在特征空间中，找到一个最佳的投影方向，使得不同类别的样本投影到该方向上后，更易于分类。()
T 支持向量机通过引入核函数，将输入空间映射到高维空间，从而提高分类效果。()
F 评价回归模型的指标R2越接近0，则模型的拟合程度越好。()
T 在信息检索中，查准率是指检索出来的信息中有多少比例是用户感兴趣的。()
F 假设等同于真相。()
T 假设空间包含了所有可能的假设，用训练集学习的过程就是在假设空间中搜索到待解决问题最优的假设。()
F k-均值算法对离群点和噪声点不敏感，少量的离群点和噪声点对聚类结果影响不大。()

填空题：

在支持向量机中，划分样本集最优的超平面，应是具有的超平面。
在主成分分析中，降维后部分特征向量被舍弃了，舍弃后可以使，同时，能够起到的效果。
在聚类中，用于计算两个样本之间的距离，通常采用的距离度量方式是欧氏距离。
在线性回归算法中，最优回归函数中的参数使得回归函数的输出f(x)与测试样本真实输出值之间的最。
已知训练数据集合（trainx,trainy），测试数据集（testx,testy),SVM算法代码如下

（1）from sklearn.svm import SVC

（2）svc = SVC(kernel='linear')

（3）clf = svc.fit(trainx,trainy)

（4）testny = clf.predict(testx)

SVM模型对测试数据的预测结果存储在变量中。

在主成分分析中，为使样本点经过投影后尽可能分开，则应该使投影后的样本点

。

聚类是将样本集划分为若干互不相交的子集，即样本簇，为使聚类结果比较好，应使聚类后高且低。
在支持向量机中，最优划分超平面所产生的分类结果是最的，对未见示例的最强。
给定数据集，模型采用函数预测测试样本的y值，则该模型属于模型，可采用算法得到该函数。
已知训练数据集合（trainx,trainy），测试数据集（testx,testy),SVM算法代码如下

（1）from sklearn.svm import SVC

（2）svc = SVC(kernel='linear')

（3）clf = svc.fit(trainx,trainy)

（4）testny = clf.predict(testx)

代码（3）完成的功能为。

假设输入数据存储在x_data中，类别标签存储在y_data中，在线性回归分析代码中，代码如下：

（1）from sklearn.linear_model import LinearRegression

（2）lr = LinearRegression()

（3）lr.fit(x_data, y_data)

（4）y_pred = lr.predict(x_data)

请回答代码（3）（4）的含义。

答案

给定两类数据集，其中m=1000，，每类有500个样本，请设计10折交叉验证法，用于评估模型的测试误差。

，，，

已知某模型对两类问题（0为正例，1为反例）的测试样本输出结果如下表所示：

测试样本	测试样本所属类别	模型输出类别
	0	1
	0	0
	1	0
	1	1
	1	1
	0	1

请计算该模型查准率、查全率及F1，结果保留两位小数。

已知数据集的定义为，表示包含m个样本的数据集，其中每个样本有d个属性，则每个样本是d维空间中的一个向量，其中是样本在第j个属性上的取值，d称为样本的维数。

有500个人脸图像样本（像素点128*68=8704）构成的人脸图像数据集，所有像素点的值构成图像样本的属性，请根据数据集的定义及右图给出该人脸图像数据集中以下变量的值。

（1）数据集的大小m

（2）样本的维数d

（3）（下标从0开始）

m=500
D=8704

(3)144

假设数据的协方差矩阵存在data中，采用主成分分析算法对数据进行降维，以下代码的含义是什么？

（1）eigValue, eigVec = np.linalg.eig(data)

（2）eigValInd = np.argsort(-eigValue)

（3）selectVec = eigVec[:, eigValInd[:3]]

（1）计算协方差矩阵的特征值和特征向量

（2）对特征值进行排序

（3）依据特征值的排序结果，取三个最大的特征值对应的特征向量存入selectVec中。

给定两类数据集，其中m=1000，，每类有500个样本，请设计留出法，用于评估模型的测试误差。

1）划分训练集与测试集

2）训练集为800个样本，其中随机抽取标签为-1的样本400个，标签为+1的样本400个，测试集为剩余样本。

3）选定模型，采用训练集进行训练，测试集进行测试，记录测试误差。

4）重复1-3步10次，取平均测试误差为最终测试误差。

已知某模型对两类问题的测试样本输出结果如下表所示：

请计算该模型的错误率。

测试样本	测试样本所属类别	模型输出类别
	2	1
	1	2
	1	1
	2	2
	1	2
	1	1

答案：错误率=3/6= 50%

外发加工流程管理制度_温州发生的重大新闻_360推广怎么收费_成都网站快速开发

最新新闻

热搜词