北京普天同创生物科技有限公司
1.聚类分析原理介绍
在对众多样本进行模式识别时,人们通常事先并不知道样品内在的分类。其中无监督模式识别方法在未知训练集样本的类别的情况下,同样可以对样本进行分类识别。聚类分析法便是无监督模式识别法的代表,其应用十分广泛。分析流程如图8-1所示。
在多维空间中,相似的样本彼此距离应小些,反之,不相似的样本彼此间的距离会相对较大。也即常说的“物以类聚”,有效地将同类与异类分开,合理地按样本独有的特性来进行合理的分类。
这里的样本相似表示样本间的亲疏程度,通常用相似系数和距离来表征,将每一个样本看成n 个变量的一个点,在这样的空间中计算样本间的亲疏程度。相似系数用夹角的余弦值或相关系数表示。
夹角余弦如式(8-1)所示:
式中,xik是第i个样本的第k个特征变量。
相似系数如式(8-2)所示:
式中,xi是第i个样本所有特征变量的均值;xj是第J个样本所有特征变量的均值。
图8-1聚类分析流程
注:G1~G6代表6个不同的样本类,把距离最近的两个类聚成新类(如G1A和G2合成新类G7),再在新类中寻找距离最近的合成另一个新类(如G8和G9合成新类G10)。
距离则多用欧式距离和马氏距离来表示。
根据类间距离的不同定义方式,系统聚类法可分为最短距离法、最长距离法、中间距离法、重心法和方差平方和法。
最短距离法:两个不同类中最短距离的两个样本间的距离定义为两类之间的距离,其计算如式(8-3)所示:
Dγi=min{Dpi,Dqi},(i≠p,q) (8-3)
最长距离法:两个不同类中最长距离的两个样本间的距离定义为两类之间的距离,其计算如式(8-4)所示:
Dγi=max{Dpi,Dqi},(i≠p,q) (8-4)
中间距离法:类与类间的距离采取折中的方法,既不选取两类中距离最近的两个样本,也不选取两类中距离最远的两个样本的距离。
重心法:每类在物理意义上都会存在重心,两类的重心间的距离作为类间的相似性。
方差平方和法:也称为Ward法,该法认定准确的分类应满足类内方差尽可能小,而类间方差尽可能大,其计算如式(8-5)所示:
式中,γ是类P和类q聚成的新类;Dpi是类P和类i的光谱距离;Dqi是类q和类i的光谱距离;Dγi是类γ和类i的光谱距离;np是类p中聚类光谱的数量;nq是类q中聚类光谱的数量;ni是类i中聚类光谱的数量。
2.样品制备与光谱采集
本实验收集17个食用植物油样本(在超市购买的不同品牌不同批次样本),其中纯花生油(福临门、鲁花、龙大等品牌)4个、纯大豆油(福临门等品牌)4个、纯橄榄油(多力等品牌)9个。将其编号,分为校正集和预测集样品。1~15号为校正集样本,其中hs01~hs04为纯花生油,dd01~dd04为纯大豆油,g101~g109为纯橄榄油。另外收集5个不同的植物油样品,即纯花生油(hs00)、纯橄榄油(g100)、纯大豆油(dd00)、纯菜籽油(ez00)、纯棕榈油(z100)作为预测集样本。
采用德国Bruke:公司生产的VERTEX70近红外光谱分析仪对原始样本进行全谱测定。检测器为Bruker公司的专利数字检测器。将原始样品分别装入50mm的实验用白色塑料瓶内,采集光谱时,将光纤探头探入样本内部,采用透反射采样模式,对4000~12500-1谱区扫描,分辨率为8cm-1,扫描犯次。
22个食用油样本未经任何化学处理,将光纤探头伸入装有样本的小瓶中,逐一扫描样本,每次测量前均用石油醚清洗探头,避免样本间交叉污染。测得的样品近红外光谱如图8-2所示。
图8-2样品近红外光谱图
由图8-2可以看出,食用油谱图的峰形、峰位有一定的差别,利用化学计量学的方法对光谱进行预处理,采用系统聚类的算法进行鉴别,可以突出样本之间化学组成含量上的微小差别,从而达到分类的目的。
3.模型建立与测试
(1)模型建立
17个食用油样本采集光谱图后,经过SNV的预处理方法,去除干扰信号,光谱范围选择为4000~9000cm-1。使用OPUS6.5光谱分析软件进行聚类分析,样本间的距离采用欧氏距离法,类间距采用Ward算法。
从图8-3分析可得,样本集可以准确地分为3类,即花生油、大豆油和橄榄油,识别率达到了100%。
(2)模型校验
为考察聚类分析模型的预测能力,使用预测集样本纯花生油(hs00)、纯橄榄油(glo0 )、纯大豆油(dd00)、纯菜籽油(cz00)和纯棕榈油(zl00)对该模型进行预测,验证模型的预测准确率。预测结果如图8-4所示。
图8-3聚类分析结果
图8-4预测集样本分析结果图
从预测集样本的预测结果可以得出,当聚类模型类间距确定在0.01~0.04时,纯花生油(hs00)、纯橄榄油(g100)、纯大豆油(dd00)均能被正确识别和归类,纯菜籽油(cz00)和纯棕榈油(z100)则可以被确认为不属于花生油、大豆油和橄榄油的任意一种,因此综合建模和预测两者的结果,可将聚类模型的类间距确定在0.01~0.04,则模型的识别率和预测率均可达100%。
相关链接:二嗪农多类光谱敏感性研究比较分析(三)
文章来源:《多光谱食品品质检测技术与信息处理研究》
版权与免责声明:转载目的在于传递更多信息。
如其他媒体、网站或个人从本网下载使用,必须保留本网注明的"稿件来源",并自负版权等法律责任。
如涉及作品内容、版权等问题,请在作品发表之日起两周内与本网联系,否则视为放弃相关权利。
通话对您免费,请放心接听
温馨提示:
1.手机直接输入,座机前请加区号 如18601949136,010-58103629
2.我们将根据您提供的电话号码,立即回电,请注意接听
3.因为您是被叫方,通话对您免费,请放心接听
登录后才可以评论