小C的第一宇宙

分类问题

wangc
Oct 16, 2017
阅读本文需要 3 分钟(按字数)

关于分类

概念

分类的是利用一个分类函数(分类模型、分类器),该模型能把数据库中的数据影射到给定类别中的一个。

例如,医生对病人进行诊断就是一个典型的分类过程,任何一个医生都无法直接看到病人的病情,只能观察病人表现出的症状和各种化验检测数据来推断病情,这时医生就好比一个分类器,而这个医生诊断的准确率,与他当初受到的教育方式(构造方法)、病人的症状是否突出(待分类数据的特性)以及医生的经验多少(训练样本数量)都有密切关系。

分类的目的

通过对大量同类信息的分类,来做出对整体数据集的分析,从而实现对事物结果的预测,辅助人们进行决策。

分类的应用

比如欺诈检测、目标经营、性能预测、制造和医疗诊断。

分类过程

建立模型

第一步,建立一个模型,描述预定数据类集和概念集。 假定每个元组属于一个预定义的类,由一个类标号属性确定

基本概念

  • 训练数据集:由为建立模型而被分析的数据元组形成
  • 训练样本:训练数据集中的单个样本(元组)
  • 学习模型可以用分类规则、判定树或数学公式的形式提供
  • y=f(X) 其中,y是给定元组X的类标号。

使用模型

第二步,使用模型,对将来的或未知的对象进行分类

首先评估模型的预测准确率 对每个测试样本,将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立于训练样本集,否则会出现“过分适应数据”的情况

分类方法

KNN算法

神经网络

贝叶斯分类

决策树

支持向量机

支持向量机(SVM)是90年代中期发展起来的基于统计学习理论的一种机器学习方法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。在深度学习出现之前,SVM一直霸占着机器学习老大哥的位子。他的理论很优美,各种变种改进版本也很多,比如latent-SVM, structural-SVM等。通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。支持向量机的学习算法是求解凸二次规划的最优化算法。

支持向量机学习方法包含构建由简至繁的模型:线性可分支持向量机、线性支持向量机及非线性支持向量机。当训练数据线性可分时,通过硬间隔最大化,学习一个线性的分类器,即线性可分支持向量机;当训练数据近似可分时,通过软间隔最大化,也学习一个线性的分类器,即线性支持向量机;当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。