数据分析算法-朴素贝叶斯分类器原理与实现

朴素贝叶斯分类器简述

  • 贝叶斯分类算法是统计学中的一种概率分类方法。
  • 朴素贝叶斯分类是贝叶斯分类中最简单的一种。其分类原理就是利用贝叶斯公式根据某特征的先验概率计算出其后验概率,然后选择具有最大后验概率作为该特征所属的类。之所以称之为“朴素”,是因为贝叶斯分类只做最原始、最简单的假设:所有的特征之间是相对独立的。朴素贝叶斯分类就是基于一定假定的多属性(多条件)分类算法。对于给定训练集,假定各个特征条件间相互独立。

数学原理

  • 贝叶斯公式:
    P(BiA)=P(Bi)P(ABi)j=1nP(Bj)P(ABj)P(B_i|A) = {P(B_i)P(A|B_i) \over \sum_{j=1}^n P(B_j)P(A|B_j)}
  • 通过全概率公式转化:
    P(BA)=P(B)P(AB)P(A)=P(B)P(AB)P(A)P(B|A) = {P(B)P(A|B) \over P(A)} = P(B){P(A|B) \over P(A)}
  • P(B)P(B)为先验概率,即在A事件发生之前,对B事件发生概率的预判,是在没有A条件的情况下一个主观的猜测判断。
  • 等式左边的P(BA)P(B|A)为后验概率,即在B事件发生之后,对A事件发生概率的重新评估,也是我们计算的目标。
  • P(AB)P(A)P(A|B) \over P(A)整体是可能性函数(即后验概率除以先验概率,是一个调整因子,即新信息事件B发生的调整作用,使得主观判断(先验概率)更接近真实值。
    • P(A)P(A)即为特征事件发生的概率,一般为常数,可以不用计算。
  • 所以贝叶斯公式可以表示为:后验概率=先验概率 * 调整因子
  • 用朴素贝叶斯算法对案例进行分类时,主要是通过求分类目标的最大后验概率来进行分类。由于在同种情况下贝叶斯公式的分母是相同的,所以在计算是可以将分母忽略,以减少计算。