专家规则模型和统计学模型都有哪些,两者有什么区别呢?

答:专家规则模型是指领域专家根据经验设定的相关规则组成的模型。在基于规则的专家模型中,经验知识常用一组规则来表达。其具有IF(条件)THEN(行为)结构,当规则的条件被满足时,触发规则,继而执行行为。将规则组合成模型目前最好的方式是构建决策树类专家模型,包括单棵决策树和集成决策树,其中最为容易实现的集成决策树是随机森林。专家规则模型可适用于没有分类数据或数据极少的场景,模型可解释性好,相同场景可快速复用。

统计学模型是根据给定的数据集,计算出最优化目标函数。其通过数学模型来描述分子结构和分子的某种生物活性之间的关系,建模原理可用Y=f(X)来表示,其中f为构建的统计学模型。常见的模型方法有多元线性回归(MLR)、偏最小二乘(PLS)、支持向量机(SVM)、遗传算法(GA)、人工神经网络(ANN)等。数据驱动的统计学模型无法理解数据背后所代表的具体含义,而仅仅是从数理维度和大数据概率维度更加准确地贴合正确的数字规律表现。统计学模型的强大之处在于其能基于大数据不断迭代计算,预测精确度得以不断提高。

 

根据以上讨论可知,一般情况下,专家规则模型更加适用于定性节点(二元毒性终点,由阴性/阳性表述结果)的预测,如皮肤/眼刺激性、皮肤致敏性、致癌性、致突变性等等。而统计学模型可用于预测定性节点或者定量节点(急性经口/经皮/吸入毒性、发育毒性等等)。

 

目前,较为常用的基于专家规则的模型软件有Derek、Leadscope Genetox Expert Alerts、ToxTree等等,基于统计学的模型软件有Sarah Nexus、Leadscope Genetox Statistical Mode、MultiCAS等等。其实,QSAR方法发展至今,很多QSAR软件都具有多个不同属性节点的预测能力,不同节点的模型构建方法差异也较大。其次,对于同一节点,很多软件为了提高预测准确度,往往也包含了多个预测模型,如经口毒性或者基因毒性等节点,一些软件平台同时包含了专家规则模型和统计学模型。因此,只包含单一专家规则模型或统计学模型的软件已经较为少见,像常用的QSAR toolbox、T.E.S.T、VEGA和Danish QSAR Models等均同时包含有专家规则模型和统计学模型。

首页    FAQ    专家规则模型和统计学模型都有哪些,两者有什么区别呢?