给QSAR模型许一个新年愿望
新年初始,又到了大家写年终总结、做新年计划、列愿望清单的时候。我的QSAR小伙伴陪我度过了辛苦的一年,如果能给每一个建模步骤许一个新年愿望的话,我希望是这样的:
物质活性
成为户口本的户主
先看一段小liu跟客户的对话
(基于事实合理虚构)
搞迷糊了?觉得好笑?这是真实发生在小liu工作中的事情。小liu发现,很多人在谈到QSAR模型时都会谈到哪类物质、算什么描述符,结果要怎么样,但往往会把模型的基础忽略——物质活性。OECD导则中第一条就要求要有明确的物质活性。QSAR是结构—活性关系,没有活性,让结构跟谁搞关系?所以新的一年希望给活性一个正名的机会,如果QSAR建模的步骤是一个家庭,那它才是户口本的户主。
分子描述符
要质量不要数量
表征物质结构的描述符有很多种,电子效应参数、疏水性参数、分子拓扑参数、量子化学参数。人们总是担心自己的描述符不够把物质表征全面,总是想计算出更多的描述符,即使Dragon软件可计算四千多个描述符,还是让人们觉得少了一些。事实上描述符少并不说明模型不好,线性溶解能模型从体积、极性和氢键受体几个方面就可以对物质的性质进行表征,水生生物毒性模型通常使用疏水性一个参数作为描述符。所以呢,QSAR是一个数学魔法,但如果对机理认识准确,几个描述符就足够了,质量比数量更重要。
建模算法
上一堂计算机课程
提到算法,真是一把辛酸一把泪。想当年为了学习各方建模的精髓,小liu翻阅大量文献,结果每天我的内心对话是这样的:MLR(多元线性回归)这个我知道,PLS(偏最小二乘)这个也了解,GA(遗传算法)这个是啥... Monte Carlo method (蒙特卡洛方法)这又是啥... ANN(人工神经网络)、random forests(随机森林)、discriminant analysis(判别分析)这些都是啥啊... 为了搞定这些“妖魔鬼怪”,小liu天天泡在CSDN上刷帖子,硬生生的从学环境的学生变成了程序猿。所以各位想在算法上创新的童鞋们,报个班吧,上一堂计算机课可能是最快的解决办法。
拟合度
增高的同时还要增增肥
“高点,再高点”,建模的人总是像盼着自己孩子身高一样盼着自己模型的R2比别人家高。小liu发现在很多文章中,对模型的表征只有R2和s, 还有很多参数没有表征,小liu有几个问题想问一下:不算R2adj,你确定模型真的好吗?没有Q2,你确定模型稳定吗?没有外部验证,你确定你这模型准确吗?学生要德智体全面发展,模型拟合度表征也不能偏废啊,所以希望新的一年里,各位在给R2增高的同时别忘了在其参数上增增肥。
应用域
做一次全国采访
应用域应该是最被人忽略的。具小liu的不完全统计,一半以上与QSAR模型相关的文献中,都没有对模型的应用域进行表征。模型建出来是要拿来用的,没有应用域让别人怎么用?不止是建模时被忽略,在模型应用时也经常被误解。小liu经常被客户问到:当初说这个性质可以算,那个性质可以算,为什么现在又说算不了了?小liu只好解释:因为你的这个物质特殊。。。不在现有的几个模型的应用域内。。。小liu心里苦但小liu不说,小liu只是希望能对应用域做一次全国采访,郑重的向大家宣布:应用域是模型应用的前提,应用域真的很重要,很重要,很重要。
机理解释
一台X光机器
模型的机理解释应该是建模中最具技术含量的了。从小分子的内外部性质到生物大分子受体的作用模式,各个方面都需要分析。每当有人问我这类物质的作用机理是怎么回事儿时,小liu特别希望身边有一个X光机器,这样就可以轻松的把这些性质里里外外研究个彻底。
他们的新年愿望许好了,你的呢?