进行了一段时间对于可解释机器学习技术的调研和尝试,觉得这是一很有潜力的方向。
然而令人遗憾的是,这个社区过于庞大以至于很多文章在缺少问题精确定义的基础上对于可解释技术进行了标准不一的论述;这里,我们希望区分于已有的可解释综述分类方法,提出一种更加聚焦应用的研究社区,即 归因机器学习 。归因一词在心理学、互联网广告的归因分析(Attribution Analysis) 等领域已有相当程度的应用,具体来说就是对给定某个结果的原因进行解释和说明,形成一种符合人类认知推理的逻辑论述:因为...给出了...的结论。而我们所定义的归因机器学习,是对复杂机器学习模型(特别是深度学习等黑箱模型)给出单个预测样本级别的证据解释支持,并详细论述输入端到输出端的关联或因果关系;这种聚焦于单个instance的解释在可解释社区可以归类于local级别的解释技术(即区别于对于模型全局的结构或偏置进行解释)。
接下来我们将不定期更新归因机器学习的分类、方法学和具体论文分析笔记。