现有机器学习技术往往依赖于封闭环境假设,即假定学习过程中涉及的诸多要素保持不变。然而,现实学习任务面临的环境是开放的,各种学习要素可能会随时间发生变化。因而, 如何使机器学习适应开放环境成为重要的研究问题

封闭环境机器学习中的典型变量

近期,南京大学周志华教授在《国家科学评论》(National Science Review,NSR)发表题为“Open-environmentMachine Learning”的文章,对开放环境机器学习(简称Open ML)的研究内容进行了界定,并对相关进展进行了回顾总结。

具体而言,文章明确了开放环境机器学习面临的 四个主要挑战 ,并分别介绍典型的应对思路。

以森林病虫害预测任务为例:

1. 标记集合发生变化 随着时间推移,可能会有新的病虫类型出现。针对该类问题,典型应对思路包括:先通过异常检测技术对潜在新类别进行识别,再进一步精化将其加入标记集合进行增量学习。

2. 特征空间发生变化 森林部署的数据监测传感器由于寿命有限,研究人员需要在其失效前加装新的传感器以保证有效的监测,这将导致特征空间发生变化。针对该类问题,典型应对思路包括:利用新旧特征共存时的数据学习特征之间映射关系,从而使旧模型在新空间也能发挥作用。

3. 数据分布发生变化 夏季绿叶茂盛,而冬季叶萎雪积,直接利用旧分布上训练出的模型可能无法在新任务上取得良好性能。针对该类问题,典型应对思路包括:利用滑窗或遗忘法降低历史数据在学习目标中的权重,构建多个分类器并采用集成学习等手段缓解分布变化带来的影响。

4. 学习目标发生变化 随着收集数据的增多以及模型准确率的提高,学习目标可能由追求更高的准确率变更为追求更低的耗电量。针对该类问题,典型应对思路包括:考察不同学习目标之间的相关性,将旧模型输出作为基础,复用相应模型以优化新的学习目标,实现学习目标的快速切换。

文章还对建立开放环境机器学习理论进行了探讨并给出了初步框架。

作者认为,亟需研究能够适应开放环境的机器学习理论与方法,这将为提升和保障人工智能系统的稳健性提供关键技术支撑。