吴超:深度学习在时空建模上的应用

发布者:苏超发布时间:2018-06-14浏览次数:914

深度学习是机器学习的一种,两者之间是有区别的。机器学习的目标在于建立模型来刻画自变量X和因变量Y之间的关系,不同的模型代表着不同的应用,比如如果X是中文单词,Y是英文单词,那么这一模型实现的就是翻译功能。建模的方法有很多种,可以依据已有经验,也可以“拍脑袋”进行构造。但是以上方法往往需要通过人工构造,然而人并不能充分理解事物之间的关系,因此,机器学习不通过人工构造模型,而是在大量数据的基础上,执行某一任务T,并实现相应的效果P,通过不断对数据的学习E,提高现有的P。机器学习的基本元素,包括大量数据的训练、模型的表达、cost function以及优化cost function的方法。模型的表达,可以是线性的,可以是非线性的,比如神经网络;cost function衡量预测值和真实值的差距,是参数的函数,因此可以通过最小化cost function,优化模型,原理上这一优化可以通过对参数求导得到,但是多数情况下并不能直接求导得到显式解,因此多运用梯度下降方法。机器学习根据因变量Y的类型可以分为分类问题和回归问题;根据有无因变量Y可以分为监督问题和无监督问题,常见聚类问题就是无监督问题。目前非监督学习能力较弱,但是实际生活中更多的是非监督问题。

相较而言,机器学习是一个老旧的概念,分析学习能力较弱。因此,神经网络的建模方式在8090年代得以提出。其核心在于对人的神经网络的模仿,通过大量的简单网络,组成复杂结构,完成复杂的操作的学习;其最大的好处在于,可以更好的处理非线性关系,同时结构在不同领域和学科背景下都通用。在当时的技术背景下,神经网络应用的关键问题在于网络结构超过两层便无法进行训练。直到2009年,Google的首席科学家通过固定神经网络其他层、训练某一层的方法进行了技术革新,通过运用这种方法,神经网络最多可以有上百层,可以自己学习出更多规律,相应提取的特征也越来越多,因此也被称作深度学习。

在实际研究分析中,建立的模型往往面临着拟合度和通用性之间的权衡,模型既不能太复杂,也不能太简单。对于神经网络模型来说,由于往往需要采集大量数据才能学习,因此过拟合的风险较小。但是存在的数据不经济的问题,可以通过与经验模型的结合得以改善,即运用经验模型将数据推演到无法解释时,再运用神经网络进一步拟合。常用的神经网络模型涵盖CNNRNN等,分别对应解决空间和时序问题。

神经网络已经在公共管理中的得到应用,比如,通过对病人数据的建模,结合当年的气候等条件,预测医疗系统中照护资源的需求,以便提前规划,合理安排;也可以通过对留守儿童的分析,考察外出打工的父母将儿童留在老家的因素有哪些。但是这些研究存在的问题是,其研究结果由于只是展现了变量之间的相关关系,并未揭示相应的因果联系,因此不能采取相应干预措施。

当下的技术创新可分为三类。一类技术创新是通过建立对抗网络,让模型之间进行对抗,即一个模型生成小鸟的图片,一个模型判断图片是否是小鸟,来实现更好地定义cost function。一类技术创新是改进目前研究中缺乏带标记的数据,以生成和获得更多的数据。还有一类技术创新涉及到数据的隐私和安全问题,神经网络模型都是中心化的,但是secure NN的技术可以将提供的数据进行加噪音等预处理,并测算出每一个数据点的贡献,使得这些数据既不需要保持原有形态,也不影响后续建模分析。这一创新有助于保护用户或者病人的隐私,也有助于为数据的所有权提供产权保护,促进数据所有权的市场化。


(行政管理研究所 彭莹供稿)