人或组织无时无刻不在面临各种决策,大数据为决策的优化带来巨大帮助。而要让不会说话的数据变成决策的帮手,就需要用到优化建模的方法,这正属于著名数学家、中科院院士袁亚湘研究的范畴。
12月16日上午,袁亚湘以《“智能决策”背后的大数据与优化》为题,在深圳创新发展研究院“科技创新院士报告厅”做科普讲座。整场讲座深入浅出,既让听众感受到“数学之美”,也引发许多关于大数据应用的思考。
袁亚湘1981年毕业于湘潭大学,26岁获英国剑桥大学博士学位;现任中国科协副主席、国际工业与应用数学联合会主席;主要研究非线性最优化计算方法,在信赖域法、拟牛顿法、非线性共轭梯度法、子空间方法等方面做出了重要贡献。他在非线性规划方面的研究成果,在国际上被命名为“袁氏引理”。
大数据问题即优化问题
“我不是做大数据研究的,但数学的很多领域都跟大数据有关,比较传统的是统计、计算和优化。”袁亚湘开门见山说道,“优化是我的研究领域,所以我想谈谈优化跟数学的关系——大数据可以用优化来建模。”
“数据往往有一个观察值。比如企业有很多数据,企业老总从中发现什么问题,得出什么结论,这就是数据的观察值,也是数据的本质问题。从数学研究的角度来说,就是数据的对应关系,即函数。研究数据本质上就是找对应关系,通过写出一个函数,让两个东西的误差最小,这就是优化的问题。”袁亚湘进一步解释。
袁亚湘举例,人们拍照既希望图像尽可能清晰,又希望所需要的存储空间尽可能小,这就是优化。这个问题说起来是工程问题,实际上最后可以转换成数学问题,变成解线性方程组的问题。再比如,同类型的观众会对电影给出相似的评分,通过分析数学语言矩阵,可以推测出不同观众的打分结果,从而指导电影制作,这也是大数据在优化上的应用。
“总而言之,很多大数据问题都可以归结到优化问题。优化无处不在,用通俗的语言来讲,优化就是在多种选择中挑选最好的一种。”袁亚湘说。
“中国人对优化、运筹的运用,最著名的例子是古代的田忌赛马。山还是那座山,马还是那三匹马,不同的对阵安排,却可以得到截然不同的结果。”袁亚湘进而给听众送上一碗“鸡汤”,“生活中我们每个人都会抱怨自己的资源不够,实际上,优化、组合会让结果产生本质的差别,很多问题都取决于我们是否作出了最优的决策。”
而近现代中国在优化理论应用上的代表性人物,袁亚湘认为首推数学家华罗庚。华罗庚曾向全国的工厂、医院、矿场大力推广优选法,对当时的国家经济建设做出了重要贡献。
优化方法论
关于优化的方法,袁亚湘一一为听众科普。
首先是梯度法,就像爬山,优化与爬山都是求“最”值,爬山是要到达海拔“最高”,优化是要求结果“最好”,沿着最陡的方向就能爬到最高点。”袁亚湘形象地阐释。
优化还可以采取“交替方向”法。“你要做决策的问题涉及很多变量,所谓交替方向就是在不同阶段、不同时间只取一个变量,轮流推进解决问题。相当于一个大企业,涉及很多分公司,老总每次只关心其中一个,把一个问题解决。”袁亚湘解释。
如果一个问题涉及两个部分,同时两部分互不耦合,则可以用可分离的优化办法。袁亚湘举例,一个围棋棋盘上布满不规律的黑白两种棋子,要清点总数,最快的办法是两人同时各数一种颜色的棋子。“相当于一个优化问题有两部分求极小,这两部分是不相干的,可以同时做,每一部分都变成一个小一点的问题。”袁亚湘说,“现实生活中也是这样,一个大项目可以分成两个子项目,两个子项目不相关,变成两个小问题,所以大问题可以转换成小问题。再小的问题还可以继续分解。”
子空间也是处理优化问题的常用方法,袁亚湘说:“大数据问题和高度复杂的问题都是超高维的问题,所谓子空间方法就是把大参数问题转换到低维空间求解,使问题简单化。”
目前人工智能、机器学习使用非常多的一种优化方法是随机梯度法。袁亚湘解释,比如政府管理一个城市,每个市民的平均诉求得到满足是最好的。但是不可能把每一人的诉求都加起来,这时就可以随机挑一些,取平均值,取子集,用部分来代替整体,这就是随机梯度法的基本思想。
此外,随机技术、多目标优化等,也是生活中常用的优化方法。“世界上任何决策都是优化问题,虽然你不会用数学公式去推导怎么做决策,但是你要有这个意识,一定要用优化的思想武装我们的头脑。”袁亚湘说。
直面科技差距
有听众提问,优化理论落地和创新面临什么样的挑战?对此,袁亚湘回答,优化理论用到实际中可以产生巨大效益,但是它离真正落地还有很大距离。“这也要求我们做科学研究的要跟做技术研究的、甚至跟企业家更加紧密地合作。国家现在鼓励更多科技工作者做落地,包括中国工业与应用数学学会也非常鼓励科学家做落地。一方面希望科学家走出实验室,跟企业、跟产品合作;另一方面,也希望企业家碰到企业发展的问题,主动跟科学家讲。两方面互相努力,就能促进优化企业、产业之间的合作。”袁亚湘表示。
另有听众提问,数字经济时代,算法与算力竞争十分关键,目前在这方面中国相比发达国家有何优势与劣势?
袁亚湘用中国人熟识的算盘来解答这一问题。他说,我们国家造计算机的能力一直处在国际前列,相当于我们的算盘造得很好,但是打算盘是不是打得最好,目前看来还有差距。打算盘要编口诀,计算机的口诀就是算法,计算机应用、大数据处理、大模型、人工智能,最终是需要算法支撑的。
袁亚湘进一步回答,中国对算法的研究在国际上也属于比较先进的,但并不是最领先。“我们在理论研究、算法构造方面不弱于欧美,但是在把算法变成软件方面落后了。从方法到算法,从程序到软件,中间有一个gap(鸿沟)”。袁亚湘说。
袁亚湘认为,相比发达国家,我们在科学方面落后不多,在技术方面落后较大,到工程方面落后更大,这可能跟科技体制有关。“基础软件方面涉及科技体制更深层次的问题,一方面国内研究所的评价体系不鼓励做,另一方面企业又没有能力、没有政策支撑去做。这是一个重要的问题,值得我们去思考,去面对。”袁亚湘最后说。