全球治理高级别会议日前在上海闭幕。尽管连日高温,线万人次,较上届增长近一倍,创历史新高。
身处比天气还要火热的现场,很多人可能都会思考一个问题:今天,我们需要什么样的大模型?
复旦大学浩清特聘教授、上海科学智能研究院院长、可信大模型公司“无限光年”创始人漆远认为,“灰盒”可信大模型是通用发展的重要方向。
漆远刚从美国回来的时候,做的第一个项目就是一个基于尺度定律的项目。那时的广告业务系统是互联网公司的核心利润来源之一,当时的模型参数只有200万左右。“我们提出要做2亿参数,足足提升了100倍,要把数据规模从14天的数据变成半年的数据,数据特征也会大规模增加。于是,我向阿里集团要了几千台服务器,投入了这么大的计算资源,得到了非常好的效果。我们当时的确看到了尺度定律的好处,模型参数提升了100倍之后,整体效果得到了突飞猛进的提升。”
然而,漆远认为,大模型领域的“金科玉律”——尺度定律虽然大大改变了人工智能,但达不到通用人工智能的程度。依靠海量数据的压缩和归纳总结,可以达成快思考(神经网络预测),但是缺乏慢思考(逻辑推理)。虽然尺度定律目前仍有工程上的红利,但若持续沿用现有架构,将构成天量的功耗,并非有效且聪明的计算。
通用人工智能的最高目标之一,就是通过人工智能发现复杂世界的未知规律。当前的大模型都高度依赖于数据,包括数字世界和物理世界的数据,而未知规律往往缺少的支撑。
要实现这一目标,需要结合神经网络的“黑盒”和逻辑推理的“白盒”,打造“灰盒”可信大模型。通过融合科学规律、观测数据和合成数据,发现复杂世界的未知规律。
“‘黑盒’和‘白盒’是两个极端,但世界不只有黑和白,我们既不想所有的场景都是完全的黑盒子,也不是所有的地方都能白盒化。”漆远举例说,一方面金融、医疗等行业里人工智能需要白盒化的可控性和解释性,另一方面,下围棋的“阿尔法狗”学习了人类棋谱里所有定式,但在中局时走出的精妙一步,震惊了所有看比赛的专家,因为从人类的思考来看,根本不应该走这步棋,这对人类是不可解释的。
这就需要思考,究竟哪些是数据本身发挥了作用,且能更好地模拟复杂的现象?未知规律有时并不简单,比如生物体、金融都是多层次的复杂体系,是非线性过程,并非一个简单公式能确定。
“智能有可解释的地方,也有不可解释的地方,既有‘白盒’,也有‘黑盒’,把它们融合在一起就是‘灰盒’大模型。能解释的地方,我们要尽量注入知识和规则,比如科学的机理和金融监管的规则要求,同时要把数据的力量发挥出来。”漆远说,深度学习是数据的拟合,但是规则和知识可以外插到缺少或者没有数据的地方,有更好的扩展性。当规则、知识和关键数据矛盾,可以调整知识规则,就像爱因斯坦把有限的物理数据、他自己头脑实验的合成数据(比如坐着光会看到什么样的宇宙)和黎曼几何结合起来,把牛顿力学扩展到了刻画宏观宇宙的相对论。
于需求视角而言,当下大模型行业面临诸多共性挑战,使得技术、产品与市场需求难以匹配。
“将符号计算与神经网络相结合的‘灰盒’可信大模型,可降低人工智能的‘幻觉’,解决垂直领域专业问题,从而赋能千行百业,释放大模型的生产力。”漆远说。
在专业领域,IM电竞网站几百亿参数的可信大模型能和万亿参数的大模型媲美,甚至超越它。“我们做的正是结合场景的垂直领域可信大模型,已经在金融、医疗领域取得了一些成果。”漆远认为,如果让一个大模型过度学习不相关的任务,可能会发生“灾难性遗忘”,就像李白如果整天做会计而不写诗,他的诗歌灵感可能也会逐渐消退。“我们观察到,在训练垂直领域的大模型时,如果让模型学习过多不相关的功能,会对其原有的能力产生干扰。同时,就像一个医生不必是一个金融投研人员,一个金融投研人员不必是一个律师,在产业落地时,不必追求一个所有事都能做好的通用大模型,而是做好不同垂直领域的‘灰盒’大模型,让其可靠可解释,可以释放其生产力工具的巨大价值。”
因此,由上海市统筹指导、深入布局、强力支撑的战略性新型研发机构——上海科学智能研究院,聚焦科学智能前沿技术创新与场景落地,以人工智能驱动科学研究范式变革为使命,致力于打造世界一流的科学智能前沿创新策源地。
在气象领域,上智院发布了面向新能源、保险、城市管理等产业应用的伏羲系列气象大模型,基于人工智能技术极大提高了天气预报的准确性,并能极端天气现象。同时,伏羲次季节气象大模型将天气预报周期延长至60天,并入选成为中国气象局的三个官方气象大模型之一;在医药领域,在DNA长文本分析和蛋白质动态建模上取得突破,并将与企业合作研发RNA大模型,预测RNA结构和功能,加速RNA疫苗研发,促进核酸药物设计。
而在数据领域,上智院主导开发了面向生命科学、物质科学和大气科学等领域的科学数据平台,具备从数据采集、加工到管理和建模的全链路能力,保证数据的高效加工、可信和安全互通。
人工智能正以前所未有的深度与广度,重构着科学研究的边界与产业发展的格局。
“今天社会需要的不仅是理论文章的发表或商业模式的创新,而是科技创新与产业创新深度融合,是第一性原理驱动、社会需求牵引的全链条创新。这个融合不容易,但是难行的路从不拥挤。”漆远说。
在2024世界人工智能大会上正式亮相的可信光语大模型,正是一个好的技术和社会需求相融合的体现。尽管其参数只是百亿级,但在4个逻辑推理数据集的准确率都超越了万亿级的GPT4-Turbo大模型。落地医疗和金融场景的可信光语大模型把行业逻辑与神经网络融合,在特许金融分析师测试数据集上超越GPT4-Turbo,在权威医疗数据集MedBench上,API和自测榜双榜第一。
“希望把‘大学—研究院—初创企业’的创新链条打通,营造一个好的创新生态,不仅思考底层技术,也要抓紧市场需求。以市场需求和场景牵引产品方向,从底层创新打造产品核心竞争力。IM电竞网站”漆远说。
2021年底,时任蚂蚁集团首席AI科学家、AI委员会主席的漆远重返学界,任复旦大学浩清特聘教授。到了复旦大学后,他做的第一件事,就是在学校大力支持之下,构建了国内高校最大的云上智算平台,推动了学校科学智能的工作。2023年,他出任新型研发机构上海科学智能研究院首任院长。科研能不能落地?2023年5月,他创立了可信大模型公司“无限光年”。从学界到工业界,再到学界,再推进技术落地,漆远将这些独特的经历比作“人生的一个闭环”。
谙熟学界和工业界的他认为,学界或研究院和公司有着不同的使命,学界要探索新事物,工业界首先要解决实际问题。“今天缺的恰恰是把它们真正地融合在一起。如果能真正地把底层创新和产品落地联系在一起,而不是把它们割裂,会有更大价值。”漆远说。基于底层技术创新的产品和服务是中国今天所需要的,也是全世界正走向的方向。但技术、产品和市场需求是紧密结合的,技术本身和要解决的需求问题要适配,否则底层技术不匹配,再怎么调整产品功能点去抓用户需求,调整产品界面去提升用户体验,都不能解决真正的问题。就像一个传统油车再怎么优化引擎和车身也不会从根本上解决其油耗带来的环境和能源问题。
研究机构需要研究很多技术创新问题,但如果完全忽略产品化的思路、忽略社会需求,会有两个短板:缺乏真正的竞争压力,无法在竞争中锤炼创新技术;没有有效的市场信息反馈来牵引技术研发的方向。
今天的科技时代呼唤着能把底层人工智能技术创新和需求引导的产品研发连接起来的创新链。为此,上智院牵头发起了智能气象创新生态联盟,联合多家单位正逐步推进伏羲系列气象大模型在等行业的产业化应用。
在ChatGPT出现以前,人们对于“通用人工智能是否会很快到来”,意见不一。有的人认为是5年,有的人认为是10年或50年,还有的人甚至认为永远都不会实现。ChatGPT出现以后,大家普遍认为通用人工智能来临的时间会比以前想象的近很多。
“如今,这个话题都出圈了,以前只是技术行业比较关心,现在可以说每个行业都非常关心。”漆远说,人工智能技术本身是不是在走向真正的市场,是不是在走向通用人工智能,这两个问题是他非常关心的。
究竟什么是通用人工智能?“一个非常好的智能标准就是爱因斯坦。第一是发现理解复杂物理世界并发现未知规律。这一点今天的通用人工智能还没有做到,大视觉模型SORA虽然是对物理世界的模拟,但是其与理解物理世界还有很长的距离。第二是功率。一个人大脑的功率大概是15瓦,爱因斯坦特别聪明,算他20瓦、30瓦,但一个电灯泡的功率就有60瓦,一张英伟达的GPU卡峰值功率为几百瓦,爱因斯坦的大脑功率远远低于一个支持训练通用大模型的万卡集群。”漆远认为,除去情感和价值观的智能,如果要给通用人工智能下一个简单而又形象的定义,那就是“人工智能的爱因斯坦”。
打造“人工智能的爱因斯坦”也是科学智能的关键目标。漆远说:“我在复旦大学和上海科学智能研究院工作的长远目标,就是用人工智能来理解复杂世界,发现不知道的规律。”
据悉,为进一步繁荣科学智能生态建设,在上海市科委、上海市发改委、上海市经信委、上海市教委的指导下,上智院和复旦大学共同主办的世界科学智能大赛,于2023年首次举办,共吸引全球18个国家和地区的11000余人报名参赛。今年的第二届大赛也已开启,设置了五大赛道向全球选手发起招募。