今年以来,以“ChatGPT”为代表的人工智能技术在全球范围内掀起新的高潮,拉开了全球“人工智能”技术竞技的帷幕,引发了新一轮人工智能应用热潮,谁能率先落地,谁就能在此次人工智能革命中占得先机,成为时代变局的领航者。
值此之际,2023人工智能大模型基准测试科创发展大会暨中西部数字经济大会(下称“大会”)将于12月28日在成都市正式举办。
一方面,大会邀请权威机构及高校专家组建了“大模型基准评测专家委员会”,将对国内大模型开展评测工作,深入了解当前国内大模型的能力水平以及大模型企业发展情况。另一方面,头部企业、专家学者、国内权威标准制定机构等将在大会齐聚一堂,共同探讨行业发展趋势,搭建产业上下游沟通平台,推动大模型技术的进步。
日前,红星资本局邀请到澳门大学科技学院副教授、博导、澳门大学自然语言处理与中葡机器翻译实验室主任黄辉展开对话。
黄辉表示,目前国内大模型已进入增长阶段,但仍具有创新空间,不仅在生态构建和个性化服务方面可以进行探索,本地化能力也有改进空间,最后是大模型的可解释性和可控性研究,需要进一步解决人工智能技术存在的隐忧和伦理问题。黄辉认为,从监管角度来看,我们需要制定适用于人工智能的法规法律,并开展公众教育,以解决技术问题。
以下是对话实录:
国内大模型仍具有创新空间
可在生态构建和个性化服务方面进行探索
红星资本局:如何看待自ChatGPT诞生以来,全球人工智能行业大模型领域的发展现状?
黄辉:目前全球人工智能行业在大模型领域取得了显著发展,无论是基座模型还是基于基座模型二次开发的产品,都在不同程度上推动了各行业生产力的解放。例如,大模型在文档编辑、科研教学以及艺术创作等领域的应用,都极大地提高了工作效率和创造力。
红星资本局:今年国内科技企业进入了“百模大战”,目前国内大模型发展的现状和潜力分别是什么?与国外大模型相比,国内大模型还有哪些可以创新的空间?
黄辉:国内大模型已进入增长阶段,有智谱研发的ChatGLM2、百川智能研发的Baichuan等为代表的开源模型,也有以文心一言为代表的闭源模型,类型上以语言模型为主,基于多模态模型的探索较少,但我国一些头部科研机构和企业已掌握从预训练到有监督训练的全流程。与ChatGPT刚面市时相比,现在基座训练的障碍和门槛已基本消除,未来发展的潜力主要在于如何训练出能力更强的基座模型。
与国外相比,国内大模型还可以在生态构建和个性化服务方面进行探索。比如,ChatGPT已经构建了一个良好的开发者社区环境,用户可以基于自己的需要和喜好创作各种AI智能体,例如擅长语言翻译或精通金融领域的AI。国内大模型的本地化能力也有改进空间,国内大模型在数据资源方面有优势,可以利用大量中文数据进行训练和优化模型,使其更适应当下的国内市场需求。最后是大模型的可解释性和可控性研究,大模型需要进一步解决人工智能技术存在的隐忧和伦理问题。
专注机器翻译研究已取得成果
高校与企业的合作具有互补性
红星资本局:自然语言处理(NLP)是现代人工智能技术中不可或缺的一部分。过去五年,澳门大学在ACL上发表论文超过20篇,反映了澳大在自然语言处理研究的领先地位。如何理解自然语言处理研究?目前你带领的团队发表的研究成果主要有哪些?
黄辉:自然语言处理是计算机对人类语言的理解与生成的领域,总体目标是以人类方式理解和生成自然语言文本。NLP的研究可以根据目标和需求分为不同任务,如语言理解方面的情感分析和语义理解,以及生成方面的机器翻译、自动摘要和诗歌创作等。
我们的实验室专注于机器翻译研究,特别是低资源语言的翻译和评估,研究成果发表在ACL、EMNLP等顶级会议上。我们开发了首个“中葡通”和“在线中葡英辅助翻译平台”(UM-CAT),可以进行准确性极高的全文智能翻译、清晰疏理大型翻译项目的分工安排等,适合政府部门和企业使用,也服务于海外学习或使用中、葡文的用户。
我们的研究团队早在1998年就与清华大学合作,之后实验室逐渐形成,已有二十多年的经验。除了机器翻译研究外,我们还开展了诗歌创作和对话系统的科研工作,以推动中华文化的传播和跨语言交流。未来,我们的团队将继续在大模型时代推动机器翻译相关的研究,挖掘机器翻译在交互式人工智能领域的潜力。
红星资本局:我们知道,大模型需要基于产业场景,与企业数据融合,才能释放出最大价值。去年你带领的团队曾联合阿里巴巴达摩院翻译团队参加第六届世界顶级机器翻译大赛并夺冠,两个团队合力研发了多项技术。与企业的合作有哪些关键的地方?比起企业团队,高校科研团队的优势和不足分别是什么?
黄辉:企业和学术界具有互补性,在学术研究中,我们很难接触到实际场景中存在的问题。与阿里巴巴达摩院的合作不仅有利于扩展我们的研究视野,企业所拥有的丰富计算资源和数据资源,也为我们进行科研提供了参考。
与企业相比,高校的优势在于其环境相对稳定且自由度较高,我们的团队通常能够获得长期经费和设备的支持,使我们能够进行连续、系统性的研究工作。此外,我们注重前瞻性的理论研究,也注重长期的研究目标和发展方向,不会受到短期利益的影响。但同样地,我们也缺乏实际应用场景的经验,会遇到计算资源不充足、难以训练大型模型的问题,这些限制了我们在选择实际研究课题时的广度。
要推动人工智能技术的合理应用和社会责任的落实
评测榜单对高校与企业都有积极意义
红星资本局:此次举办的大会将对行业带来哪些影响?本次大会将颁发2023人工智能大模型评测榜单,榜单主要分为应用创新榜单和基础创新榜单,为什么选择这两个方向发布榜单?
黄辉:本次大会为行业内的交流合作提供了重要平台。通过评测榜单的发布,企业可以吸收先进的科技成果,推动技术进步。同时,学术界也可以通过与企业的合作,实现科技成果的转化和应用,共同推动人工智能技术的发展。本次大会也将促进社会各界对人工智能技术的关注和认识,推动人工智能技术的合理应用和社会责任的落实。
这两个榜单分别代表大模型的不同研究维度及相关能力。基础创新榜单是检验模型本身,主要关注基座模型的训练效率、模型架构的设计、人类意志对齐等方面,包括其理解能力、推理能力、倾向性等,直接影响大模型开发应用系统化的性能。应用创新榜单主要聚焦在基座模型之上的应用扩展能力,检验在基座模型里针对不同场景、垂直领域进行二次开发的能力,比如可以用于语言翻译、心理辅导、法律条文咨询或生物医药等方面。
榜单的发布对学术界和企业都有正面的影响。基础创新榜单可以用于探索大模型的基础算法,帮助科研人员进行模型的开发和迭代优化。应用创新榜单能够让企业在开发垂直领域应用的时候进行参考,举例来说,科大讯飞的模型可能在教育领域表现较强,阿里的模型则可能在电商方面更有优势,普通用户也可以根据榜单来选择哪个模型适合自己。大模型的能力评估一直是个难题。重要的是,目前还没有一个权威、独立的机构来进行评测,这个榜单可以作为参考。
人工智能治理需各方共同努力
利用大模型特性改进翻译技术值得研究
红星资本局:人工智能的发展和治理是复杂性高、影响面广的社会议题,全球都非常重视人工智能治理问题。在你看来,人工智能会有哪些潜在风险?监管应从哪些方面着手?
黄辉:人工智能的发展可能导致传统行业受到冲击,部分岗位被取代,尤其是重复性较强的工作。其次,大模型使用了大量数据进行训练,可能包含个人信息,如果这些信息被不法分子获取,可能会导致隐私泄露。不法分子还可能利用人工智能生成虚假图片、视频或文字内容,给安全和隐私带来重要问题。此外,大模型生成的结果可能带有社会偏见或歧视。随着人工智能系统变得越来越复杂和自主,控制失效的风险也越来越大。
从监管角度来看,我们需要制定适用于人工智能的法规法律,并开展公众教育,以解决技术问题。具体而言,在法治体系中,国家政府应设立专门机构或组织来监管人工智能,包括制定以及更新相应的技术监管法规。在公众教育方面,应向大众普及人工智能及相关法规法律知识,提高用户对人工智能技术的正确认知和使用。技术监管方面,政府、学界和企业应合作保障模型训练和执行环境的安全性。
红星资本局:随着技术快速发展,人工智能应用领域也在不断扩大。未来,你和团队还将进行哪些探索?
黄辉:在实验室,我们进行了很多自然语言处理的基础研究工作,我们发现,大模型的出现并没有解决很多自然语言问题,反而带来了新问题。其中一个值得研究的领域是,在大模型的支持下,如何利用大模型的各种特性进一步开展工作,改进翻译技术。这有几个方向值得探讨:一是多模态翻译,结合文本、音频、视频和图像;二是交互性,结合大语言模型的互动能力来优化翻译过程,比如我们正在做的工作“人在闭环”(Human-in-the-loop)技术,作为一种融合人类与人工智能的新型工作模式,让人类介入模型决策过程,可以帮助人工智能纠正错误并更好适应人类的决策偏好;三是针对低资源语言的翻译,解决语言资源稀缺问题;四是围绕汉语为核心的翻译研究,拓展发展空间。最后,大模型幻觉生成和评测基准也是我们关注的方向。