
十年前,当时世界上最先进的人工智能系统对图像物体的识别分类能力远不及人类,理解自然语言仍相当困难,也无法解决数学问题。如今,AI在标准测试集上的表现大多能超越人类。
人工智能在2023年获快速发展,GPT‑4、Gemini、Claude3等新涌现的先进模型令人惊叹:它们可以生成几十种语言的流畅文本,实现语音处理,甚至可以解释梗图。AI随着其发展越来越广泛地进入我们的生活,各家公司在竞相打造基于AI的产品,普罗大众也使用AI越来越多。但当前的AI技术仍存在能力不足,当前仍非百分百可信,无法进行复杂推理,也无法解释推理结果。
随着技术不断进步并得到更广泛的应用,AI将对生产力和就业产生重大影响。它可以有积极的应用,也可能被恶意利用。各国政府也越来越关注AI,正在推进引导AI积极发展,例如资助大学研发以及激励私募投资。同时政府也努力把控潜在的负面影响,例如就业影响、隐私问题、失实信息、知识产权。
为了帮助AI社区、政策制定者、商业领袖,以及社会公众能了解全貌,斯坦福大学HAI研究所(Stanford Institute for Human-Centered Artificial Intelligence)连续多年发布年度人工智能发展指数报告,从技术进展、舆论观点、政策等方面进行相对全面的跟踪呈现。
在技术方面,今年的发展指数报告指出2023年全球范围内发布的大语言模型同比翻了一番。其中,2/3是开源的模型,但那些性能最好的模型来自于使用封闭系统的业内玩家。Gemini Ultra成为第一个在大规模多任务语言理解(MMLU)标准测试集中表现达到人类水平的大语言模型。此外,GPT‑4在综合语言模型整体评估(HELM)基准(包括MMLU等评估)中取得了惊人的0.96平均胜率得分。
尽管全球人工智能私募投资连续第二年下降,但生成式人工智能的投资却猛增。财富500强企业的财报电话会议中提到AI的次数比以往任何时候都多,新的研究显示AI切实提高了工人的生产。
在政策制定方面,全球立法程序从未如此频繁地提及人工智能。美国监管机构在2023年通过的AI相关法规比以往任何时候都多。尽管如此,许多人仍对AI逼真的伪造能力和影响选举的能力表示担忧。公众对AI的了解越来越多,调查显示他们感到不安。
报告具体要点整理如下:
一、研发
1.产业界继续主导人工智能前沿研究。2023年,产业界诞生了51个令人关注的机器学习模型,而学术界仅贡献其中15个。2023年,产学合作产生了21个令人关注的模型,再创新高。
2.更多的基础模型及更多的开源模型。2023年,共发布了149个基础模型,是2022年发布数量的两倍多。在这些新发布的模型中,65.7%是开源的,而2022年仅为44.4%,2021年仅为33.3%。
3.前沿模型训练成本变得更加高。根据AI发展指数估计,尖端的AI模型的训练成本已达到前所未有的水平。例如,OpenAI的GPT‑4为了训练使用了估计价值7800万美元的计算支出,而Google的Gemini Ultra的计算成本为1.91亿美元。
- 顶级人工智能模型主要来自于美国。2023年,61个令人关注的AI模型源自美国机构,远远超过欧洲联盟的21个和中国的15个。
5.人工智能专利数量猛增。2021年至2022年,全球AI专利授权量大幅增长62.7%。自2010年以来,AI专利授权量增长了31倍多。
6.中国在人工智能专利方面占据领先地位。2022年,中国以61.1%占比排名全球AI专利来源区域第一,大幅超过美国(占AI专利来源的20.9%)。自2010年以来,美国AI专利已从54.1%占比逐渐下降。
7.开源人工智能研究呈爆炸式增长。自2011年以来,GitHub上AI相关项目的数量持续增长,从2011年的845个增长到2023年的约180万个。值得注意的是,仅2023年,GitHubAI项目总数就大幅增长了59.3%。GitHub上AI相关项目的Star总数在2023年也显着增加,从2022年的400万增加到1220万,增加了两倍多。
8.人工智能出版物数量持续增加。2010年至2022年间,人工智能出版物总数几乎增加了两倍,从2010年约88,000篇增加到2022年超过240,000篇,去年微增1.1%。
二、技术能力
1.人工智能在某些任务上超越人类,但并非全部超越。AI在多个标准测试集上已经超越了人类的表现,包括图像分类、视觉推理和英语理解方面的一些测试集。但AI在竞赛数学、视觉常识推理和规划等更复杂的任务上仍落后于人类。
2.多模态人工智能到来。传统上,AI系统的能力范围有限,语言模型在文本理解方面表现出色,但在图像处理方面却表现不佳,反之亦然。但最近强大的多模态模型发展起来,譬如Google的Gemini和OpenAI的GPT‑4,这些模型灵活适配,能够处理图像和文本,在某些情况下甚至可以处理音频。
- 出现更严格的标准测试集。AI模型在ImageNet、SQuAD和SuperGLUE等既定标准测试集上性能已达到饱和,促使研究人员开发更具挑战性的标准测试集。2023年,出现了几个具有挑战性的新标准测试集,包括用于编程的SWE‑bench、图像生成的HEIM、一般推理的MMMU、道德推理的MoCa、主体行为的AgentBench和失真的HaluEval。
4.更好的人工智能意味着更好的数据,这意味着进一步更优的人工智能。诸如SegmentAnything和Skoltech等新的AI模型用于生成图像分割和3D重建等任务的专用数据。数据对于AI技术的提升至关重要,使用AI创建更多数据可以增强模型能力,并为未来的算法改进,尤其是更困难的任务,铺好道路。
5.人类评估正逐步参与进来。随着生成模型生成高质量的文本、图像等,标准测试已慢慢开始转向结合人类评估(如ChatbotArena排行榜),而不是计算机化排名(如ImageNet或SQuAD)。公众对AI的看法正在成为跟踪AI进展一个越来越重要的考虑因素。
6.得益于大语言模型,机器人变得更加灵活。语言建模与机器人技术的融合诞生出更灵活的机器人系统,例如PaLM‑E和RT‑2。除了提升机器人能力,这些模型还可以提出问题,意味着机器人向更有效地与现实世界交互迈进。
7.更多智能体技术研究。创建智能体,即特定环境下自主操作的系统能力,长期以来一直是计算机科学家面临的挑战。但新的研究显示智能体的性能正在增强。目前的智能体现在可以掌握像Minecraft这样的复杂游戏,并有效地执行现实世界的任务,例如在线购物和辅助研究。
8.封闭大语言模型的表现明显优于开源大语言模型。在10个选定的AI标准测试集中,封闭模型的性能优于开源模型,平均性能领先24.2%。封闭模型和开源模型的性能差异对人工智能策略讨论具有重要影响。
三、负责任的人工智能
1.缺乏对大语言模型责任健全、规范的评估。人工智能发展指数的新研究显示,负责任的人工智能报告严重缺乏标准化。包括OpenAI、Google和Anthropic在内的领先开发人员主要根据不同的负责任的AI标准测试集测试他们的模型。这种做法使得系统地比较顶级AI模型的风险和局限性的工作变得复杂。
2.容易产生政治舞弊且难以检测。政治舞弊已经影响了世界各地的选举,最近的研究显示现有的AI伪造方法呈现出不同程序的准度度。此外,CounterCloud等新项目展示了AI能如何轻松地创造并传播虚假内容。
3.研究人员发现大语言模型中更复杂的漏洞。此前,红队AI模型的大部分努力都集中在测试人类直观的对抗性提示。今年,研究人员发现了一些隐晦的策略让大语言模型表现出不当行为,比如要求模型无限重复随机单词。
4.人工智能带来的风险正在成为全球企业关注的问题。一项关于负责任人工智能的全球调查强调,企业最关心的AI相关问题包括隐私、数据安全和可靠性。调查显示,企业开始采取措施降低这些风险。然而,全球范围内大多数公司迄今为止仅降低了其中一小部分风险。
- 大语言模型可以输出受版权保护的内容。多名研究人员表示,流行的大语言模型生成的输出可能包含受版权保护的内容,例如《纽约时报》的摘录或电影中的场景。此类输出是否构成版权侵权正在成为一个核心法律问题。
6.人工智能开发人员在透明度方面得分较低,影响研究。新推出的基础模型透明度指数显示AI开发者缺乏透明度,特别是在训练数据和方法论的披露。这种开放性的缺乏阻碍了进一步了解AI系统的健全性和安全性的进展。
7.难以分析人工智能的极端风险。在过去的一年里,AI学者和从业者之间关于直接模型风险(例如算法歧视)与潜在的长期存在威胁进行了激烈的争论。很难区分哪些主张是有科学依据并且应该为政策制定提供信息。
8.人工智能事故数量持续上升。根据追踪AI滥用相关事故的AI事故数据库,2023年报告了123起事故,比2022年增加了32.3%。自2013年以来,AI事故增长了20多倍。一个著名的例子由AI生成的泰勒·斯威夫特(Taylor Swift)的露骨色情伪造照片在网上广泛传播。
9.ChatGPT存在政治偏见。研究人员发现ChatGPT显著偏向美国民主党和英国工党。这一发现引发了人们对该工具可能影响用户政治观点的担忧,特别是在全球重大选举的一年中。
- 经济
1.生成式人工智能投资猛增。尽管去年AI私募投资总额有所下降,生成式人工智能的投资却大幅增长,比2022年增长了近八倍,达到252亿美元。生成式人工智能领域的主要参与者包括OpenAI、Anthropic、Hugging Face和Inflection等都声称已进行了大量融资。
2.处于领先地位的美国在人工智能私募投资方面领先优势更显著。2023年,美国的AI 投资达到672亿美元,比第二大AI投资区域中国多近8.7倍。自2022年以来,中国和包括英国在内的欧盟AI私募投资分别下降了44.2%和14.1%,而同一时期内美国则显着增长了22.1%。
3.美国和全球范围内的人工智能工作机会减少。2022年,AI相关职位占美国所有职位发布的2.0%,这一数字到2023年下降至1.6%。AI职位发布比例的下降源于头部人工智能公司职位的减少以及这些公司内部的技术职位比例的下降。
4.人工智能降低成本并增加收入。麦肯锡的一项新调查显示,42%的受访组织表示实施AI(包括生成式人工智能)降低成本,59%受访组织表示收入增加。与上一年相比,表示成本下降的受访者增加了10个百分点,AI正在推动业务效率的提高。
5.人工智能私募投资总额再次下降,新投资人工智能企业数量增加。全球AI私募投资连续第二年下降,但降幅小于2021年至2022年的大幅下降。新融资的人工智能公司数量激增至1,812家,较上年增长40.6%。
6.人工智能组织使用率上升。麦肯锡2023年的一份报告显示,目前有55%的组织在至少一个业务部门或职能部门中使用AI(包括生成式人工智能),高于2022年的50%和2017年的20%。
7.中国在工业机器人领域占据主导地位。自2013年超越日本成为工业机器人装备领先者以来,中国拉大与位列其后的国家差距。2013年,中国装机量占全球总量的20.8%,到2022年这一份额将上升至52.4%。
8.机器人种类更加多样化。2017年,协作机器人仅占所有新增工业机器人安装量的2.8%,到2022年这一数字将攀升至9.9%。类似地,到2022年,除医疗机器人外,所有应用类别的服务机器人安装量均有所增加。这一趋势不仅显示机器人装备数量的总体增加,而且表明人们越来越重视部署与人类交互的机器人。
9.数据如下:人工智能提高了工人的生产力,并带来更高质量的工作。2023年,多项研究评估了AI对劳动力的影响,显示AI使工人能够更快地完成任务并提高生产质量。这些研究还证明了AI有潜力弥合低技能工人和高技能工人之间的技能差距。然而,其他研究警告,在没有适当监督的情况下使用AI可能会导致性能下降。
10.财富500强公司开始大量谈论人工智能,尤其是生成式人工智能。2023年,AI在394场财报会议中被提及(几乎占所有财富500强公司的80%),较2022年的266次提及显着增加。自2018年以来,财富500强财报电话会议中提及AI的次数几乎增加了一倍。最常被提及的主题是生成式人工智能,占所有财报会议的19.7%。
- 科学及医学
1.得益于人工智能,科学发展进一步加速。2022年AI开始推动科学发现。2023年更重要的与科学相关的AI应用落地,譬如让算法排序更加高效的Alpha Dev,以及加快材料发现的GNoME。
2.人工智能帮助医学取得长足进步。2023年推出了多个重要的医疗系统,包括增强流行病预测能力的EVEscape和AI驱动帮助突变分类的Alpha Missence。越来越多的AI用于推动医学进步。
3.具有高度专业知识的医疗AI已有实现。在过去的几年里,AI系统在MedQA标准测试集上表现出了突出的进步,这是评估AI临床知识的关键测试。2023年的杰出模型GPT‑4 Medprompt的准确率达到了90.2%,比2022年的最高分提高了22.6个百分点。自2019年推出该标准测试集以来,AI在MedQA上测试的性能几乎增加了两倍。
4.FDA批准越来越多的人工智能相关医疗器械。2022年,FDA批准了139种AI相关医疗器械,比2021年增长了12.1%。自2012年以来,FDA批准的AI相关医疗器械数量增加了45倍以上。现实世界医疗用到越来越多的AI。
- 教育
1、美国和加拿大计算机本科毕业生数量持续增长,计算机硕士毕业生数量基本持平,博士毕业生数量小幅增长。尽管美国和加拿大本科毕业生的数量在过去十多年持续增长,但选择计算机科学的研究生数量趋于平稳。2018年以来,CS硕士和博士毕业生数量略有下降。
2.人工智能博士加速向产业迁移。2011年,AI方向博士在产业界(40.9%)和学术界(41.6%)就业的比例大致相等。但到2022年,与进入学术界的毕业生(20.0%)相比,进入产业界的毕业生比例(70.7%)显著提高。仅在过去一年,投身产业的AI博士的比例就上升了5.3个百分点,学术界人才流失加剧。
3.学术人才从产业界到学术界的迁移较少。2019年,美国和加拿大13%的新任AI教师来自产业界。到2021年,这一数字已下降至11%,2022年进一步下降至7%。产业界高级AI人才越来越少进入学术界。
4.美国和加拿大的计算机科学教育国际化程度降低。与2021年相比,美加2022年毕业的国外计算机学士、硕士和博士人数比例有所减少,国外硕士学生下降尤其明显。
5.越来越多的美国高中生选修计算机课程,但仍在存在接触渠道的问题。2022年共举办了201,000场计算机大学预修课程考试。自2007年以来,参加这些考试的学生人数增加了不止十倍。但最近的资料显示,大型高中和郊区的学生更有接触到计算机科学课程。
- 国际上人工智能相关学位课程呈上升趋势。自2017年以来,与AI相关的英语高等教育学位课程数量增加了两倍,在过去五年中稳定增长。世界各地的大学都在提供更多以AI为重点的学位课程。
7.英国和德国培养最多的欧洲信息学、计算机科技、计算机工程和信息技术毕业生。英国和德国在培养信息学、CS、CE和IT方向学士、硕士和博士毕业生数量方面处于欧洲领先地位。按人均计算,芬兰在学士和博士毕业生的培养方面领先,而爱尔兰在硕士毕业生的培养处于领先地位。
- 公众舆论
1.全球各地的人们愈发认识到人工智能的潜在影响,也变得更为不安。Ipsos的一项调查显示,去年认为AI将在未来三到五年内极大影响生活的人群比例从60%上升到66%。此外,52%的人表示对AI产品和服务感到不安,比2022年上升了13个百分点。Pew的数据显示,52%的美国人表示对AI更多地是感到担心而不是兴奋,这一比例高于2022年的38%。
2.西方国家对人工智能情绪持续低迷,但正在缓慢提升。2022年,包括德国、荷兰、澳大利亚、比利时、加拿大和美国在内的一些西方发达国家对AI产品和服务的最消极。那之后,这些国家中认为AI带来益处的受访者比例都有所上升,其中荷兰的改变最明显。
3.公众对人工智能的经济影响持悲观态度。Ipsos的一项调查显示,只有37%的受访者认为AI会改善他们的工作。只有34%的人预计AI能提振经济,32%的人认为AI将改善就业市场。
4.对人工智能态度存在人群差异。对于AI能否改善生活的看法存在明显的人群差异,年轻一代普遍更为乐观。59%的Z世代受访者认为AI将改善娱乐选择,而战后婴儿潮一代的这一比例仅为40%。此外,与低收入和受教育程度较低的人群相比,高收入和教育水平人群对AI给娱乐、健康和经济的影响显得更加乐观。
5.ChatGPT广为人知且广泛使用。多伦多大学的一项国际调查显示,63%的受访者知道ChatGPT。在知道ChatGPT的人群中,大约有一半人表示每周至少使用一次ChatGPT。

参考资料:ArtificialIntelligenceIndexReport2024;https://hai.stanford.edu