摘要
评估在人工智能领域中扮演着至关重要的角色,它涉及到对人工智能系统的性能、安全性、可靠性和影响的系统性分析.本文围绕五个问题展开:(1)与"狭义"人工智能相比,基础模型对人类和社会构成哪些相似和独特的风险?(2)与其他形式的评估和问责相比有什么区别?(3)为解决基础模型的风险而提出的评估和测试方法范围有哪些?(4)建议的评估和测试方法有哪些局限性?(5)政策制定者可以采取哪些措施来根据评估和测试的结果为基础模型生命周期中不同的参与者建立法律/监管问责制?最后,文章就如何推进评估科学的现状为政策制定者提出了一些建议.