开源多模态大语言模型初探

刘一闻 ¹李彤 ¹王宇琦 ¹李泽魁 ¹郜婕¹

扫码查看

作者信息

1. 新华通讯社,北京 100803
折叠

摘要

[目的]本文旨在总结开源多模态大语言模型(Multimodal Large Language Model,MLLM)的最新进展,探索其在新闻领域的落地实践.[方法]首先,笔者介绍了MLLM的研究背景,对典型的开源和闭源模型在不同测试基准上的表现进行了对比,然后解析了模型架构,包括其组成部分和工作原理,接着探讨了训练策略以及所需要的数据,最后展望了应用场景和研究方向.[结果/结论]通过本文的分析,可以了解到开源MLLM在赶超闭源商业模型上的潜力和发展方向,以及在新闻领域广阔的应用前景,同时为采编业务全流程提供强大的语言理解和生成能力,未来可以结合实际场景开展相关技术的落地实践.

关键词

多模态大语言模型/预训练/视觉语言模型/大语言模型

引用本文复制引用

出版年

2024

中国传媒科技

中国新闻技术工作者联合会

中国传媒科技

影响因子：0.313

ISSN：1671-0134

段落导航