首页|开源多模态大语言模型初探

开源多模态大语言模型初探

扫码查看
[目的]本文旨在总结开源多模态大语言模型(Multimodal Large Language Model,MLLM)的最新进展,探索其在新闻领域的落地实践。[方法]首先,笔者介绍了MLLM的研究背景,对典型的开源和闭源模型在不同测试基准上的表现进行了对比,然后解析了模型架构,包括其组成部分和工作原理,接着探讨了训练策略以及所需要的数据,最后展望了应用场景和研究方向。[结果/结论]通过本文的分析,可以了解到开源MLLM在赶超闭源商业模型上的潜力和发展方向,以及在新闻领域广阔的应用前景,同时为采编业务全流程提供强大的语言理解和生成能力,未来可以结合实际场景开展相关技术的落地实践。

刘一闻、李彤、王宇琦、李泽魁、郜婕

展开 >

新华通讯社,北京 100803

多模态大语言模型 预训练 视觉语言模型 大语言模型

2024

中国传媒科技
中国新闻技术工作者联合会

中国传媒科技

影响因子:0.313
ISSN:1671-0134
年,卷(期):2024.(8)