中国传媒科技2024,Issue(8) :82-85.DOI:10.19483/j.cnki.11-4653/n.2024.08.018

开源多模态大语言模型初探

刘一闻 李彤 王宇琦 李泽魁 郜婕
中国传媒科技2024,Issue(8) :82-85.DOI:10.19483/j.cnki.11-4653/n.2024.08.018

开源多模态大语言模型初探

刘一闻 1李彤 1王宇琦 1李泽魁 1郜婕1
扫码查看

作者信息

  • 1. 新华通讯社,北京 100803
  • 折叠

摘要

[目的]本文旨在总结开源多模态大语言模型(Multimodal Large Language Model,MLLM)的最新进展,探索其在新闻领域的落地实践.[方法]首先,笔者介绍了MLLM的研究背景,对典型的开源和闭源模型在不同测试基准上的表现进行了对比,然后解析了模型架构,包括其组成部分和工作原理,接着探讨了训练策略以及所需要的数据,最后展望了应用场景和研究方向.[结果/结论]通过本文的分析,可以了解到开源MLLM在赶超闭源商业模型上的潜力和发展方向,以及在新闻领域广阔的应用前景,同时为采编业务全流程提供强大的语言理解和生成能力,未来可以结合实际场景开展相关技术的落地实践.

关键词

多模态大语言模型/预训练/视觉语言模型/大语言模型

引用本文复制引用

出版年

2024
中国传媒科技
中国新闻技术工作者联合会

中国传媒科技

影响因子:0.313
ISSN:1671-0134
段落导航相关论文