首页|大模型生成回答与人类回答文本的语言特征比较研究

大模型生成回答与人类回答文本的语言特征比较研究

A Comparative Study of Language between Artificial Intelligence and Human:A Case Study of ChatGPT

扫码查看
近年,人工智能的语言生成技术突飞猛进,基于自然语言生成技术的聊天机器人 ChatGPT能够自如地与人对话、回答问题.为了探究机器生成语言与人类语言的差异,该文分别收集了人类和 ChatGPT在中文开放域上3 293 个问题的回答作为语料,对两种语料分别提取并计算描述性特征、字词常用度、字词多样性、句法复杂性、语篇凝聚力五个维度上的 161 项语言特征,利用分类算法验证用这些特征区别两种语言的有效性,并考察、对比这些特征来阐释人类、机器生成两种语言的异同.研究结果发现,两种文本在描述性特征、字词常用度、字词多样性三个维度的 77 项语言特征上存在显著差异,相较于机器回答语言,人类回答语言表现出易读性高、论元重叠度低、口语色彩明显、用词丰富多样、互动性强等特点.
Recent advancements in artificial intelligence have led to significant strides in language generation technol-ogies,with chatbots like ChatGPT demonstrating proficiency in conversation and question answering.This paper in-vestigates the differences between machine-generated language and human language by analyzing responses to 3 293 open-domain Chinese questions from humans and ChatGPT.The analysis examines 161 linguistic features in five di-mensions:descriptive characteristics,word frequency,lexical diversity,syntactic complexity,and discourse cohe-sion.Classification algorithms are employed to assess the efficacy of these features in distinguishing between the two types of language.The results reveal significant differences in 77 linguistic features across descriptive characteristics,word frequency,and lexical diversity.Human language tends to exhibit higher readability,lower argument overlap,a more colloquial style,a richer vocabulary,and greater interactivity compared to machine-generated language.

ChatGPThuman languagelinguistic featuresmachine learning

朱君辉、王梦焰、杨尔弘、聂锦燃、杨麟儿、王誉杰

展开 >

北京语言大学 国家语言资源监测与研究平面媒体中心,北京 100083

北京语言大学 计算科学学院,北京 100083

北京交通大学 计算机与信息技术学院,北京 100044

ChatGPT 人类语言 语言特征 机器学习

教育部人文社科青年基金国家语委重大科研项目

23YJCZH264ZDA145-17

2024

中文信息学报
中国中文信息学会,中国科学院软件研究所

中文信息学报

CSTPCDCHSSCD北大核心
影响因子:0.8
ISSN:1003-0077
年,卷(期):2024.38(4)
  • 34