学术观点普遍存在于科学研究过程中。从宏观层面看,学术观点的提出、质疑、否定、推翻、重建等是科学理论发展的体现,而不同学派或学者所持不同学术观点和见解的交锋、争论、讨论,是科学发展的内在推动力。从个体层面看,系统掌握并及时了解领域各学派、学者的学术观点对于学者学术思考与开展研究实践起到越来越重要的作用。随着科研人员数目与科学文献的不断增多,传统通过人工阅读的方式进行学术观点的识别变得越来越困难。当前相关研究却极少重视相关问题:一方面,目前观点挖掘研究与情感分析混淆不清,且研究语料多为产品评论与网络舆情,对学术研究领域内观点研究较少;另一方面,学术文本处理多在概念、词汇、文摘等方面开展,也很少有学者关注学术观点这类研究对象。本文分析学术、观点有关的概念,梳理学术观点句的有关理论。在这些工作的基础上,开展理论、方法与应用三个层面的研究。在此过程中,本文主要完成了包括以下五个方面的具体工作: (1)明确学术观点的定义与内涵,对相关概念进行辨析。学术是本文研究对象所发生的场景,而观点是其本质属性。首先分析了学术与科学、知识、理论之间的关系,然后辨别了事实、情感、命题、立场、视角等词语与观点一词的区别与联系。在此基础上阐述了学术观点、学术观点句和原子型学术观点含义,并从新闻传播、教育学、语言学等角度梳理了学术观点句的有关理论。 (2)利用扎根理论方法对实际学术观点进行观察与编码,观察的语料来自于CSSCI数据库中标题中包含“学术观点”词汇的学术论文,从中抽取出1280句原子型学术观点句。研究了学术观点句分类框架与各类学术观点句的结构化表示方法。提出一种包含两个维度的分类方式,即从对象角度学术观点句可以分为单对象学术观点和多对象(关系型)学术观点两类,从判断角度可以分为事实判断与价值判断两类。对两个维度划分的四个象限进行更加细粒度地分类,得到10类学术观点句。研究发现,句法结构对学术观点句类别指示性不大,事实判断和价值判断类学术观点句情感极性强度分布差异明显。对这些语句进行元素抽取,以此为基础构造否定词、程度词与条件短语识别规则库,标注了常用的168个启发式学术观点句式模板。 (3)开展学术观点句识别研究,首先构建了学术观点句语料库,相关数据来自信息资源管理与科学学两个领域,提出了学术观点句的判断条件。研究发现,90%的文献中具有显性学术观点句。对其他句子进行学术观点句标注,研究发现,目前摘要层面和全文层面学术观点句标注一致性较高。基于句式模板的学术观点句识别方法F_1值为60%左右,而基于机器学习方法识别F_1要比其高20%左右。在基于机器学习的学术观点句识别中,发现去除停用词会影响识别效果,否定词和程度词去除与否对其影响不大。支持向量机方法在各类方法中效果最优。主题契合程度和段内相对位置与句子是否为学术观点句之间并无太强关联。经验证,加入句子的核心词及其词性、长度特征后,大部分方法识别性能均有微弱提升,而文内相对位置、重要性特征仅对支持向量机方法有效。 (4)开展学术观点句分类研究,对学术观点句类别进行标注。研究分为三种,即对象角度的分类、判断角度的分类和细粒度分类。整体来看,使用句式模板的方法具有较高的准确率和召回率,但覆盖率却比较低。而基于情感极性强度的判断角度分类覆盖程度较高,然而其分类准确性却较低。使用升采样的方式可以有效提高关系型学术观点句识别效果。各种分类中,支持向量机方法的分类效果都要优于朴素贝叶斯和k近邻算法。在学术观点句细粒度分类问题方面,发现间接式分类方法效果要比直接分类提高25个百分点。 (5)开展领域学术观点句扩展性应用研究。对信息资源管理领域部分题录数据进行处理,包括作者消歧、文献引用关系识别等。使用基于条件随机场的方式对学术观点句中的对象词或短语进行识别,并对识别结果进行校验。在对学术观点句内部信息和外部信息组织的基础上,初步实现了领域学术观点句的检索系统。使用信息可视化工具分析了整体层面和学者个体层面学术观点主题的变化过程。