|
1 论文标题:基于条件随机场模型的汉语主谓短语自动识别研究
2 作者信息:何一凡:西南交通大学人文学院中文系,四川 成都
3 出处:《现代语言学》10.12677/ml.2025.13121271
4 摘要:主谓结构是汉语句子的核心语法骨架,其精准识别是自然语言处理(NLP)领域语义解析、信息抽取等下游任务的关键前提。针对中文语言结构复杂性给主谓短语识别带来的挑战,本文提出基于条件随机场(CRF)的汉语主谓短语自动识别方法,以提升识别准确性与可靠性。研究以清华-汉语句法树库(TCT)为语料来源,构建含39595个标注样本的数据集。预处理阶段,通过自定义转换函数解决原始语料编码问题,用正则表达式匹配主谓结构边界,完成“起始(B)–内部(I)–其他(O)”标签标注,并将数据格式化为“词语–词性–标签”三元组,满足CRF模型训练需求。特征工程中,设计word2features函数,抓取词形及变形、词性、上下文前后1~2词及组合特征、句子边界(BOS/EOS)、词缀等多维度特征,为模型提供支撑。采用sklearn-crfsuite库实现CRF,以L-BFGS为优化算法,设正则化系数(C1 = 0.2、C2 = 0.1)与最大迭代次数200次,将数据集按9:1划分为训练集35635个样本与测试集3960个样本。实验显示,模型加权F1值0.7459,I标签F1值0.7541,B标签F1值0.6739;加权精确率0.7675、召回率0.7257,模型对主谓结构内部成分识别较好,但起始边界及长距离依赖识别需优化。研究证实,词性与上下文组合特征可提升模型性能,为汉语句法结构自动识别提供参考。
|