麻辣社区-四川第一网络社区

校外培训 高考 中考 择校 房产税 贸易战
阅读: 1339|评论: 1

[转帖] 基于条件随机场模型的汉语主谓短语自动识别研究

[复制链接]

发表于 2026-1-15 10:22 | 显示全部楼层 |阅读模式
1 论文标题:基于条件随机场模型的汉语主谓短语自动识别研究

2 作者信息:何一凡:西南交通大学人文学院中文系,四川 成都

3 出处:《现代语言学》10.12677/ml.2025.13121271

4 摘要:主谓结构是汉语句子的核心语法骨架,其精准识别是自然语言处理(NLP)领域语义解析、信息抽取等下游任务的关键前提。针对中文语言结构复杂性给主谓短语识别带来的挑战,本文提出基于条件随机场(CRF)的汉语主谓短语自动识别方法,以提升识别准确性与可靠性。研究以清华-汉语句法树库(TCT)为语料来源,构建含39595个标注样本的数据集。预处理阶段,通过自定义转换函数解决原始语料编码问题,用正则表达式匹配主谓结构边界,完成“起始(B)–内部(I)–其他(O)”标签标注,并将数据格式化为“词语–词性–标签”三元组,满足CRF模型训练需求。特征工程中,设计word2features函数,抓取词形及变形、词性、上下文前后1~2词及组合特征、句子边界(BOS/EOS)、词缀等多维度特征,为模型提供支撑。采用sklearn-crfsuite库实现CRF,以L-BFGS为优化算法,设正则化系数(C1 = 0.2、C2 = 0.1)与最大迭代次数200次,将数据集按9:1划分为训练集35635个样本与测试集3960个样本。实验显示,模型加权F1值0.7459,I标签F1值0.7541,B标签F1值0.6739;加权精确率0.7675、召回率0.7257,模型对主谓结构内部成分识别较好,但起始边界及长距离依赖识别需优化。研究证实,词性与上下文组合特征可提升模型性能,为汉语句法结构自动识别提供参考。

打赏

微信扫一扫,转发朋友圈

已有 0 人转发至微信朋友圈

   本贴仅代表作者观点,与麻辣社区立场无关。
   麻辣社区平台所有图文、视频,未经授权禁止转载。
   本贴仅代表作者观点,与麻辣社区立场无关。  麻辣社区平台所有图文、视频,未经授权禁止转载。
dxp

发表于 2026-1-15 23:02 | 显示全部楼层
高级模式 自动排版
您需要登录后才可以回帖 登录 | 注册

本版积分规则

复制链接 微信分享 快速回复 返回顶部 返回列表 关闭