ICTCLAS 汉语词性标注集
发布日期:2025-06-08 10:00:15 浏览次数:3 分类:精选文章

本文共 1126 字,大约阅读时间需要 3 分钟。

ICTCLAS 汉语词性标注集

ICTCLAS 是一个汉语词性标注集,旨在为汉语词性提供标准化的标注规范和代码体系。本文将详细介绍该词性标注集的主要内容和标注规则。

一、词性分类与标注规则

  • 形容词标注规则

    • 形容词在汉语中通常以 "a" 作为代码
    • 例如:"Ag" 表示形容词性语素,形容词代码为 "a",语素代码 "g" 前面加上 "A"
    • "a" 是形容词的简写,取自英语单词 "adjective" 的第一个字母
  • 动词标注规则

    • 动词以 "v" 作为代码
    • 例如:"Vg" 表示动词性语素,动词代码为 "v",语素代码 "g" 前面加上 "V"
    • "v" 取自英语单词 "verb" 的第一个字母
  • 名词标注规则

    • 名词以 "n" 作为代码
    • 例如:"Ng" 表示名词性语素,名词代码为 "n",语素代码 "g" 前面加上 "N"
    • "n" 取自英语单词 "noun" 的第一个字母
  • 副词标注规则

    • 副词以 "d" 作为代码
    • 例如:"Dg" 表示副词性语素,副词代码为 "d",语素代码 "g" 前面加上 "D"
    • "d" 是 "adverb" 的第二个字母,第一个字母已被形容词使用
  • 二、其他词性标注规则

  • 连词

    • 连词代码为 "c",取自 "conjunction" 的第一个字母
  • 区别词

    • 区别词代码为 "b",取自汉字 "别" 的声母
  • 习用语

    • 习用语代码为 "i",取自 "idiom" 的第一个字母
  • 后接成分

    • 后接成分代码为 "k"
  • 前接成分

    • 前接成分代码为 "h"
  • 三、特殊词性标注

  • 人名

    • 人名代码为 "nr","n" 表示名词,"r" 表示人
  • 地名

    • 地名代码为 "ns","n" 表示名词,"s" 表示处所词
  • 机构名

    • 机构名代码为 "ni"
  • 时间词

    • 时间词代码为 "nt","n" 表示名词,"t" 表示时间
  • 五、其他特殊标注

  • 拟声词

    • 拟声词代码为 "o",取自 "onomatopoeia" 的第一个字母
  • 量词

    • 量词代码为 "q",取自 "quantit" 的第一个字母
  • 代词

    • 代词代码为 "r",取自 "pronoun" 的第二个字母
  • 介词

    • 介词代码为 "p",取自 "prepositional" 的第一个字母
  • 助词

    • 助词代码为 "u"
  • 处所词

    • 处所词代码为 "s",取自 "space" 的第一个字母
  • 九、非语素字与特殊符号

  • 非语素字

    • 非语素字代码为 "x"
  • 标点符号

    • 标点符号代码为 "wp"
  • 字符串

    • 字符串代码为 "ws"
  • 非语素字

    • 非语素字代码为 "y"(语气词)
  • 状态词

    • 状态词代码为 "z"(取 "状" 的前一个字母)
  • 通过以上标注规则,ICTCLAS 汉语词性标注集为汉语词性提供了统一的标准化标注体系,广泛应用于自然语言处理和语义分析领域。

    上一篇:代码解析深度学习系统编程模型:TensorFlow vs. CNTK
    下一篇:ICCV 2023 | 旷视研究院入选论文亮点解读,涵盖3D目标检测、图像匹配、光流、点云配准等...

    发表评论

    最新留言

    很好
    [***.229.124.182]2026年06月09日 14时57分35秒