ICTCLAS 汉语词性标注集
发布日期:2025-06-08 10:00:15
浏览次数:3
分类:精选文章
本文共 1126 字,大约阅读时间需要 3 分钟。
ICTCLAS 汉语词性标注集
ICTCLAS 是一个汉语词性标注集,旨在为汉语词性提供标准化的标注规范和代码体系。本文将详细介绍该词性标注集的主要内容和标注规则。
一、词性分类与标注规则
形容词标注规则
- 形容词在汉语中通常以 "a" 作为代码
- 例如:"Ag" 表示形容词性语素,形容词代码为 "a",语素代码 "g" 前面加上 "A"
- "a" 是形容词的简写,取自英语单词 "adjective" 的第一个字母
动词标注规则
- 动词以 "v" 作为代码
- 例如:"Vg" 表示动词性语素,动词代码为 "v",语素代码 "g" 前面加上 "V"
- "v" 取自英语单词 "verb" 的第一个字母
名词标注规则
- 名词以 "n" 作为代码
- 例如:"Ng" 表示名词性语素,名词代码为 "n",语素代码 "g" 前面加上 "N"
- "n" 取自英语单词 "noun" 的第一个字母
副词标注规则
- 副词以 "d" 作为代码
- 例如:"Dg" 表示副词性语素,副词代码为 "d",语素代码 "g" 前面加上 "D"
- "d" 是 "adverb" 的第二个字母,第一个字母已被形容词使用
二、其他词性标注规则
连词
- 连词代码为 "c",取自 "conjunction" 的第一个字母
区别词
- 区别词代码为 "b",取自汉字 "别" 的声母
习用语
- 习用语代码为 "i",取自 "idiom" 的第一个字母
后接成分
- 后接成分代码为 "k"
前接成分
- 前接成分代码为 "h"
三、特殊词性标注
人名
- 人名代码为 "nr","n" 表示名词,"r" 表示人
地名
- 地名代码为 "ns","n" 表示名词,"s" 表示处所词
机构名
- 机构名代码为 "ni"
时间词
- 时间词代码为 "nt","n" 表示名词,"t" 表示时间
五、其他特殊标注
拟声词
- 拟声词代码为 "o",取自 "onomatopoeia" 的第一个字母
量词
- 量词代码为 "q",取自 "quantit" 的第一个字母
代词
- 代词代码为 "r",取自 "pronoun" 的第二个字母
介词
- 介词代码为 "p",取自 "prepositional" 的第一个字母
助词
- 助词代码为 "u"
处所词
- 处所词代码为 "s",取自 "space" 的第一个字母
九、非语素字与特殊符号
非语素字
- 非语素字代码为 "x"
标点符号
- 标点符号代码为 "wp"
字符串
- 字符串代码为 "ws"
非语素字
- 非语素字代码为 "y"(语气词)
状态词
- 状态词代码为 "z"(取 "状" 的前一个字母)
通过以上标注规则,ICTCLAS 汉语词性标注集为汉语词性提供了统一的标准化标注体系,广泛应用于自然语言处理和语义分析领域。
发表评论
最新留言
很好
[***.229.124.182]2026年06月09日 14时57分35秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
PHP常量、变量作用域详解(一)
2023-03-01
PHP应用目录结构设计
2023-03-01
PHP应用程序连接MSQL数据库Demo(附crud程序)
2023-03-01
PHP应用程序连接Oracle数据库Demo(附Oracle客户端安装文件)
2023-03-01
PHP开发api接口安全验证
2023-03-01
PHP开发规范PSR
2023-03-01
PHP开发遇到错误0001
2023-03-01
php异常处理
2023-03-01
PHP引入了泛型和集合两大重要特性,大大改善 PHP 代码的可维护性和可读性
2023-03-01
PHP引擎php.ini参数优化
2023-03-01
PHP引用(&)使用详解
2023-03-01
php引用及垃圾回收
2023-03-01
php当前时间的集中写法
2023-03-01
php微信 开发笔记,微信WebApp开发总结笔记
2023-03-01
php微信公众号开发access_token获取
2023-03-01
php微信公众号开发微信认证开发者
2023-03-01
php微信公众号开发用户基本信息
2023-03-01
php怎么将对象变成数组,php怎么将对象转换成数组
2023-03-01
RabbitMQ - 消息堆积问题的最佳解决方案?惰性队列
2023-03-01