Meta发布首个「非参数化」掩码语言模型NPM:吊打500倍参数量的GPT-3
发布日期:2025-06-18 16:47:52
浏览次数:4
分类:精选文章
本文共 949 字,大约阅读时间需要 3 分钟。
视学算法:Meta发布首个非参数化掩码语言模型NPM
近年来,大型语言模型在自然语言处理领域取得了显著进展,但其训练成本高昂、难以更新,同时在处理长尾知识和罕见短语方面表现欠佳。这些模型通常采用预测层中的softmax层,限制了其输出词汇的多样性。为了解决这些问题,研究人员联合提出了一种新型模型——非参数化掩码语言模型(NonParametric Masked language model, NPM)。
NPM的核心思想
NPM通过参考语料库中的非参数化分布来代替传统的softmax输出层,从而实现对任意长度短语的无限制预测。这种方法不仅能够有效处理罕见短语和长尾知识,还能预测几乎未见过的外部语言(如韩语单词)。
NPM的训练与推理
编码器的作用
NPM由一个编码器组成,该编码器将语料库中的所有短语映射到一个密集的向量空间中。在推理阶段,编码器将带有[MASK]的查询向量映射到相同的向量空间,并从语料库中检索出对应的短语填充[MASK]。推理的实现
为了提高检索效率,研究人员采用了基于k近邻搜索(kNN)的批内近似方法。例如,对于一个由4个BPE token组成的短语(如The Thessaloniki),分别从起点和终点向量进行k近邻搜索,检索出最接近的短语开始和结束,从而填充[MASK]。训练难点
NPM在训练过程中面临两个关键问题:- 检索效率:完整语料库的检索会耗时耗力。研究人员通过批内近似方法,将检索目标限定在批次内的其他序列中。
- 片段掩码:研究人员扩展了传统的span masking策略,引入了[MASKs][MASKe],以便更方便地检索和填充片段的起点和终点向量。
实验结果
NPM在多个基线模型上展现出优越性能,包括RoBERTa、GPT-3和OPT 13B等。无论是闭包任务还是开放式任务,NPM都能显著提升预测效果。例如,在情感分析任务中,NPM成功区分了“廉价”和“质量差”的含义,这表明其非参数训练与对比性目标的有效性。
总结
NPM通过非参数化掩码预测,打破了传统语言模型的输出限制,为处理长尾知识和罕见短语提供了新的解决方案。尽管其训练和检索过程仍面临挑战,但其在零样本和无样本任务中的表现令人瞩目。未来,NPM有望在更多应用场景中展现其潜力。
发表评论
最新留言
第一次来,支持一个
[***.219.124.196]2026年06月21日 00时51分29秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
php数组实现:哈希 +双向链表
2023-03-01
PHP数组排序函数array_multisort()函数详解(二)
2023-03-01
php数组的几个函数和超全局变量
2023-03-01
PHP文件上传详解
2023-03-01
PHP文件锁
2023-03-01
php文本框输入制定文本,php – 当用户没有向文本框输入任何内容时...
2023-03-01
PHP时间戳和日期相互转换操作总结
2023-03-01
php时间戳知识点,php 时间戳函数总结与示例
2023-03-01
php更新数据库失败,php – 无法更新MySQL数据库
2023-03-01
php机器人聊天对话框,基于AIML的PHP聊天机器人
2023-03-01
PHP查找数组中最大值与最小值
2023-03-01
php查最大值,在PHP数组中查找最大值
2023-03-01
php根据年月日计算年龄
2023-03-01
RabbitMQ - 单机部署(超详细)
2023-03-01
php检查注册,PHP检查注册的电子邮件地址是一个’school.edu’地址
2023-03-01
php模拟发送GET和POST请求
2023-03-01
RabbitMQ - 以 MQ 为例,手写一个 RPC 框架 demo
2023-03-01
php模板引擎smarty
2023-03-01
php正则表达式模式
2023-03-01