SOTA简繁中文拼写检查工具：FASPell Chinese Spell Checker 论文

未分类 4个月前程序员胖胖胖虎阿

123 0 0

拼写纠正系列

NLP 开源项目

以下是一些NLP领域的开源项目，它们涵盖了从汉字相似度计算到中英文拼写检测等多个方面：

nlp-hanzi-similar：用于计算汉字之间的相似度。
word-checker：一个中英文拼写检测工具。
pinyin：将汉字转换为拼音的工具。
opencc4j：用于繁简体转换的库。
sensitive-word：用于识别和处理敏感词的工具。

前言

大家好，我是老马。

在这里，我将分享一些来自其他优秀开发者的设计思路和开源项目实现。

FASPell

FASPell是一种高效、适应性强、简洁且功能强大的中文拼写检查工具，它基于去噪自动编码器（DAE）解码器范式构建。

摘要

FASPell，一个创新的中文拼写检查器，由去噪自动编码器（DAE）和解码器构成。相较于以往的模型，FASPell在计算效率、适应性、结构简化方面都有显著提升，同时在错误检测和修正能力上保持了强大的性能。这些进步主要得益于新范式避开了两个主要的技术瓶颈。

1 引言

自20世纪90年代初以来，中文文本中的拼写错误检测与修正一直是研究的热点。

尽管近期的研究取得了一定的进展，但由于中文文本的特点，如缺乏单词间的分隔符和形态变化，使得中文拼写检查任务依然充满挑战。

1.2 动机与贡献

本文旨在通过改变中文拼写检查的范式，解决上述瓶颈问题。我们提出的新范式由去噪自动编码器（DAE）和解码器组成，这一范式不仅能够即时生成候选项，还能有效利用字符相似性信息。

1.3 成就

FASPell的主要成就包括：

快速：在过滤方面比之前的模型更快。
适应性强：能够适应简体和繁体中文文本。
简洁：模型结构简单，易于理解和维护。
强大：在基准数据集上达到了与之前模型相似的F1性能。

2 FASPell

FASPell使用掩码语言模型作为去噪自动编码器（DAE）来生成候选项，并使用置信度相似度解码器来过滤候选项。

2.1 掩码语言模型

掩码语言模型（MLM）用于猜测标记化句子中被掩盖的词汇。FASPell采用了BERT中的MLM架构，并对其进行了微调，以适应拼写检查任务。

2.2 字符相似性

中文文本中的错误字符通常在视觉或语音上与正确字符相似。我们基于两个开放数据库来计算字符相似性：Kanji Database Project 和 Unihan Database。

2.2.1 视觉相似性

我们定义两个字符之间的视觉相似性为：1减去它们的IDS表示之间的标准化Levenshtein编辑距离。

2.2.2 语音相似度

不同的汉字共享相同的发音是非常常见的现象。我们利用所有CJK语言的字符发音来计算语音相似度。

2.3 Confidence-Similarity Decoder

我们提出了一种基于尽可能提高精度并最大限度减少召回损失的原则的有效方法。由于解码器利用了上下文信心和字符相似度，我们称其为信心-相似度解码器（CSD）。

致谢

感谢匿名评审人提出的宝贵意见，以及爱奇艺（iQIYI）公司IT基础设施团队提供的硬件支持。特别感谢早稻田大学（Waseda University）IPS研究生院的Yves Lepage教授，感谢他对本文的深刻建议。

版权声明：程序员胖胖胖虎阿发表于 2024年12月27日下午5:40。
转载请注明：SOTA简繁中文拼写检查工具：FASPell Chinese Spell Checker 论文 | 胖虎的工具箱-编程导航

Spring Security 多种加密方案共存，老破旧系统整合利器！

程序员胖胖胖虎阿

248

关于项目中使用Druid数据库监控的配置

程序员胖胖胖虎阿

284

【JavaEE进阶系列 | 从小白到工程师】方法重载和方法重写的区别,详细描述，从介绍到语法再到区别

程序员胖胖胖虎阿

414

分享 100 道 Linux 笔试题

程序员胖胖胖虎阿

264

manim边做边学--文字的创建与销毁

程序员胖胖胖虎阿

149

用 Cursor 写出第一个程序

程序员胖胖胖虎阿

127

暂无评论

暂无评论...

SOTA简繁中文拼写检查工具：FASPell Chinese Spell Checker 论文

拼写纠正系列

NLP 开源项目

前言

FASPell

摘要

1 引言

相关工作与瓶颈

1.2 动机与贡献

1.3 成就

2 FASPell

2.1 掩码语言模型

2.2 字符相似性

2.2.1 视觉相似性

2.2.2 语音相似度

2.3 Confidence-Similarity Decoder

致谢

RabbitMQ 延迟任务（限时订单）思路

谁让你创建两个对象的？

相关文章

暂无评论

SOTA简繁中文拼写检查工具：FASPell Chinese Spell Checker 论文

拼写纠正系列

NLP 开源项目

前言

FASPell

摘要

1 引言

相关工作与瓶颈

1.2 动机与贡献

1.3 成就

2 FASPell

2.1 掩码语言模型

2.2 字符相似性

2.2.1 视觉相似性

2.2.2 语音相似度

2.3 Confidence-Similarity Decoder

致谢

RabbitMQ 延迟任务（限时订单） 思路

谁让你创建两个对象的？

相关文章

暂无评论

RabbitMQ 延迟任务（限时订单）思路