拼写纠正系列
NLP 开源项目
以下是一些NLP领域的开源项目,它们涵盖了从汉字相似度计算到中英文拼写检测等多个方面:
- nlp-hanzi-similar:用于计算汉字之间的相似度。
- word-checker:一个中英文拼写检测工具。
- pinyin:将汉字转换为拼音的工具。
- opencc4j:用于繁简体转换的库。
- sensitive-word:用于识别和处理敏感词的工具。
前言
大家好,我是老马。
在这里,我将分享一些来自其他优秀开发者的设计思路和开源项目实现。
FASPell
FASPell是一种高效、适应性强、简洁且功能强大的中文拼写检查工具,它基于去噪自动编码器(DAE)解码器范式构建。
摘要
FASPell,一个创新的中文拼写检查器,由去噪自动编码器(DAE)和解码器构成。相较于以往的模型,FASPell在计算效率、适应性、结构简化方面都有显著提升,同时在错误检测和修正能力上保持了强大的性能。这些进步主要得益于新范式避开了两个主要的技术瓶颈。
1 引言
自20世纪90年代初以来,中文文本中的拼写错误检测与修正一直是研究的热点。
尽管近期的研究取得了一定的进展,但由于中文文本的特点,如缺乏单词间的分隔符和形态变化,使得中文拼写检查任务依然充满挑战。
相关工作与瓶颈
以往的中文拼写检查模型普遍存在两个主要问题:
- 资源不足导致的过拟合问题:中文拼写检查数据的获取需要大量的专业人工工作,因此资源相对匮乏。为了防止过拟合,一些研究提出了自动生成伪拼写检查数据的方法,但效果有限。
- 混淆集在利用字符相似性方面的局限性:中文字符相似性是拼写错误的主要原因之一,但以往的模型在利用这一特征时存在僵化性和不足性。
1.2 动机与贡献
本文旨在通过改变中文拼写检查的范式,解决上述瓶颈问题。我们提出的新范式由去噪自动编码器(DAE)和解码器组成,这一范式不仅能够即时生成候选项,还能有效利用字符相似性信息。
1.3 成就
FASPell的主要成就包括:
- 快速:在过滤方面比之前的模型更快。
- 适应性强:能够适应简体和繁体中文文本。
- 简洁:模型结构简单,易于理解和维护。
- 强大:在基准数据集上达到了与之前模型相似的F1性能。
2 FASPell
FASPell使用掩码语言模型作为去噪自动编码器(DAE)来生成候选项,并使用置信度相似度解码器来过滤候选项。
2.1 掩码语言模型
掩码语言模型(MLM)用于猜测标记化句子中被掩盖的词汇。FASPell采用了BERT中的MLM架构,并对其进行了微调,以适应拼写检查任务。
2.2 字符相似性
中文文本中的错误字符通常在视觉或语音上与正确字符相似。我们基于两个开放数据库来计算字符相似性:Kanji Database Project 和 Unihan Database。
2.2.1 视觉相似性
我们定义两个字符之间的视觉相似性为:1减去它们的IDS表示之间的标准化Levenshtein编辑距离。
2.2.2 语音相似度
不同的汉字共享相同的发音是非常常见的现象。我们利用所有CJK语言的字符发音来计算语音相似度。
2.3 Confidence-Similarity Decoder
我们提出了一种基于尽可能提高精度并最大限度减少召回损失的原则的有效方法。由于解码器利用了上下文信心和字符相似度,我们称其为信心-相似度解码器(CSD)。
致谢
感谢匿名评审人提出的宝贵意见,以及爱奇艺(iQIYI)公司IT基础设施团队提供的硬件支持。特别感谢早稻田大学(Waseda University)IPS研究生院的Yves Lepage教授,感谢他对本文的深刻建议。
转载请注明:SOTA简繁中文拼写检查工具:FASPell Chinese Spell Checker 论文 | 胖虎的工具箱-编程导航