拼写纠正系列
NLP 中文拼写检测实现思路
NLP 中文拼写检测纠正算法整理
NLP 英文拼写算法,如何提升 100W 倍的性能?
NLP 中文拼写检测纠正 Paper
Java 实现中英文拼写检查和错误纠正?可我只会写 CRUD 啊!
一个提升英文单词拼写检测性能 1000 倍的算法?
单词拼写纠正-03-leetcode edit-distance 72.力扣编辑距离
NLP 开源项目
nlp-hanzi-similar 汉字相似度
word-checker 中英文拼写检测
pinyin 汉字转拼音
opencc4j 繁简体转换
sensitive-word 敏感词
论文地址
可以参考:SIGHAN 2015 拼写检查论文
摘要
本文详细介绍了SIGHAN 2015 拼写中文拼写检查的各个方面,包括任务描述、数据准备、绩效指标和评估结果。
比赛展示了当前中文拼写检查领域最新的NLP技术。
所有此次测试中使用的带有黄金标准和评估工具的数据集均可公开获取,以供未来研究使用。
介绍
中文拼写检查器的开发相对困难,部分原因是中文单词之间没有明确的单词边界,且中文单词可以是单个字符或多个字符的组合。
此外,中文有超过13,000个汉字,与英文的26个字母相比,每个汉字在不同的上下文中都能构成一个有意义的中文单词。
这些因素使得中文拼写检查成为一个挑战性的任务。
一项实证分析表明,中文拼写错误通常是由多个字符单词之间的混淆引起的,这些单词在语音和视觉上相似,但在语义上却截然不同(Liu等,2011)。
自动拼写检查器应具备以下两项功能:
识别拼写错误,并提供错误用法的正确字符建议。
SIGHAN 2013年中国拼写检查竞赛是第一个提供数据集作为中国拼写检查员绩效评估基准的活动(Wu等人,2013)。
SIGHAN 2013中的数据来自中国母语人士撰写的论文。
基于第一次评估的经验,在CIPS-SIGHAN CLP-2014联合会议上举行了第二次评估,会议重点是汉语作为外语(CFL)的学习者撰写的论文(Yu等,2014)。
由于在CFL leaners书面论文中检测和纠正拼写错误方面面临的更大挑战,SIGHAN 2015 Bake-off再次包含中文拼写检查任务,为自动中文拼写检查器的开发和实施提供评估平台。
给定由几句话组成的段落,检查人员应识别所有可能的拼写错误,突出显示其位置并提出可能的更正。
本文的其余部分安排如下。
第2部分概述了SIGHAN 2015年中文拼写检查的流程。
第三部分介绍了开发的数据集。
第4节提出了评估指标。
第5节比较了各个参赛者的结果。
最后,我们在结论中总结了本文,并在第6节中提供了未来的研究方向。
任务描述
这项任务的目的是评估中文拼写检查器的功能。
输入的段落包含几个有/没有拼写错误的句子。
检查器应返回错误字符的位置并建议正确的字符。
每个字符或标点符号占用1个点进行计数。
位置。
输入实例具有唯一的通道编号pid。
如果句子中没有拼写错误,则检查器应返回“ pid,0”。
如果输入段落中至少包含一个拼写错误,则输出格式为 “pid [, location, correction]+”
,其中符号“ +”表示存在一个或多个预测元素的实例。
“ [,位置,更正]”。
“位置”和“更正”分别表示不正确字符的位置及其正确版本。
例子如下。
- Example 1
Input: (pid=A2-0047-1) 我真的洗碗我可以去看你
Output: A2-0047-1, 4, 希, 5, 望
这里实际是音近字。
xiwan
xiwang
所以中文纠错真的更难了--
- Example 2
Input: (pid=B2-1670-2) 在日本,大學生打工的情況是相當普偏的。
Output: B2-1670-2, 17, 遍
偏
遍
这个是形近字
- Example 3
Input: (pid=B2-1903-7) 我也是你的朋友,我會永遠在你身邊。
Output: B2-1903-7, 0
转载请注明:NLP 中文拼写检测纠正论文-01-介绍了SIGHAN 2015 包括任务描述,数据准备, 绩效指标和评估结果 | 胖虎的工具箱-编程导航