nlp入门（三）基于贝叶斯算法的拼写错误检测器

刄省惪椅序静帆 · 发表于 2023-8-9 09:35:24

复制代码

二、根据语料库统计不同单词出现的词频

单词字典每个单词词频默认为1，因为如果单词字典默认值为为0，那么出现了语料库中没有的单词，就会默认概率为0，导致新的单词无法被识别

复制代码

三、打开语料库与构建字母表

复制代码

四、返回编辑距离为1的单词

单词a经过n次修改可以得到新的单词b，那我们叫b为a的编辑距离为1的单词，下面函数就返回编辑距离为1的单词

# 返回编辑距离为1的单词
def editsl(word):
n = len(word)
return set([word[0:i] + word[i + 1:] for i in range(n)] + # 字母打多了一个
[word[0:i] + word[i + 1] + word[i] + word[i + 2:] for i in range(n - 1)] + # 字母打反了一个
[word[0:i] + c + word[i + 1:] for i in range(n) for c in alphabet] + # 字母打错了一个
[word[0:i] + c + word[i:] for i in range(n + 1) for c in alphabet]) # 字母打少了一个

复制代码

五、返回编辑距离为2的单词

复制代码

六、判断单词是否在语料库中

复制代码

七、纠正拼写错误的单词

优先考虑原单词a是否在语料库中，如果存在就返回原单词，不存在就考虑编辑距离为1的单词，返回使用频率最高的那个如果编辑距离为1的单词也不在语料库中，那么就考虑编辑距离为2的单词，同样，如果编辑距离为2的单词都不在语料库中，那么这可能是一个新的单词，直接返回单词本身

def correct(word):
candidates = known([word]) or known(editsl(word)) or known_edits2(word) or [word]
return max(candidates, key=lambda w: NWORDS[w])

复制代码

八、测试结果

复制代码

来源:https://www.cnblogs.com/zhangshihang/p/17615999.html
免责声明：由于采集信息均来自互联网，如果侵犯了您的权益，请联系我们【E-Mail:cb@itdo.tech】我们会及时删除侵权内容，谢谢合作！