自然语言处理中,有没有算法可以识别英语形近词

经典文章:How to Write a Spelling Corrector
■网友
刚问完了就找到一些入门答案。比如搜索关键词“单词形近度计算”,找到这篇文章:使用Matlab实现英文单词的"形近词"查找 。其中提到Edit Distance。另外,那篇文章中提到还有现成的形近词词典可用,但我简单搜索了下,网上并没有资源,也许是关键词用的不对。相关的还有一篇学术文章,《结合词性的英语近形词干扰项生成方法》。相信以这两篇文章为引子,应该能找到更丰富的资料。留坑,待填。欢迎大牛来指导。Update1:简单试用了下最基础的Levenshtein distance距离,效果可以接受,但有值得改进的地方。比如,设置阈值为2,得到rile的形近词中包括hike和hive。对于这类匹配,可以提高首字母cost的权重。不知业界有没有比较好的实践?


    推荐阅读