Barokit

文本相似度 (Levenshtein)

计算两个字符串的Levenshtein编辑距离和百分比相似度。常用于错别字检测、相似单词查找、搜索自动完成实现、数据重复检测等。

🔒 浏览器内处理无水印无需注册

使用方法

  1. 1分别输入两段文本。
  2. 2立即显示编辑距离和相似度(%)。

常见问题

长文档也快吗?+

数千字立即处理。非常长的文档(数万字+)可能需要更多时间。

Levenshtein是什么?+

将一字符串变为另一字符串所需的最小编辑次数(插入·删除·替换)。'cat' → 'dog'需要3次编辑。

相似度%的含义?+

100%完全相同,0%完全不同。通常80%以上视为非常相似,50%以下视为不同。

对中文也准确吗?+

可以。按字符单位计算,中文也准确。

用在哪里?+

(1)拼写自动纠正候选查找,(2)数据库重复行检测,(3)搜索词模糊匹配,(4)抄袭初步检查。

其他相似度算法?+

Jaro-Winkler、Cosine similarity、n-gram等,但Levenshtein最直观最常用。

相关工具