FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。它依据
Levenshtein Distance 算法
计算两个序列之间的差异。
Levenshtein Distance
算法,又叫
Edit Distance
算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。
项目地址:
https://github.com/seatgeek/fuzzywuzzy
Python 2.7 以上
difflib
python-Levenshtein
(可选, 在字符串匹配时可提供4-10x 的加速, 但在
某些特定情况下
可能会导致不同的结果)
支持的测试工具
pycodestyle
hypothesis
pytest
使用 PIP 通过 PyPI 安装
pip install fuzzywuzzy
or the following to install python-Levenshtein
too
pip install fuzzywuzzy[speedup]
使用 PIP 通过 Github 安装
pip install git+git://github.com/seatgeek/fuzzywuzzy.git@0.17.0