Foxtrot Search 能否模糊搜索

最近看到Minja老师写了关于Foxtrot的文章,很有收获,也希望能多多更新狐狸尾巴的高级用法。

我在使用中经常遇到一个问题——我有很多OCR的PDF文档,但Foxtrot不能保证搜索出未准确识别的文字。

例如,一个手写稿中包含“virtual”,但因为手写潦草,OCR识别为“vitual”。那么我在不知道识别有误的情况下,能否容许一定的编辑距离误差,让Foxtrot Search 能模糊搜索到这个词?

或者,如果这种情况Foxtrot不能胜任,有别的更强大的软件吗?

谢谢!

谢谢支持。
FoxTrot 中暂未见到 fuzzy match 选项,我印象里也没有特别可靠的亚文件级模糊搜索工具(往往是直接模糊到无法控制,不点名某几个国产了)。
目前我的应付方式是:

  1. 如果预先知道识别可能有问题,通常我会用正则表达式代替 i 和 l 这类识别时容易混淆的字符。
  2. 提前优化 PDF,参考识别手稿准确率95%的人工智能:Transkribus与人文研究的前景 – Bibliothek für Wissenschaftsgeschichte(作者最后还是抓住了狐狸尾巴 XD)。
1 个赞