求将网页保存存档,纳入本地文件管理的正确姿势

本人日常使用 Foxtrot Search搜索本地文件,最近希望将一些积累的网页也作为可检索信息的一部分,例如博客文章、大语言模型对话记录等。目前的问题是用什么格式存档网页。主要考虑视图的一致性,以及是否可搜索。

以下方案我使用Safari、Foxtrot测试,总结了一些优缺点。使用了部分Minja文章的术语"文件搜索" “亚文件搜索”。

如果有更好的方案,或者有克服缺点的办法,还请指点!

  1. Cmd+S,save as Web Archive

    • 优点:Foxtrot保证此类型的文件搜索和亚文件搜索。
    • 缺点:有时打开后会加载一些不需要的资源。例如,如果保存Claude的对话为web archive ,虽然文件搜索没有问题,但打开后过几秒会跳转到首页。
  2. 使用插件 SingleFile for Safari,保存为html。

    • 优点:与原始页面效果一致性高。上述的Claude对话也不会过几秒就跳转到首页。
    • 缺点:一些网页内容无法被文件搜索召回。例如 这个网页 被SingleFile保存为html后,在Foxtrot中搜索词语例如“reduce”是无法返回这个html文档的。(很奇怪,不知道原因。)
  3. 使用插件 SingleFile for Safari,保存为self-extracting zip

    • 优点:不存在上述两者的缺点
    • 缺点:加载比较耗时;Foxtro的亚文件级搜索不适配此种类型的文件
  4. 打印为PDF

    • 优点:Foxtrot保证此类型的文件搜索和亚文件搜索
    • 缺点:显示效果经常很糟糕
  5. 保存原始html

    • 优点:同上
    • 缺点:同上

补充一下,
不是说打印为PDF就一定不好,我上面的例子可能比较特殊,打印PDF的效果不太行。
另外Minja提到过DevonThink剪藏的思路,但我没有这个软件,并且有些笨重了,暂时不考虑。

其他几个方案的缺点,都是不可能解决的,唯独方案2有可能在 FoxTrot 内部解决。方便的话,在 Slack 私发我一下出问题的 HTML 文件?

PDF 确实不适合所有类型的网页,我在过往杂文里主要指保存文章,而如果遇上那种不适合打印成固定页面的内容,我也会存 HTML。

ps DEVONthink 剪藏不是指用 DEVONthink 剪藏,而是用 Safari 保存后再借助 DEVONthink 转换格式,当然在 Safari 这边完善之后,我其实已经整整两年没让 DEVONthink 参与网页剪藏工作流了……

1 Like

实在抱歉,我不是Premium 会员,没有参与Slack。下面是使用SingleFile for Safari 默认设置生成的 HTML 文件,没有剪切元素。用代码编辑器打开可以搜索到文章内词语,例如"reduce",但Foxtrot搜索不到,您可以试试。
点击右上方 “Download Zip” 可以下载。

另外又发现一个替代方法,把网页文本直接拷贝到 Typora 可以自动转为 markdown 格式。
优点是比较干净,文件体积小。
不过排版总会有点瑕疵,需要自己检查。

尝试调整一下 FoxTrot 的 HTML 索引设置
https://help.foxtrot-search.com/950-hidden-prefs

ps 非会员也可以进 Slack……

1 Like

改用Gumbo之后成功搜到了
您给的网页中没提,我是用了 FoxTrot Search Forum: FoxTrot Search User Forum » Gumbo is not indexing entire file 的方法设置的

原来如此…

1 Like

FoxTrot 的官方文档主打一个不全面 XD
有兴趣的话不妨写篇短文来投稿,拓宽格式支持其实是本地文件搜索非常重要的一部分,我最近还在折腾如何让 FoxTrot 支持 EPUB……

EPUB我刚折腾过,方案是安装 GitHub - GenjiApp/EPUB-Plugins: OS X Spotlight / Quick Look plugins for EPUBs 插件。(大概也没别的方法吧?)
但注意它的 Quick Look generator 在foxtrot中的亚文件搜索效果有点问题:有的epub无法预览,加载很久然后退化成纯文本;有的虽然有预览,但匹配到的不全…
而且,据说macOS sequoia 会废除QLGenerator
所以我已经放弃了,目前我只用上面仓库的 Spotlight importer 插件。亚文件搜索就嗯看纯文本,如果对内容有兴趣用calibre preview打开。

确实如此……我目前的搜索方案是:Calibre 全文搜 EPUB + FoxTrot 全文搜其他一切(包括图片)。
FoxTrot 也被最近几代系统削弱了很多,可惜了。

我的做法是把网页正文复制粘贴到 obsidian 里面,利用 obsidian 的搜索来全文检索。
相关的工具挺多的,obsidian 用起来也很舒服,就是没法保存网页的原始格式。

我现在差不多,复制到typora里,保存,然后用foxtrot搜索全部markdown。
obsidian 应该也是自动转换成markdown吧?效果怎么样?

Minja 您如果升级了macOS sequoia,麻烦测试一下foxtrot还能不能搭配原先的预览插件
比如markdown文件可以用 Third party file formats |FoxTrot-Search 里的第一个插件在foxtrot里预览+高亮,不知道sequoia还行不行

不好意思,我在大半年内都不太可能升级。我刚刚升级 macOS 14 才两个月……
为了避免工作生活遭到毁灭性打击,我一般在半年到十个月后才升级新系统。

好的
(这么谨慎是经历过什么吗hhh

请问您图片是怎么索引的呢 用这个全部转成OCRed pdf吗?

要看图片内容,即被拍摄的对象。
就图片而言,我的工作主要处理二手材料,基本就是翻拍的书籍、报刊、杂志、档案、证件、贴在墙上的通知或里在地上的公告,因此转换成 PDF 并无问题。[1]
但如果被拍摄对象不是那么板正,或者转换为扫描版 PDF 后会丢失很多细节——例如手抄本、古籍、字画——那就要自己权衡了。我的工作还未涉及这类对象,FoxTrot 也不负责过多的前搜索(pre-search)准备工作,还是留给有这方面经验的读者去解决吧。


  1. 在技术上,不用 FoxTrot,而是 DEVONthink 或 ABBYY 预先处理。 ↩︎

1 Like