批量翻译Arxiv论文大法

IcyFeather · 2024 年10 月 27 日 16:50

前言

需要借助的项目：

这个项目其实有一个官方的 Web 网站可以翻译：

https://academic.chatwithpaper.org/

然而，这种 Web 界面有一个缺点，那就是只能一篇一篇的翻译。

假如我在睡觉之前想要调研某个方向，并且找好了十余篇论文（甚至几十篇）想要在第二天早上一睹为快，希望能在睡觉的时候统统翻译好，那么该怎么办呢？

如果你的需求和我上面说的一样，就可以接着往下看了

正文

Clone 下来这个项目，然后直接用带 latex 的 Docker 启动起来，docker-compose.yaml 里面的 image 选这个： ghcr.io/binary-husky/gpt_academic_with_latex:master，然后记得把 DEFAULT_WORKER_NUM 的值也改大一点，加快翻译速度

我们使用 Docker 的原因是因为你自己电脑上配 latex 环境可能会在编译的时候缺各种包报错，为了省事便捷建议直接用 Docker

然后使用 VSCode 连接到这个 Docker 里面：

https://cn.linux-console.net/?p=7645

进入 /gpt/tests 目录，创建 translate_arxiv.py 文件，内容写成这样：

import init_test
import os, sys


if __name__ == "__main__":
    from test_utils import plugin_test

    # 这里是你想翻译的 arxiv 论文的 id 列表
    arxiv_list = ["1706.06978", "1809.03672", "1905.09248", "2006.05639", "2101.11427"]

    for each in arxiv_list:
        plugin_test(plugin='crazy_functions.Latex_Function->Latex翻译中文并重新编译PDF', main_input=each)

使用 bash -c "python3 -u translate_arxiv.py" 运行，即可在容器里面一键跑起来翻译。最后在 /gpt/gpt_log/arxiv_cache 目录下找到翻译好的内容即可

使用 VSCode-PDF 插件可以直接在 VSCode 里面读翻译好的论文，不需要下载。

备注

撰写本文时，项目版本文件 version 内容如下：

{
  "version": 3.90,
  "show_feature": true,
  "new_feature": "增加RAG组件 <-> 升级多合一主提交键"
}

如果随着后续更新本文内容不适用，可以选择按照该思路重新适配，或者直接回退到该版本。

END

Katie312 · 2024 年10 月 30 日 07:05

习惯了浏览器插件翻译

IcyFeather · 2024 年10 月 30 日 07:40

乔姐推荐一下插件（

另外这个的优势感觉主要是用GPT来翻译，对句子的整体理解和一些专业用词的把控会翻译的更好

Katie312 · 2024 年10 月 30 日 09:08

确实，专业用词翻译不太行，就是arxiv的x换成5先换成html，然后Google translate插件翻译hhh 大致看看可以，精读感觉还是得看原文

IcyFeather · 2024 年10 月 30 日 09:24

学到了学到了还有这种操作

话说翻译一般的PDF（不是arxiv）论文有类似这种arxiv把x换成5转换成html的trick吗

Katie312 · 2024 年10 月 30 日 09:52

好像无，这种我一般下载下来然后用“沉浸式翻译”插件翻译，基本能满足需求，主要是免费的/手动狗头，不过不能批量操作好像