批量翻译Arxiv论文大法

前言

需要借助的项目:

这个项目其实有一个官方的 Web 网站可以翻译:

https://academic.chatwithpaper.org/

然而,这种 Web 界面有一个缺点,那就是只能一篇一篇的翻译。

假如我在睡觉之前想要调研某个方向,并且找好了十余篇论文(甚至几十篇)想要在第二天早上一睹为快,希望能在睡觉的时候统统翻译好,那么该怎么办呢?

如果你的需求和我上面说的一样,就可以接着往下看了 :grinning:

正文

Clone 下来这个项目,然后直接用带 latex 的 Docker 启动起来,docker-compose.yaml 里面的 image 选这个: ghcr.io/binary-husky/gpt_academic_with_latex:master,然后记得把 DEFAULT_WORKER_NUM 的值也改大一点,加快翻译速度

我们使用 Docker 的原因是因为你自己电脑上配 latex 环境可能会在编译的时候缺各种包报错,为了省事便捷建议直接用 Docker

然后使用 VSCode 连接到这个 Docker 里面:

https://cn.linux-console.net/?p=7645

进入 /gpt/tests 目录,创建 translate_arxiv.py 文件,内容写成这样:

import init_test
import os, sys


if __name__ == "__main__":
    from test_utils import plugin_test

    # 这里是你想翻译的 arxiv 论文的 id 列表
    arxiv_list = ["1706.06978", "1809.03672", "1905.09248", "2006.05639", "2101.11427"]

    for each in arxiv_list:
        plugin_test(plugin='crazy_functions.Latex_Function->Latex翻译中文并重新编译PDF', main_input=each)

使用 bash -c "python3 -u translate_arxiv.py" 运行,即可在容器里面一键跑起来翻译。最后在 /gpt/gpt_log/arxiv_cache 目录下找到翻译好的内容即可

使用 VSCode-PDF 插件可以直接在 VSCode 里面读翻译好的论文,不需要下载。

备注

撰写本文时,项目版本文件 version 内容如下:

{
  "version": 3.90,
  "show_feature": true,
  "new_feature": "增加RAG组件 <-> 升级多合一主提交键"
}

如果随着后续更新本文内容不适用,可以选择按照该思路重新适配,或者直接回退到该版本。

END

习惯了浏览器插件翻译 :joy:

乔姐推荐一下插件(

另外这个的优势感觉主要是用GPT来翻译,对句子的整体理解和一些专业用词的把控会翻译的更好

确实,专业用词翻译不太行,就是arxiv的x换成5先换成html,然后Google translate插件翻译hhh 大致看看可以,精读感觉还是得看原文

1 个赞

学到了学到了 还有这种操作

话说翻译一般的PDF(不是arxiv)论文有类似这种arxiv把x换成5转换成html的trick吗

好像无,这种我一般下载下来然后用“沉浸式翻译”插件翻译,基本能满足需求,主要是免费的/手动狗头,不过不能批量操作好像