TransGPTex: LaTex 编译版的论文翻译工具
适用背景
如果你是一个致力于交叉领域的研究生,主要通过直接阅读,或者偶尔配上翻译工具来学习本方向的英文文献,但是又想快速阅读其他领域的工作,不太愿意花费大部分的时间,那么此时你就会想,如果有一个工具能够较为完美地将其转换为中文文献,不就可以加快我的阅读速度了吗?
因此, TransGPTex 工具就是一个利用大语言模型(LLM)将 LaTeX 文章高质量地翻译成中文(或者其他语言)并编译成 PDF 的工具,非常适合于快速阅读其他相关领域的文献。
安装过程
TeX Live
TransGPTex 项目需要安装一个 xelatex
环境以编译翻译后的 Tex 项目,在 Windows 平台上可以选择直接安装 Tex Live
。Tex Live
是一个包含 XeLaTeX 的 LaTeX 发行版,可以从 TeX Live 官网下载并安装,选择如下图所示的 download from a nearby CTAN mirror,这将从最近的镜像网站直接下载。

安装完成后,可以通过命令 xelatex --help
验证是否成功。
TransGPTex
安装 TransGPTex 可以直接选择一个虚拟环境,然后通过以下命令直接安装。
1 | pip install transgptex |
验证安装是否成功,可以通过命令 tgtex -h
或者 tgtex --version
来验证。
获取 LLM API
TransGPTex 需要请求 LLM 的 API 来驱动 LLM 完成翻译,主要支持豆包、DeepSeek、GPT-4o-mini、GLM等大模型,在使用的时候需要获取LLM模型名字、推理端点以及 API KEY。
其中,对于 DeepSeek 的API 可以在 DeepSeek 开放平台 申请获取,主要使用 deepseek-chat
模型。
翻译示例
翻译命令
TransGPTex 主要从 Arxiv 上下载原始论文的源码,然后翻译英文文段,最后统一再进行编译,这样就保证了排版不会受到干扰。因此,需要首先获取到论文在 Arxiv 上的链接。
比如,文章 Tutorial on Diffusion Models for Imaging and Vision 对应的 Arxiv 链接为 https://arxiv.org/abs/2403.18103。
设置 LLM_API_KEY 环境变量,这个在 Windows 平台上可以直接在账户/系统环境变量中设置,如下图所示:
当然也可以在终端通过 set
命令设置,但只是临时的。
1 | # 申请llm api key,windows使用set,linux使用export |
当然也支持翻译自己的Latex项目和文件,如下命令所示。
1 | # 翻译整个 LaTeX 项目 |
几个核心的配置:
llm_model
: 选择使用的 LLM 模型。end_point
: LLM 推理端点 URL。num_concurrent
: LLM API 的每秒查询数,默认为 100。api_key
: 请配置在环境变量LLM_API_KEY
中。language_to
: 将源文件翻译成什么语言,默认为Chinese
。use_cot
: 使用--use_cot
开启思维链式翻译,目前比较推荐用deepseek的模型进行cot翻译。开启之后,会让LLM根据要翻译的段落先进行思考,思考之后再进行正式翻译,以减少LLM翻译的生硬感,提高LLM的准确性。目前的cot仅加入思考流程,未来可以考虑将论文标题和论文摘要当作上下文输入给模型,以让LLM感知到要翻译的论文片段对应的上下文信息。
原始论文
翻译论文
参考
LiSheng2001. TransGPTex.
TransGPTex: LaTex 编译版的论文翻译工具