LaTeXDataHub is an open-source platform dedicated to the sharing and contribution of real-world LaTeX image datasets and their annotations, allows users to upload, download, and contribute to a growing collection of high-quality LaTeX datasets. To ensure that the data is not dependent on third-party platforms and can be shared everywhere, I recommend using magnet links to deliver the dataset.
LaTeXDataHub 是一个开源平台,致力于共享和贡献真实 LaTeX 图像数据及其注释,允许上传、下载并为高质量 LaTeX 数据集做出贡献(数据集接受任何语言)。为确保数据不依赖于第三方平台,以及在任何地方都能够共享,我们建议使用磁力链接传递数据集。
对于较为标准的现代打印latex文档的数据图片,您可以直接采用MixTeX,它已有较高的准确率,您只需要纠正少量的错误。
对于手写或者老教材latex的数据集,目前MixTeX暂时还没有训练过,表现的不太好。
您可以采用chatgpt或者claude辅助标注。您可以参考以下提示词:latex ocr 直接输出,所有公式用align*,文字放在外面,文内公式用( .. ),不要废话,不要继承直接输出ocr结果:
使用电脑截图可以轻松获取,对于该数据集,您通常可以直接采用MixTeX,它已有较高的准确率,您只需要纠正少量的错误。
我们会在将来的MixTeX应用上提供四个数据标注选项分别是:(完整修改标注提交,小错误反馈,公式编译失败反馈,重复反馈)
对于完整修改标注提交我们将延续之前的训练,对于反馈我们将会探索RLHF训练方法。

参考数据集:https://huggingface.co/datasets/stanford-crfm/i2s-latex?row=0



