Skip to content

Latest commit

 

History

History
43 lines (34 loc) · 3.87 KB

File metadata and controls

43 lines (34 loc) · 3.87 KB

AIRDC:具身智能的数据引擎 (The Data Engine for Embodied AI)

简介 (Introduction)

AIRDC (AI Robot Data Collection) 是一个专为具身智能(Embodied AI)研发设计的高性能、模块化且可扩展的数据采集框架。它旨在解决机器人学习中数据采集难、同步难、管理难的痛点,为训练下一代智能体提供坚实的数据基础设施。

通过屏蔽底层硬件的复杂性并优化数据吞吐量,AIRDC 赋能研究人员和工程师轻松构建大规模、高保真的多模态数据集。

核心特性 (Core Features)

1. 通用性 (Universality)

AIRDC 旨在适应多样化的实验环境与硬件配置,实现“一次开发,处处运行”。

  • 广泛的系统支持:纯 Python 实现,完美兼容各版本 Linux 系统及 Docker 容器化部署。支持 x86 工作站与 NVIDIA Jetson 等嵌入式平台,满足从实验室桌面到移动端采集的多样化需求。
  • 强大的硬件生态:原生深度适配 AIRBOT 全系机械臂与移动底盘,同时无缝集成 Intel RealSense 系列深度相机与标准 USB 工业相机等。
  • 多模态数据全覆盖
    • 实时流数据:同步采集机器人本体状态(关节角、速度、力矩、末端位姿)与视觉数据(RGB 图像、深度图)。
    • 静态元数据:自动记录机器人类型、相机内参、任务描述及系统环境参数,确保数据的完整性与可追溯性。
  • 插件式的灵活架构:采用高度解耦的模块化设计,支持用户通过自定义中间件扩展系统能力:
    • 示教器 (Demonstrator):定义与物理硬件的交互方式(如 VR 手柄、3D鼠标、遥操作臂)。
    • 采样器 (Sampler):从示教器获取数据并执行序列化。
    • 管理器 (Manager):负责设备生命周期管理与流程控制(如键盘、GUI界面、手柄等)。
    • 可视化器 (Visualizer):支持通过 OpenCV、PyQt 或 Web 端实时展示图像与数据流。
    • 状态机 (FSM):灵活定义采集流程(如空闲、录制、保存、删除等)。

2. 易用性 (Usability)

以用户体验为中心,大幅降低机器人数据采集的门槛。

  • 一键配置:通过配置脚本,使用简洁的 YAML 配置文件即可完成机器人、相机及算法参数的联合配置,无需修改代码。
  • 智能端口绑定:USB 相机支持端口绑定启动,彻底解决设备号变动导致的数据错乱问题。
  • 实时预览:采集过程中支持实时查看图像流、采集轮数、帧数及帧率信息,确保数据质量所见即所得。
  • 自动统计:自动计算并保存数据的统计信息(如样本量、均值、方差等),供后续训练直接使用,无需额外的计算开销。
  • 配套工具链:提供完善的数据检查、读取、可视化及格式转换工具。
  • 完善的日志系统:详尽的日志记录帮助用户及时发现并定位采集过程中的异常。

3. 实用性 (Utility)

  • 纳秒级时间戳:不同数据源拥有独立的纳秒级时间戳,确保多模态数据在时间轴上的严格对齐。
  • 高性能并发管道
    • 并发采集:基于共享内存 (Shared Memory)多进程 (Multiprocessing) 技术,实现相机与机器人的并行采集,充分利用多核性能,保证高频采集不掉帧。
    • 异步存储:采集过程中数据编码与落盘完全异步化,确保内存占用稳定,且不阻塞主控制循环。
  • 流式存储与压缩
    • 支持 MCAP (Foxglove) 流式数据格式,可兼容ROS2 Bag格式,适配大模型训练需求。
    • 无损与有损压缩:支持各类数据的无损压缩,图像数据支持 H.264 硬件编码存储,在保证画质的前提下显著降低存储空间占用。