宿迁的机器人导师军团，正炼制千万小时“数字燃料”

成千上万居民，一边做着家务或者干着农活，一边参与全球规模最大的AI行动。这样的事，现在每天都在江苏的宿迁发生。

这些居民头戴的数据采集设备，会记录下他们擦桌子、炒菜、缝纫服装、照顾老人、剪枝摘果等各种动作数据。人们可能并不完全了解这件事的价值，但它确实在解决具身智能产业的根本瓶颈——“数据荒”。

机器人学习的不是知识，而是经验

过去几年，中国机器人的硬件与运动控制技术——“小脑”发展迅猛。四足机器人攀爬山地、人形机器人跑马拉松……在电机、减速器、关节控制等物理层面，中国企业交出了令世界瞩目的成绩单。中商产业研究院数据显示，2025年中国具身智能市场规模约9150亿元，同比增长20.4%，预计2026年将突破10900亿元。

然而，硬件竞赛的热闹背后，一个短板日益凸显：机器人缺乏真正的“大脑”。那些能表演、能炫技的机器人，无法理解真实的物理世界，连拧瓶盖、磕鸡蛋这类基础动作都做不好，遑论走进家庭与工厂。

问题的根源在于数据。训练一个具备泛化能力、适配多场景的高质量具身大模型，行业共识是需要数千万小时甚至上亿小时的训练数据。而现实是，全行业能获取的具身相关数据集加起来不过几十万小时——差了足足两个数量级。物理AI真机交互数据量，不足大语言模型的两万分之一。这不是单纯的技术问题，而是一场结构性短缺。

更被低估的是数据质量与生产逻辑。许多人以为架几台摄像机拍下人类动作即可，但原始视频对机器人训练几乎毫无价值——它只记录了“发生了什么”，而机器人需要知道“怎么发生的”：手在哪里、物体在哪里、三维空间结构如何、动作意图是什么……这些信息必须经过精密处理与专业标注，才能转化为有效数据。

机器人学习的不是知识，而是经验。 它需要知道如何抓起装满水的杯子、如何调整力度、如何在失败后修正动作。这些人类长期积累的“操作经验”从未被数字化。正是这一痛点，让行业目光集中到一种此前被忽视的数据类型上——第一视角人类操作数据。

为什么巨头都在争夺“第一视角数据”

过去一年，第一视角（Ego-centric）人类操作数据，正在成为全球具身智能领域最稀缺的资源。英伟达、Tesla、Figure、1X等公司纷纷大规模采集人类操作视频，用于训练机器人的模仿学习（Imitation Learning）。

相比传统互联网视频只能告诉模型“发生了什么”，第一视角数据能让机器人理解“动作为何这样发生”。它不仅记录结果，还保留了视线移动、手眼协同、空间关系、动作修正以及长任务决策链——这些隐性信息，正是机器人形成泛化能力的关键。

英伟达今年提出的EgoScale框架，明确将大规模第一视角数据视为机器人训练的核心基础设施。研究发现，随着这类数据规模持续扩大，Vision-Language-Action（VLA）模型的真实任务成功率会稳定提升。机器人领域正在出现类似大模型的数据规模定律（scaling law）：模型能力上限，取决于真实世界行为数据的规模与质量。

然而，这类数据过去几乎不存在。实验室的标准化数据无法覆盖现实场景的随机性——仓库包裹每天不同，家庭环境不断变化，布料会褶皱滑动。这意味着，具身智能最终竞争的，不只是模型能力，更是谁能持续获得大规模真实场景中的第一视角人类数据。

为什么是京东做这件事

今年3月，京东官宣启动人类历史上最大规模的具身数据采集行动：两年内动员超过10万名内部员工、50万外部协作人员，在宿迁就会有10万人参与，完成1000万小时无本体真实场景视频数据，外加100万小时机器人本体数据。

这背后真正的稀缺资源不是采集设备，而是场景。目前行业多数公司依赖实验室采集或小规模众包，难以持续获得高频、长流程、跨场景的人类操作数据。而京东的特殊性在于，它是中国少数同时拥有超大规模真实产业流、物流流与劳动流的平台型企业：3600多个智能库房、遍布全国的配送站、超万家线下门店、20余万家合作药房，同时还是全国规模最大的家政服务公司，5万多名家政人员服务千万家庭——零售、物流、健康、家政、工业全场景覆盖。

基于场景优势，京东打造了全球首个采、存、标、训、评、仿、测全链路具身智能数据基础设施。

在数据采集端，JoyEgoCam通过车规级传感器与4K镜头完成第一视角采集，即便在快递分拣、货物搬运等高速运动场景下，也能稳定记录操作过程。

在数据处理端，原始视频进入京东云AI数据湖后，会经过任务切分、语义标注、深度重建、手势关键点定位等处理，最终转化为机器人可直接学习的结构化数据。

治理完成的数据再接入京东云JoyBuilder模型开发平台，模型训练效率提升了3.5倍——过去训练1亿+数据的千卡训练时间需要15小时，如今仅需22分钟。

基于这套数据体系训练的JoyAI-RA具身大模型，在仿真与真机测评中，任务执行平均成功率达到73.5%，超过英伟达GR00T N1.6、Physical Intelligence Pi0.5等行业头部模型。

在宿迁，居民在家当“机器人老师”

5月20日，京东宣布全国首个具身智能数据采集社区已在宿迁正式运行。这是京东今年3月宣布建设全球最大具身数据采集中心以来，在具身智能数据基础设施建设方面的又一重要进展，也标志着京东距两年内积累超1000万小时人类真实场景视频数据的目标更进一步。

这座苏北城市与京东的渊源可追溯二十余年。这里不仅是刘强东的老家，也是京东早期重要的客服中心与物流基地，宿迁积累了大量熟悉电商物流场景的劳动力，当京东的数据采集需求与宿迁的人力资源相遇，一种新的产业合作模式便自然生长出来。从电商中心、客服中心、物流枢纽、再到今天的具身智能布局，京东在宿迁投资已超过200亿元。

在宿迁，参与数据采集的市民分布在各行各业，果园、服装厂、康养机构……他们摘果子、折衣服、递药杯、搬货，日常劳作被JoyEgoCam精准捕捉。这些市民成为真正的“机器人老师”，他们的真实行为动作为机器人提供了理解人类操作的优质“教材”。

这是一种双赢：京东获得高多样性的真实场景数据；宿迁迎来一批全新数字职业——数据采集师、数据标注师、数据处理师、质量检验师，实现家门口的高质量就业。这也回应了社会关切的重要命题：具身智能并非只会替代就业，而是可以创造新职业、带动劳动者共同成长。

更深层的意义在于，这是一条数字经济时代的产业下沉新路径：将前沿科技的基础能力落地地方，与本地就业深度绑定，让数据生产与价值收益实现本地化共享。宿迁继电商物流之后，再次迎来关键发展机遇。这一模式未来可复制到更多城市，形成可规模化的数字经济样板。

不做封闭的数据王国：京东要当行业的“水电煤”

为了进一步提升数据规模，京东还推出了Real to Sim数据泛化服务：将真实人类动作转化为仿真数据，再通过Sim to Real反向渲染生成逼真的机器人训练数据，实现数据高效扩增。这意味着，机器人数据开始具备类似“自我繁殖”的能力。在整个过程中，数据基础设施的重要性，开始超越单一模型本身。

京东收集的数据，并非只用于自身模型，而是以行业基础设施的定位，为全行业提供数据支撑。京东具身智能数据交易平台已正式上线，首批定向开放EgoLive高精标注数据集，这是目前业内质量最高的开源数据集：60FPS超高帧率，覆盖300余个真实任务场景。

此外，京东还邀请合作伙伴汇入数据资源，共建规模化、标准化的数据生态。这种“搭台”姿态指向一个更大的战略雄心：成为具身智能时代的基础设施提供商。

在这套生态体系中，上游是算法公司、AI芯片企业以及数据标注服务商；中游是各类仓储机器人、配送机器人等硬件制造商；下游带动系统集成、运维服务等相关产业。

与此同时，京东的产业落地多线并行。在零售侧，JoyInside方案已与近200个家电家居、机器人、玩具品牌合作，2026年将助力机器人品牌伙伴销售额突破百亿元。在物流侧，搭建机器人售后维修生态，机器人救护车服务覆盖海内外，专业工程师团队将扩至万人规模。在工业侧，打造一站式工业供应链服务，实现机器人制造物料100%覆盖。

AI的关键战场在物理世界

过去十年，AI的主战场在数字世界——大语言模型用海量算力逼近认知边界，却终究是“旁观者”：能写出操作手册，却从未真正拧开过一个瓶盖。

下一个十年，决战将在物理世界。 或许正是因为这样的判断，京东在今年618启动会上明确提出，将打造全球最大物理世界运营中心，推动AI从千行百业走进千家万户。

具身智能的使命，不是仿真“纸上谈兵”，而是走进仓库、工厂与家庭，在真实物理环境中感知、决策、行动。这需要的不是更多文本或图像，而是人类从未被数字化的操作经验——如何抓握、如何应对布料褶皱、如何在失败中修正动作。这些经验只能在真实场景中采集，并通过大规模、高质量的数据基础设施，转化为机器人的“肌肉记忆”。

当大模型企业还在算力与电价上内卷时，京东已将人、场景、真实操作数据作为核心生产要素，构建起连接数字与物理世界的产业护城河，将物理操作转化为可计算、可复用的数字资产，让机器人从“看懂”世界到真正“理解”。

当机器人掌握理货、清洁、照护、配送等技能，它们将不再是实验室里的炫技展品，而是承担真实劳动的伙伴。而人，在训练机器人的过程中，将日常经验升华为驱动下一代AI的核心资产——这或许是人工智能从数字世界走向物理世界、与实体经济和社会民生协同发展的最佳路径。