国思软件 - 科研数据不再碎片化！一张可计算图，连起整个科研世界

　　新智元报道

　　编辑：LRST

　　UIUC 研究团队打造 ResearchArcade，将 ArXiv 论文、OpenReview 评审、图表代码等碎片数据连接成动态知识图谱。模型可直接学习引用关系、修改轨迹与审稿互动，让 AI 更好辅助科研写作、修订与预测，为下一代科研智能体奠定统一数据基础。

　　在学术科研的过程中，研究者需要面对形态各异的数据来源：我们从 ArXiv 获取最新论文以追踪学术前沿，从 OpenReview 的开放评审中学习 Rebuttal 的技巧……

　　随着科研人员越来越多地借助机器学习（如 LLM、GNN 等）来辅助各类研究任务，一个关键问题随之浮现：

　　「我们是否能建立一个统一的数据接口，来支持不同学术任务中机器学习模型的开发？」

　　解决这一问题，将为 Specialized Research Agents 的发展奠定基础，促进 auto- research 的实现，也让我们更进一步地迈向让 AGI 真正理解科研与知识的奥秘的新阶段。

　　近日，伊利诺伊大学厄巴纳–香槟分校（UIUC） Jiaxuan You 教授团队发布了新作，提出了基于图结构的统一科研数据接口，收集并处理了形式各异的科研数据，以辅助不同机器学习模型在各种科研任务上的训练，展望利用 AI 高效辅助科研的未来。

　　论文链接：https://arxiv.org/pdf/2511.22036

　　研究动机

　　痛点一：数据分散在多个平台，科研语义被割裂

　　研究一篇文章时，我们常常：

在 ArXiv 找相关论文（内容、图表、引用）
在 OpenReview 看审稿意见、看 rebuttal、看版本修改
在 GitHub 或附录里找代码、找实验细节
在 DBLP/Google Scholar 看作者与引用网络

　　平台和平台之间缺少统一的结构化连接。模型拿到的往往只是一段段拼接好的，很难对平台间的跨源关系做建模。

　　痛点二：图表/段落/引用这些「高价值结构」，长期被当作噪声处理

　　论文里最有信息密度的内容，经常不是摘要，而是：方法流程图、实验表格、ablation 与结果对比、对于前人工作的引用。

　　但传统数据集与基准常常把这些「结构」压扁成纯文本，导致模型无法接触到「论文内部的组织逻辑」。

　　痛点三：科研是「演化过程」，但我们常把它当成「静态快照」

　　科研不是一次性写完的。尤其在顶会投稿场景里，论文会经历：reviewer 评论、rebuttal、revision（多轮修改）

　　这些是「科研互动」和「论文进化」的核心信号，但在很多数据里它们要么缺失，要么只是散落文本。

　　ResearchArcade

　　将科研世界模拟成一张动态图

　　研究人员提出的 ResearchArcade 是一个基于图结构的数据接口，连接了多个学术数据源，统一了学术任务定义，并支持广泛的机器学习模型的训练。

　　ResearchArcade 利用多表格格式以图的结构去组织来自不同来源的数据，包括 ArXiv 的学术语料库和 OpenReview 的同行评审，也储存多模态信息（如图形和表格）。

　　同时 ResearchArcade 还保留了论文自身前后修改的版本信息以及不同论文的发表时间，支持论文修订以及更广泛的研究趋势的研究。更重要地，表格管理数据的方式便于图的动态扩展，一个新的数据个体的加入和在对应表格中加一行是一样的，ResearchArcade 支持每日的不断添加 ArXiv 上更新的文章。

　　具体而言，ResearchArcade 有四个核心特征：

Multi-source：它把 ArXiv 与 OpenReview 关联在一起
Multimodality：它不只处理文字，还处理图片和表格
Heterogeneity：它用图结构保存异质的关系
Dynamic：它把时间与版本变化也存进来

　　它把数据组织成表格的形式，其中包括节点表（比如 paper/author/paragraph/figure/table/review/revision），和边表（比如 authorship、citation、paragraph-to-figure/table、review-to-revision 等），使得数据库到异构图的转换更加直接。

　　除此之外，我们还支持 SQL，CSV，JSON 格式的数据导入导出，这样既可以把它当作结构化数据库来使用，支持 LLM 的训练，也可以无缝转成异构图来训练 GNN 这样的图模型。

　　学术任务怎么统一定义？

　　「两步范式」很关键

　　ResearchArcade 用两步把各式学术任务统一成同一个范式，便于任务的定义以及数据的调用：

Identify Target Entity（找目标实体）：你要预测/生成的东西对应图里的哪个节点或边？
Retrieve Neighborhood（取邻域子图）：围绕目标实体，取多跳邻域，形成一个任务输入子图

　　这件事看起来简单，但它直接解决了「每个科研任务都要重写数据管线」的经典问题。

　　以后你想加新任务，不需要推倒重来，只要

换一个 target（比如 review 节点、revision 节点、citation 边）
换一种 neighborhood（取哪些关系、多大 hops）
换一种输出形式（分类/排序/生成）

　　任务就能在同一张图上跑起来。

　　规模与覆盖面

　　对于 ArXiv 部分，ResearchArcade 收集了 66,918 篇 ArXiv 论文，跨 11 个科学领域，并进一步拆到更细粒度：

　　包含 569,501 个 section、8,014,095 个 paragraph、876,636 张 figure、324,648 个 table，并且捕捉它们之间的连接关系。

　　同时它支持持续爬取更新（可以按周/按日更新），保证数据实时更新，反应最新科研热点。

　　对于 OpenReview 部分，它收集了 OpenReview 上来自 ICLR, NeurIPS, ICML, and EMNLP 来自 189,038 位作者的 57,278 篇投稿，以及 884,875 条 review 与 54,467 次 rebuttal/revision 过程中的修改记录。除此之外，ResearchArcade 把 OpenReview 投稿与对应的 ArXiv 论文按标题匹配相连接，最终有 25,969 篇（约 45.34%）成功对齐。

　　ResearchArcade 到底能做什么？

　　ResearchArcade 在论文里定义并实验了六个任务，覆盖预测与生成两大范式：

　　1）引用预测（Citation Prediction）

　　给定某段 paragraph 以及论文内部结构与已引用信息，让模型预测：这段话最应该引用哪篇论文。

　　2）段落生成（Paragraph Generation）

　　给定上下文段落、引用的图表、引用的文献等，让模型补全缺失段落内容。

　　3）修改定位（Revision Retrieval）

　　给定 reviewer 评论与原论文段落，让模型找出：哪些段落会被改、改在哪里。

　　4）修改生成（Revision Generation）

　　给定原段落 + reviewer 意见，让模型生成一个更好的 revised 段落。

　　5）录用预测（Acceptance Prediction）

　　把历史年份论文与其结构/模态信息作为训练信号，预测未来年份论文是否会被 accept。

　　6）Rebuttal 生成（Rebuttal Generation）

　　给定 reviewer 评论、论文相关段落以及图表信息，让模型生成 rebuttal 回复。

　　同时，ResearchArcade 在论文中还列了一些「未来可扩展的新任务」，比如 idea generation、experiment planning、abstract writing、review generation 等（即覆盖科研流程更多阶段）（文中对「学术任务统一定义」的论证与扩展思路与此一致）。

　　如果把它放到「科研智能体」的语境里，你可以想象一个更完整的闭环：

　　读：快速理解论文结构（段落/图表/引用）

　　写：在结构约束下生成段落、补齐实验描述

　　改：把 reviewer 意见映射到具体修改点，生成 revision

　　回：生成 rebuttal，并引用论文内部证据与图表支持

　　荐：对引用、相关工作、对比基线给出结构化推荐

　　图结构真的有用吗？

　　有，而且是「稳定收益」

　　结论一：小模型训练后能逼近大模型，说明数据接口的质量很关键

　　论文里提到，在 revision generation / rebuttal generation 上，经过训练的小模型（如 Qwen3-0.6B）性能显著提升，并能接近更大模型表现，侧面验证了 ResearchArcade 的数据与任务定义是「可学习」的。

　　结论二：它确实能建模「动态演化」，但趋势预测仍然难

　　revision retrieval / revision generation 展示了论文内演化建模的能力；而 acceptance prediction 最好 accuracy 也只有 0.55，几乎接近随机，说明「预测科研趋势」本身就很难。

　　结论三：图结构带来稳定增益，多跳邻域有时能明显提升

　　论文直接对比了「图模型 vs 非图模型」，在 revision retrieval 上观察到显著提升（文中给出 67% 的增益量级），在 acceptance prediction 上也有一定改善；并且多跳邻域（比如从 1-hop 扩到 3-hop）能让 acceptance prediction 的表现上升到 0.55，说明高阶上下文很重要。

　　结语

　　ResearchArcade 试图做的不是再造一个「更大的数据集」，而是把科研过程中那些原本被分割、被压扁、被静态化的信息，重新组织成可连接、可追溯、可扩展的「计算对象」。

　　一旦数据接口具备了这种统一的结构表达，科研任务就不必各自为政：引用、写作、修改、回复、预测乃至更复杂的科研规划，都可以在同一套范式里被定义、被训练、被比较，也就为 Specialized Research Agents 的规模化演进，auto- research 的系统化落地，以至于最终能够理解科研学术奥秘的 AGI 提供了更稳的地基。

　　科研世界的 Arcade（游乐场）已经搭好，接下来就看我们能在这张图上玩出多少新东西了。

　　参考资料：

　　https://arxiv.org/pdf/2511.22036

科研数据不再碎片化！一张可计算图，连起整个科研世界

我们的产品

相关链接

关于我们

联系我们