betway中国西汉姆联师生论文被软件工程领域CCF A类国际期刊 TOSEM 2026录用

发布日期：2026-05-27 浏览量：

betway中国西汉姆联师生论文被软件工程领域CCF A类国际期刊 TOSEM 2026录用

近日，betway中国西汉姆联智能运维实验室的论文《Can Language Models Go Beyond Coding? Assessing the Capability of Language Models to Build Real-World Systems》被软件工程领域的CCF A类国际期刊——ACM Transactions on Software Engineering and Methodology（TOSEM）2026录用。

以下是论文简介：

论文标题：Can Language Models Go Beyond Coding? Assessing the Capability of Language Models to Build Real-World Systems

作者：赵晨宇，张圣林*，黄泽舜，金伟霖，孙永谦，裴丹，张朝运，林庆维，Chetan Bansal，Saravan Rajmohan，马明华

作者单位：必威西汉姆官网平台、北京大学、清华大学、微软

项目主页：https://aiops-lab-nku.github.io/Build-bench/

1.摘要

近年来，大语言模型在代码生成、程序修复和开发辅助中表现突出，但现有评测多聚焦于“写代码”或“修复单点缺陷”，仍难回答其能否真正参与真实软件系统构建。跨指令集架构迁移正是极具挑战性的验证场景：软件包在 x86_64 与 aarch64 间迁移时，往往同时涉及依赖、工具链、构建日志、配置脚本和多文件协同修改。

为此，我们提出 Build-bench，基于268 个真实世界构建失败的软件包，搭建“分析—修改—验证”的端到端评测流程。实验显示，当前最优模型在该任务上的最高构建成功率为 63.19%，不同模型在工具调用、反馈利用和跨架构适应性上差异显著。

2.背景与挑战

随着异构计算的发展，现代软件生态正逐步从单一硬件架构走向多架构并存。以 x86_64 与 aarch64 为代表的不同指令集架构，在寄存器组织、内存模型、编译器行为与工具链支持等方面均存在差异，这使得软件在跨架构迁移过程中极易出现构建失败、依赖冲突与运行时错误。现有软件工程基准虽然已经覆盖了代码生成、仓库级修复和真实 issue 解决等任务，但大多默认软件运行于同构环境中，并主要依赖测试用例或文本级结果进行验证。相比之下，跨架构迁移任务具有更强的系统性与工程复杂度，主要体现在三个方面：

第一，故障上下文更加复杂。跨架构构建失败通常同时涉及规范文件、依赖声明、构建脚本、编译参数与工具链配置等多层因素。

第二，代码规模和环境复杂度更高。Build-bench 中单个软件包平均包含 366 个文件、超过 5.5 万行代码，覆盖多种编程语言与配置形式。

第三，评测必须实现端到端可验证。修复是否有效，最终要以目标架构下的真实重新构建结果为准，并考察模型能否利用新日志持续迭代。

3.核心方法与系统架构

图 1：Build-bench 整体框架图

Build-bench 采用“真实失败样本 + 工具增强推理 + 迭代构建验证”的整体设计，主要包括以下三个阶段：

1）输入与诊断上下文构建

系统首先收集构建修复所需的完整上下文信息，包括：软件源代码压缩包；规范与元数据文件；构建脚本；初始失败构建日志。

这些信息共同构成模型进行故障理解和修复决策的基础。后续轮次还会补充上一轮修改、最新日志和更新后的软件包状态。

2）大语言模型驱动的修复过程

Build-bench 基于Model Context Protocol（MCP）统一暴露多种外部工具，包括：

结构提取工具：生成软件包目录结构与函数级摘要；

文件内容提取工具：读取完整目标文件内容；

内容修改工具：将模型生成的修改自动写入文件；

压缩与解压工具：支持源代码归档操作；

构建结果检查工具：获取真实构建执行结果。

模型可以根据当前故障状态动态选择工具，完成从“理解日志—定位文件—修改内容—重新构建”的完整闭环。

3）真实环境下的迭代验证

修改后的软件包会被上传至Open Build Service（OBS）进行真实构建。如果构建失败，系统将最新日志和上一轮修改反馈给模型，进入下一轮修复；若成功或达到最大迭代次数，则任务结束。

Build-bench 将最大修复轮数设置为 3 轮，兼顾成本与效率。此外，研究还设计了两类修复策略：

Full File Generation：模型重新生成完整文件；

Patch Generation：模型仅输出增量补丁。

两种策略分别对应“保持整体上下文完整性”和“提升修改精度与效率”两种典型修复范式，为分析模型在不同编辑粒度下的表现差异提供了依据。

4.实验验证与主要发现

表 1：不同模型在跨 ISA 构建修复任务中的总体表现

研究团队基于268 个真实世界跨架构构建失败软件包对多个代表性模型进行了评估。实验覆盖两个迁移方向：x86_64 → aarch64以及aarch64 → x86_64。

结果显示，GPT-5 在两个方向上均取得最佳表现。与此同时，不同模型之间仍存在明显差距，说明跨架构修复对模型的上下文理解、工具编排与程序性推理提出了远高于常规代码任务的要求。

表 2：迭代反馈对修复性能的提升

实验进一步发现，迭代反馈是提升修复能力的关键因素。与不使用工具、也不接收后续反馈的单轮 Bare-LLM 基线相比，GPT-5 在 x86_64 → aarch64 方向上的成功率由6.13%提升至63.19%，提升超过 10 倍。在三轮迭代过程中，GPT-5 的累计成功率从第一轮的36.81%增长到第三轮的63.19%；GPT-5-mini 与 Qwen3-max 也都表现出明显提升。这说明，真实构建日志中的反馈信息能够帮助模型逐步修正错误假设、补充缺失修改，并提升最终收敛能力。

研究还发现，不同模型不仅在“能否修复”上存在差异，在“如何修复”上也呈现出不同风格。

图 2：不同模型的工具调用行为

GPT-5 与 GPT-5-mini 倾向于更积极地调用结构提取、文件读取、内容修改与构建验证等工具，展现出较强的端到端任务完成能力；而部分模型则更容易陷入低效行为，例如频繁重复检查构建结果，却没有进行实质性代码修改或配置修改。该结果表明，未来评价大语言模型的软件工程能力，不能只看最终答案，还应关注其工具使用策略与过程质量。

5.研究意义与展望

本研究将大语言模型评测从“代码生成”和“单点修复”推进到更贴近真实软件工程实践的系统级构建与迁移任务。Build-bench 表明，未来模型不仅要理解代码，还要处理依赖关系、构建脚本、异构环境、外部工具和多轮反馈。

研究也揭示出当前模型仍有若干不足：对超长、交织构建日志的理解仍不充分；在多文件一致性维护方面仍有明显局限；工具调用顺序有时缺乏稳定的程序性记忆；对反向迁移场景的适应能力仍明显弱于主流迁移方向。

未来，研究团队将进一步扩展 Build-bench 至更多体系结构，并探索更可控、自托管的构建环境，以提升实验可重复性与长期稳定性。总体而言，Build-bench 为回答“大语言模型能否真正构建真实世界软件系统”提供了可量化、可复现、可扩展的研究基础，也揭示了当前模型在复杂系统级构建任务中的能力边界。

不过，评测只是第一步。面对更复杂的软件包故障，如何让智能体在多轮修复中持续保留失败证据、减少重复无效操作，并在构建反馈驱动下逐步收敛，仍是下一阶段的重要问题。围绕这一挑战，研究团队进一步提出了证据保留修复框架 EvidenT，将在本系列下一篇中介绍。

上一篇：天津市软件体验与人机交互重点实验室下一篇：betway中国西汉姆联两篇论文被软件工程领域CCF A类国际会议 FSE 2026录用