SolEval: Benchmarking Large Language Models for Repository-level Solidity Code Generation

主要内容

  1. 背景与动机:区块链和去中心化金融发展促使智能合约需求增长,Solidity作为以太坊智能合约主要编程语言,其代码生成工具的高效性和可靠性至关重要。现有大语言模型代码生成基准多针对主流语言,对Solidity关注不足,且已有Solidity基准存在规模小、脱离实际等问题,因此需要新的基准来评估大语言模型在Solidity代码生成方面的能力。
  2. SolEval基准构建:由9个真实代码库的1125个样本组成,涵盖6个领域。构建过程包括项目选择、函数解析、测试构建、人工标注和上下文解析五个关键阶段,以确保数据集的稳健性和多样性。
  3. 实验设置:选取10个前沿大语言模型,采用Pass@K、Compile@K、Vul(漏洞率)和Gas Fee(燃气费)等指标进行评估。实验在特定配置的工作站上进行,设置了不同的示例数量、选择策略和上下文信息等变量来探究其对模型性能的影响。
  4. 实验结果:不同模型在Solidity代码生成上性能差异大,最好的模型Pass@10也仅为26.29%。模型生成的智能合约在燃气费和漏洞率方面差异显著,且大模型不一定能生成燃气费低的代码。检索增强生成(RAG)和上下文信息可提升模型性能,但对燃气
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值