自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

强化学习曾小健

强化学习、大模型、AIGC、AGI

  • 博客(4465)
  • 资源 (1)
  • 收藏
  • 关注

原创 北大麻将源码 ​/mahjong-rl/model_pool.py​ 用 FIFO 策略管理模型,利用共享内存实现跨进程通信和数据共享,适用于分布式或并行环境下的模型参数管理。

服务端 (:管理模型的存储和共享内存的分配。客户端 (:通过共享内存获取模型的元信息或加载模型参数。模型池采用FIFO策略管理模型,利用共享内存实现跨进程通信和数据共享,适用于分布式或并行环境下的模型参数管理。

2024-12-31 23:37:37 1128

原创 RICAI -A Review of Mahjong AI Research 论文 麻将AI论文

由Mizukami N(2015)提出,使用逻辑回归构建对手预测模型,预测对手是否快赢、胜利牌和支付点数。该模型的基础是为后续研究奠定了基础,并且在防守方面表现良好。然而,该模型在攻击性方面存在不足,因为它没有考虑玩家得分对选择动作的影响。

2024-12-30 14:43:15 913

原创 我叫曾小健,开发第一线:新Windows与开发环境:大模型LLM/量化 Win-Mac统一快捷键体验 win强制关机:shutdown /s /f /t 0

对于开发者用Windows来说,最大的建议就是不要用Windows,既然必须要用,那就来吧!!!

2023-07-24 10:45:24 391

原创 Ubuntu Linux AI大模型开发常用命令 - 更新中 包括NVIDIA状态,和安装相关常用软件包,没事就背背 - 背诵创造美好生活

Ubuntu AI大模型开发常用命令 - 更新中 包括NVIDIA状态,NVIDIA状态,实时更新:和安装相关常用软件包没事就背背,增加开发效率。

2023-06-21 11:28:05 610

原创 Suno AI API 项目主页github

Suno.ai v3 是一个令人惊叹的 AI 音乐服务,虽然官方还没有开放 API,但我们已经迫不及待的想在某些地方集成它的能力。我们发现有些用户也有类似的需求,所以我们将这个项目开源了,希望你们喜欢。当做一个工具/插件/操作时,你可以把 suno ai 集成到你的 AI Agent 中。suno-api 是一个非官方的开源项目,供初学者学习和研究使用。使用API​​调用suno.ai的音乐生成AI,并且可以轻松。: 合并音乐,将扩展后的音乐和原始音乐合并。: 在一首音乐的基础上,扩展音乐长度。

2025-06-03 00:17:13 302

原创 Suno.ai v3 Suno API

在 Vercel 仪表板中添加一个环境变量,其中包含第一步中获得的 cookie 的值。虽然官方 API 尚未开放,但我们迫不及待地想将其功能集成到某个地方。我们发现一些用户有类似的需求,所以我们决定开源这个项目,希望你会喜欢它。1.获取你的app.suno.ai账户的cookie。如果您在本地运行此程序,请确保将以下内容添加到您的。如果部署到 Vercel,请。4. 运行 suno-api。5. 使用 Suno API。查看详细的 API 文档。3.配置suno-api。部署到 Vercel。

2025-06-03 00:14:43 271

原创 刚刚,AI科学家Zochi在ACL「博士毕业」,Beta测试今日上线

在没有任何任务特定优化的情况下,Zochi 达到了最先进水平,在 80% 的任务上超过了人类表现中位数,并在 50% 的任务中获得奖牌。这使得 Llama-2-7B 仅用 0.0098% 的参数就实现了 93.94% 的 AlpacaEval 胜率,超越了 GPT-3.5-Turbo,并获得了同行的高度评价。在使用基于 NeurIPS 会议指南的自动审稿人进行评估时,Zochi 的论文获得了 8、8 和 7 的高分,均远高于顶级机器学习会议平均录用论文 6 分的接收门槛。

2025-06-01 00:54:36 527

原创 在大公司卡在中层?你可能缺了这个能力

他前期调研充分,主动同步信息,解决各方顾虑,逐步获得多方信任,项目最后还被评为总部的协作范例。在最近一次为管理者设计领导力课程的访谈中,几位高管指出:在复杂的矩阵型组织里,中层面临的最大挑战,不是专业能力,也不是业务能力,而是——👉 提醒:不要想当然别人知道自己的境遇,理解自己,而是要转化视角,对齐认知,用对方听得懂到语言说到点上、说出价值、说出对方的痛点。但越是复杂的组织,越需要中层成为“连接上下的中枢”,而不是“命令的搬运工”。从中层到高层,只有专业能力和服务年限,远远不够,想要破圈,就需要——。

2025-05-30 15:58:46 792

原创 天工AI杀疯了!一键搞定小说设定/PPT/表格,打工人狂喜!

讲多了担心大家觉得烦,简单讲,就是天工针对我们的日常打工场景,干了一票大的,在文档、ppt、表格、网页、播客、通用模式方面都做了Agent,全都可以一键生成,并且效果很不错,其中文档、ppt、表格这三个Agent更是加入了Deep Research的专家级Agent。帮我生成一个中国不同城市的毛绒绒效果vlog,内容分别是毛绒绒的蓝色领结的小柴犬到北京、上海、成都、深圳、广州等地旅游,并与这些地方的著名景点自拍合照,景点也是毛绒绒的质感, 小柴犬表情开心,背景地标建筑明显,配乐轻松欢快有趣。

2025-05-30 12:02:55 753

原创 请详细说名大模型并行训练为什么选机器都是2的次方级别?

请详细说名大模型并行训练为什么选机器都是2的次方级别?

2025-05-30 11:58:05 936

原创 10台八块机器具体怎么分块,allreduce过程

项目描述总 GPU10 台 × 8 卡 = 80并行方式切分矩阵乘法、attention 等重型层划分模型层级,流水调度多份数据、多份模型副本,通过 AllReduce 同步梯度通信方式TP/PP 使用 send/recv,DP 使用 AllReduce(NCCL)通信优化建议使用 NCCL + InfiniBand 或 RoCEv2 + NVLink(intra-node)

2025-05-30 11:48:24 641

原创 币圈战神:比特币持续震荡,保持震荡思路布局;

1、特朗普总统明天将与埃隆·马斯克举行新闻发布会。“这将是他的最后一天,但并非如此……埃隆太棒了!2、Coinbase即将在美国旧金山重新开设办公室;3、英国改革党领袖奈杰尔·法拉奇 (Nigel Farage)将提出战略比特币储备法案。4、华尔街巨头Cantor Fitzgerald 将推出黄金支持的比特币基金;5、摩根大通:美国现货加密货币 ETF周三资金流入强劲;

2025-05-30 11:25:02 485

原创 AI Agent报告深度:2025Agent元年,AI从L2向L3发展(附下载)

比如,微软的Windows Copilot、谷歌的Vertex AI Agent Builder、百度的文心智能体平台等,都旨在构建强大的生态系统,巩固其在AI Agent领域的地位。比如,法律领域的Harvey AI,金融领域的同花顺、新致软件,医疗领域的润达医疗、卫宁健康等,都在各自的领域内建立了深厚的壁垒。强化学习训练方法的成熟,更是激发了AI与环境交互的潜力,O1、O3等模型在纯文本领域的成功,为多模态Agent的训练提供了范式。技术的进步,如同春风化雨,为Agent的普及创造了条件。

2025-05-30 11:19:57 695

原创 一年前市值超越阿里的拼多多,现在只有阿里的一半了

要知道,2024 年四季度,该业务的收入还有 535.99 亿元,较 2023 年同期的人民币 402.054 亿元增长 33%。总的来说,就是在状态不好的情况下,拼多多选择继续补贴商家和顾客,继续维护自己生态的竞争力,一直等到未来情况明朗。,一来拼多多的自营占比非常少,二来拼多多上面的店铺大部分是经销商开的,并不是品牌直营店。拼多多从未对 TEMU 的经营数据做过明确的披露,但市场普遍认为拼多多的出海业务。来讲是无法忽视的。不过,短期影响也是影响,拼多多接下来几个季度的利润表现,搞不好还会很难看。

2025-05-30 11:08:54 658

原创 68岁王东升又干出一个IPO!北京AI芯片独角兽,冲刺“RISC-V第一股”

作为AI时代的重要载体,智能终端正成为赋能便捷生活的核心手段,通过智能感知、人机交互与高效计算,重新定义人与物理世界的交互方式。近年来,RISC-V生态步入快速扩张阶段,谷歌、高通、英伟达等科技公司纷纷支持RISC-V国际基金会统一标准并增强开发工具。这一势头因行业投入力度不断加大,还在进一步增强。奕斯伟计算的系统化研发能力、RISAA开放平台与RDI、「三重复用」商业模式以及创新人才培育体系,使其从竞争中脱颖而出,成为颇具影响力的智能终端及具身智能解决方案提供商。

2025-05-30 10:47:56 938 1

原创 Lovart一手体验,人人都是设计师?

Tammy AI商业科技 2025年05月29日 20:32 广东产品名称:Lovart官网:www.lovart.ai产品定位:世界上第一个专业设计类Agent今天终于有时间体验了Lovart,前段时间被刷屏好久。刚开始写的提示词有点随意,生成的logo几乎没有满意的。然后上传了一些自己喜欢的logo,作为参考,也稍微调整了提示词,最后生成的logo还不错,可以直接拿来用了。对于普通人来说,使用专业Agent,只要能准确地描述出自己的需求就可以了。输入设计需求,Agent将自动完成灵感收集、设计计划、设计

2025-05-30 10:43:14 418

原创 Anthropic CEO 的一个惊人判断

8、为了让大众更好的看到 AI 对就业市场的影响,Anthropic 现在做的一件重要的事情就是发布 AI 经济指数报告,每个月发布一份,来具体详细的追踪企业对 AI 的采用情况,以及哪些岗位受到了影响。6、今年,我曾经写过几篇企业采用 AI 的文章,令人印象深刻的是,很多 CEO 都明确表达了这样的观点:在招人之前,请回答为什么 AI 不能胜任这份工作。2、AI 技术肯定会带来一系列的好处,比如癌症被治愈,经济每年增长 10%,但也有 20% 的人可能还失去工作。在采访里说了一些惊人的判断。

2025-05-30 10:07:34 256

原创 什么叫因果语言模型中的下三角注意力矩阵,还有上三角注意力矩阵, 这在矩阵乘法和最终的语言模型中有什么具体意义,请详细说明

下三角矩阵用于因果语言模型,确保每个词只能依赖于其之前的词,从而避免未来的信息泄露。上三角矩阵则允许模型在某些应用中访问未来的信息,通常用于非因果模型或双向模型。矩阵乘法中的这些遮蔽矩阵通过控制注意力权重的计算范围,确保模型在训练和推理过程中能够正确地建模输入数据的关系。

2025-05-29 10:51:05 530

原创 被贵人追着喂饭的人,都有一个共性:因为你在他的“估值体系”里被严重低估。

这场“投资”看似赌命,实则早有算计:异人血统纯正却处境艰难,吕不韦看中的正是他“低估值高潜力”的特质。但某天你正巧想炖汤,突然发现角落里有个摊主在整理一堆带泥的萝卜,蔫叶子还没摘干净,但根部饱满水灵。他说,自己明明勤奋踏实,甚至主动给领导跑腿打杂,但升职加薪的好事永远轮不上他。后来穆彰阿失势,门生纷纷避嫌,唯独曾国藩照常拜访,还替他在咸丰帝面前周旋。就像上面讲的那件事,实习生不主动,就没人发现他的能力。“贵人运”的玄学,但往深了想,其实是个体差异的必然。“一条鞭法”,顾璘的门生故旧成了他最坚定的支持者。

2025-05-29 10:34:59 407

原创 如何发现身边极度聪明的人

聪明人在沟通中一般不会急着表达,而是先听别人怎么说,若是别人说的有道理,他们一般只是点头默许,若是别人说的不够全面,他们只做适当的补充,他们不会急于表现自己。作为普通人,我们想逆天改命,或者让自己过的更好,一定要践行终身学习,终身成长的理念,只有大量的阅读,读的书多了,遇到问题解决的方法自然就有了。就拿减肥来说,若是想减肥,一旦计划制定,就严格按照计划执行,在执行的过程中慢慢调整,使自己的身体适应变化,只要坚持执行,都能达到目的。不读书,眼前就是世界,读书,眼前就是世界,读书和不读书,认知是不一样的。

2025-05-29 10:23:45 250

原创 如何判断一个人的认知在你之上?

在舒适区做事,你会有更多的掌控感和安全感,但未必快乐,也有可能无聊。总认为,体面的工作,就应该是,西装革履,写字楼,带咖啡机的办公室。你知道前方艰难,但你愿意尝试不内耗自己,按照自己的节奏来执行。你明知道自己不够强,但你愿意接纳自己的不完美,仍然持续投入;词汇即语言,语言即逻辑。语言的边界,就是你思考的边界。你不是怕失败,而是怕别人看到你失败的样子,尤其是。

2025-05-29 10:19:57 914

原创 《教父》:判断一个人的层次高低,不要看他的穿衣打扮,也不要看他的职位高低,而是要看他是否具备这3种“暗能力”

层次的高低,从来不是由西装价格或职位头衔决定。教父维多穿着旧西装,却用冷静、博弈与规则构建了一个帝国。普通人在混乱中发泄情绪,高手在沉默中布局未来;普通人被利益冲昏头脑,智者用利益编织网络;普通人践踏规则求快钱,强者敬畏规则谋长远。正如书中的那句箴言:“一个人只有一种命运。而命运的答案,早在你选择修炼何种“暗能力”时便已写下。

2025-05-29 10:13:29 640

原创 对标Claude 4的野心!DeepSeek R1-0528重磅升级 | 长文本+超强编程,中国AI再掀风暴!

DeepSeek的“深夜放大招”风格已成为行业常态,但每次更新都在夯实其技术护城河。从长文本到编程,从开源到性价比,R1-0528的升级不仅是参数堆砌,更是对实际需求的精准回应。中国AI的这场“静悄悄的革命”,正在改写全球大模型竞争格局。

2025-05-29 09:20:17 767

原创 蚂蚁开源新RAG框架KAG,可达91%准确率

KAG 可以有效克服传统RAG 向量相似度计算的歧义性和OpenIE 引入的 GraphRAG的噪声问题,支持逻辑推理、多跳事实问答等。OpenIE: 神经开放域信息抽取(Open Information Extraction),也被称为开放信息抽取,是一种从非结构化文本中提取信息的强大技术。不同于传统的信息抽取方法,OpenIE 不依赖于预定义的领域知识或本体模式,使其具有更广泛的适用性和灵活性。KAG 的核心功能包括:知识与 Chunk 互索引结构,以整合更丰富的上下文文本信息。

2025-05-29 09:14:30 686

原创 0528这一夜,中国AI彻底翻身了:DeepSeek R1让全世界刮目相看 | 深度评测

哎,这个世界变化真的太快了!再保守就要错过更多机会了。后面黄叔会继续深度测评DeepSeek R1,看看什么时候可以用国产大模型把AI编程蓝皮书重写一遍。

2025-05-29 09:11:59 794

原创 无代码,半天时间,我用 Cursor 从零到一开发的微信小程序上线啦

其实,一开始 Cursor 确实是按照整个界面要求画的,实现的效果差不多,整个 UI 布局,也是上边有两个功能菜单,来切换「文案海报」和「图片水印」。Cursor 这里使用 Agent 模式,大家可以选择 AI 模型,我使用的是 Claude ,然后发送需求提示词,同时把原型图的两个界面扔给 Cursor ,它就会根据要求,开始自动写代码了。我感觉认证还行,挺快的,就是备案的过程太慢了,大概需要两周时间,先是要经过微信官方的备案审核,官方通过之后,提交给管局(国家知识产权局)审核,这个过程很慢,需要两周。

2025-05-29 08:58:42 717

原创 智平方:具身机器人灵活执行多种任务,已实现商业化落地 |BEYOND Expo 2025现场报道

性能上,AlphaBot 2 无需示范即可执行任务,全身自由度达 34+,垂直工作范围 0-240cm,单臂负载额定 5kg 最大 10kg,续航 6 小时并支持自动回充。公司专注于研发和生产通用智能机器人,已在北京、上海、深圳等地布局业务,并获多轮数亿元投资及多家千亿基金支持。,后者搭载自研的端到端具身大模型 Alpha Brain,已获得国内外头部车企、汽车电子等行业头部客户的认证,率先实现商业化落地,在高端制造、公共服务等领域为客户提供智能化服务。原创 Steven Li。在现场,最吸引我的便是。

2025-05-29 08:58:34 376

原创 说一说grpo相对于ppo的区别和优劣

PPO:作为一种成熟的强化学习算法,PPO 在多种任务中表现出色,具有良好的稳定性和广泛的适用性。GRPO:作为一种新兴的强化学习方法,GRPO 在大规模语言模型的微调中展现出显著的优势,特别是在计算效率和训练稳定性方面。FisherAI+5DeepSeek+5阿里云开发者社区+5对于大规模语言模型的微调任务,特别是在资源受限或需要处理多样化偏好数据的场景中,GRPO 提供了一个更高效、稳定的解决方案。FisherAI如果您对 GRPO 的具体实现细节或在特定任务中的应用有进一步的兴趣,欢迎继续交流探讨。

2025-05-29 06:55:27 555

原创 外刊选读| 年轻人沉迷“云恋人”:为什么当代年轻人宁愿和AI谈恋爱

市场研究机构SensorTower数据显示,头部应用"猫箱"在苹果商店的月活用户从去年7月的100万激增至今年2月的220万。市场研究机构SensorTower数据显示,头部应用"猫箱"在苹果商店的月活用户从去年7月的100万激增至今年2月的220万。29岁的帅女士虽有现实婚姻,但与丈夫矛盾不断,转而将情感寄托于猫箱中的"臣子"AI。29岁的帅女士虽有现实婚姻,但与丈夫矛盾不断,转而将情感寄托于猫箱中的"臣子"AI。“他”从她爱玩的游戏中走出来,打扮成她最喜欢的游戏角色,来充当她的“完美男友”。

2025-05-28 17:00:30 723

原创 相处久了你会发现,老实人除了表面老实愚钝、情商低,真正让人痛苦的是,他们从来不会主动去想办法解决问题

但有的老实人,不仅表面上性格木讷或情商不足,遇到了事也同样的迟钝,能退就退,能缩就缩,没有一点积极性,从来不去主动想办法解决问题。他们不是缺乏能力,而是形成了"被动型人格"的思维,这种不作为的惯性,让他们处于竞争失利、持续内耗焦虑,人际关系不健康的状态。当他们放下 “应该” 的包袱,走出 “尽力就好” 的借口,摆脱等待他人拯救的依赖,才能从问题的承受者,转变为生活的掌控者。这属于孔子所说的“讷于言而敏于行”的人,这样的人,成长尽管慢点,但不断积累,一定有所成就。

2025-05-28 17:00:09 419

原创 HR判断员工稳不稳定,最看重的细节是什么 不是你的能力有多强,也不是你对公司有多认同,而是你有没有“软肋“。

看到脉脉上这个帖子,不禁想起一个残酷的职场真相:很多HR判断员工稳不稳定,看的不是你的能力有多强,也不是你对公司有多认同,而是。那些还在用"软肋"筛选员工的企业,可能要重新思考一下:你们到底是在选人才,还是在找奴隶?他的理由很简单:员工真正发挥出巨大能量,才能生产出最好的产品,给客户带来价值,股东利润自然提升。这才是真正的企业责任——不是利用员工的负担,而是帮助员工承担负担。毕竟,在这个变化如此之快的时代,真正的稳定不是来自束缚,而是来自。现代职场的员工忠诚度,早就不是传统意义上的"对企业忠诚"了。

2025-05-28 16:23:02 547

原创 DeepEyes-端到端RL复刻o3的Thinking With Images能力

DeepEyes的idea缘于今年二月底一次饭桌上的讨论:R1出现以后,很多工作开始尝试把文本里训练RL的方法迁移到视觉领域,通过RL训练VL模型的cot来复刻视觉模型的aha moment,由于cot过程完全是用文本来推理的,大家对aha moment的预期还是会不会出现类似像wait、alternatively之类self-reflection的字眼,以及response length的上升是否伴随着评测集上acc的提升。

2025-05-28 16:20:57 868

原创 d1:通过GRPO在扩散LLM中缩放推理

在四项数学与逻辑推理任务中,经过监督微调(SFT)和diffu-GRPO强化学习训练的d1-LLaDA模型,其表现始终优于基础LLaDA-8B-Instruct模型。LLaDA数据来自我们采用相同的零样本(0-shot)评估协议所得结果,其他模型分数引自Ye等人(2025a)的Dream研究(GSM8K使用8样本提示,MATH采用4样本提示)。随着企业对响应敏捷、智能高效的AI需求增长,d1这类创新有潜力颠覆自回归模型的主导地位,或将开启基于扩散原理的新一代智能推理引擎时代。

2025-05-28 16:03:39 576

原创 Andrej Karpathy 盛赞!斯坦福团队新作,让Llama-1B 实现毫秒级推理

Andrej Karpathy 盛赞!斯坦福团队新作,让Llama-1B 实现毫秒级推理郑佳美2025年05月28日 15:51广东GPU 推理加速的下一步,是 kernel 融合。,并将低延迟推理能力推向了极限。在某些实时性极高的应用中,例如对话式 AI 和人类参与的交互式工作流中,大语言模型的响应速度不仅重要,甚至可以决定用户体验的成败。团队认为限制 LLM 推理速度的瓶颈其实是在内存加载的问题上,他们经过研究发现,现有的开源推理引擎(如。

2025-05-28 15:54:42 1028

原创 再见分布式湖仓一体, 你好DuckLake

我们仍然可以利用 Blob 存储的“无限”容量和“无限”可扩展性,以 Parquet 等开放格式存储实际的表数据,但我们可以更高效、更有效地管理支持数据库更改所需的元数据!因此,读取或事务的运行速度存在下限。但 DuckLake 并不局限于单一的目录数据库,因此随着需求的增长,例如从 PostgreSQL 迁移到其他数据库,是可行的。为了从 DuckLake 表中读取数据,只需向目录数据库发送一个查询,该数据库会执行基于模式、分区和统计信息的修剪,本质上是从 Blob 存储中检索要读取的文件列表。

2025-05-28 15:42:20 736

原创 我用DeepSeek解析了50本考研必读书籍,提取的核心知识点让我成功逆袭985

我把DeepSeek当作我的私人助教,让它帮我解析了考研必读的50本书,把那些厚重的书本变成了易于记忆的知识卡片。说实话,刚开始我也没想过用AI来帮我考研,都是被逼的。记得那会儿我刚开始准备考研,买了一堆专业书,但翻开就头疼 - 密密麻麻的文字看得我眼花。更重要的是,以前很多难懂的理论概念,通过AI的解释和举例,变得特别容易理解。比起其他模型,DeepSeek对专业知识的理解更深入一些,对中文的处理也更自然。我的做法是用它生成的内容和教材、老师讲解对比,有出入的地方以权威资料为准。

2025-05-28 15:41:06 797

原创 Qwen3技术报告新鲜出炉,8款模型背后的关键技术被揭晓!

具体来说,他们通过Qwen2.5-72B对问题进行筛选,然后使用QwQ-32B模型自动生成初步的解题步骤,这当中,人类专家对这些自动生成的解题步骤进行核对和修正,确保其准确性和可读性。Qwen团队构建了一个包含大量高质量数学和编程问题的数据集,并为每个问题标注了详细的解题步骤,然后使用这些标注数据对模型进行监督微调,使其掌握解题的关键技能和常见思路。可以看到,在明确具体需求之后,Qwen规划了方案,然后分成子问题进行检索、总结,研究过程用时约8分半,最终生成了带有表格的报告,并自动导出pdf。

2025-05-28 15:33:28 614

原创 Qwen团队发布长上下文Reasoning模型QwenLong-L1,超越o3-mini

系统会主动筛选“历史难题”,比如之前得分低的题目,让模型反复练习薄弱环节。平均得分70.7,超过OpenAI的o3-mini(70.4),直逼Claude-3.7(70.7)!这就像让一个只会做选择题的学生,突然面对开放式研究课题——必须用强化学习(RL)激发“主动推理”能力!新模型通过“分步目标”“自我验证”,从49页法律文件中精准提取数据,算出98万美元利息。传统方法靠“死记硬背”(监督学习),但长文本需要模型具备“主动思考”能力。:用另一个小模型判断答案语义是否合理(比如“10%”和“0.1”算对)

2025-05-28 15:25:53 798

原创 阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题,登HuggingFace热榜

这个成绩不仅超过了OpenAI-o3-mini(70.4分)、Qwen3-235B-A22B(70.6分),甚至和Claude-3.7-Sonnet-Thinking(70.7分)打成平手。在DocMath、Frames、2WikimQA等七个长文本基准测试中,QwenLong-L1-14B相比基础模型R1-Distill-Qwen-14B,平均提升了4.1分,超越了Gemini-2.0-Flash-Thinking和Qwen3-32B。通过及时验证和回溯,成功过滤掉了不相关的细节,得出了正确答案。

2025-05-28 15:23:02 903

原创 一个插件免费用顶级大模型,包括最新的 GPT-4o 生图和 Claude 3.7deepsider.ai

原创 大师兄2025年03月30日 19:03浙江直接进网站可以点离线安装,即下载下来再安装。注意看,它还贴心地提供了个「安装教程」。安装好后,用邮箱注册一下。然后,左下角下拉列表那里拉到最底部,会看到。因为有的时间段用的人比较多,你得多刷新几次,不要心急哦。

2025-05-28 15:00:04 418

搜索引擎概览 searchengine

搜索引擎概览 searchengine

2024-11-19

11个代码生成相关的论文,20241022更新版本-持续更新,包含代码搜索、代码搜索、代码模型survey、代码评论评估、代码评

find . -mindepth 2 -maxdepth 2 -type f -name "*.pdf" | awk -F/ '{print $(NF-1)}' | sort | uniq -c 2 代码或bug分类 1 代码搜索 1 代码生成 1 代码模型survey 1 代码评论评估 5 代码评估与提示

2024-10-22

10篇代码生成的论文,包括代码评估、代码搜索、代码生成、survey、代码或bug分类

题目 类型 分区 摘要 精读链接 Comparing large language models and humanprogrammers for generating programming code 代码评估 arxiv 评估七种LLMs在生成编程代码方面的性能,探讨不同提示策略对LLMs编码性能的影响,直接比较LLMs与人类程序员的编程能力,评估LLMs在不同编程语言之间生成和翻译代码的能力,以及考察LLMs的计算效率和从过去错误中学习的能力。 A Comparison of the Effectiveness of ChatGPT andCo-Pilot for Generating Quality Python Code 代码评估 会议 包括评估ChatGPT和Copilot在解决LeetCode编程问题上的有效性,探讨ChatGPT在接收到反馈后纠正代码的能力,以及其在提高代码质量和性能方面的潜力。 Program Code Generation with Generative AIs 代码评估 MDPI水刊-Algorithms非SCI 比较了人类生成的代码

2024-10-21

Multimodal Representation for Neural Code Search

—Semantic code search is about finding semantically relevant code snippets for a given natural language query. In the state-of-the-art approaches, the semantic similarity between code and query is quantified as the distance of their representation in the shared vector space. In this paper, to improve the vector space, we introduce tree-serialization methods on a simplified form of AST and build the multimodal representation for the code data. We conduct extensive experiments using a single corpu

2024-10-21

[MDPI水刊Algorithm非SCI]Program Code Generation with Generative AIs

[MDPI水刊-非SCI]Program Code Generation with Generative AIs

2024-10-21

Evolving code with a large language model

Evolving code with a large language model

2024-10-19

avx2_tensorflow-1.9.0-cp36-cp36m-win_amd64.zip

avx2_tensorflow1.9.0_win,avx2_tensorflow-1.9.0-cp36-cp36m-win_amd64.whl

2020-04-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除