- 博客(20)
- 收藏
- 关注
原创 大模型评估指标
2、ARC(AI2 Reasoning Challenge),AI到推理挑战,分为Challenge Set和Easy Set部分,挑战集合包括问题答案通过基于检索的算法和词并行算法。1、MMLU(Measuring Massive Multitask Language Understanding)多大量多任务语言理解能力评测,57个任务,Humanities,Social Scienc ,Science Technology Engineering and mathematics(STEM),
2025-08-04 11:47:33
186
原创 构建思维树解决情报分析问题
### 3. 状态评估器(State Evaluator):筛选优质分析分支 采用“**独立评分+联合投票**”双维度评估,确保分支的合理性与重要性: - **独立评分(数值化评估)** 对每个分支,用LM从3个维度打分(1-10分),加权计算总分(权重可自定义): 1. 相关性:该分支与核心问题的关联度(如“中东能源出口”与“欧洲能源安全”的相关性);”),选出前3-5个优质分支进入下一步。2. **分支对比**:不同分析角度的差异(如“地缘派”vs“经济派”对“俄欧妥协可能性”的分歧);
2025-07-19 19:58:15
374
原创 gui agent 厉害
包括文本描述和tootip描述,训练follow insturciton的训练,给定element和图片,使用mobile的数据和general数据,没有早期发展的内容,导致训练follow的内容,有非常大创新,有benchmark的内容,涉及到os web等内容,benchmark 结。2、使用planning model,grounding model失效,next step,mobile zero-shot,都能达到sota的性能,gui action的任务,构建场景和指令,
2025-07-05 12:50:43
95
原创 富文本编辑器 6月17日
npm install @wangeditor/editor-for-react --legacy-peer-deps 强制安装。wangeditor 王编辑器。
2025-06-18 17:13:14
84
原创 大模型智能体专题
GUI Agents 即图形用户界面智能体,是人工智能领域中一种能够在图形用户界面环境下理解、解释并执行用户命令的智能程序2。检索引入知识,开展实验,智能体完成任务,做action的比例,KnowSelf以约15-26%的知识量超越了所有100%,深蓝色Gemma-2B,知识智能体在开放环境的领域适应性,为知识密集型行业应用落地。agent tool use能力,考察大模型智能体的能力,自适应交换对于MLLM GUI-Agent,直接搜屏幕,GUI agent混合训练,能够。逆向合成,从反向找到解决途径。
2025-06-15 07:35:20
914
原创 调用后端程序的代码
console.log('返回的文本数据:', response.data.reply);console.log('后端返回的数据:', response.data);console.log('用户数据:', response.data);console.error('用户信息请求错误:', error);message.success('用户输入的是:' + text)message.success('用户信息获取成功');message.error('获取用户信息失败');// 打印后端返回的数据。
2025-06-12 22:25:09
170
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人