omnitool Agent复现采坑记录

Joker-Tong

已于 2025-04-21 15:11:26 修改

阅读量978

点赞数 19

CC 4.0 BY-SA版权

文章标签： python 深度学习

于 2025-04-21 14:28:47 首次发布

项目地址
本文主要记录一下最近复现项目过程中遇到的问题, 不涉及Omniparser的原理和Computer Use Agent的原理

Omnitool简单的来说就是把Omniparser与视觉大模型结合起来,做了一个可以控制电脑的agent

具体的项目介绍可以去官网查看, 官网还提供了视频介绍视频观看地址
在这里插入图片描述

复现项目分为三个组件,先总的来记录一下各个组件中遇到的问题

环境配置按照github项目来就行,没有什么问题

omniparserserver: FastAPI server running OmniParser V2.
- 修改omniparserserver中的ocr使其支持中文
omnibox: A Windows 11 VM running in a Docker container.
- 虚拟机安装过程中镜像不存在等问题
gradio: UI to provide commands and watch reasoning + execution on OmniBox
- 启动之后Windows Host is not responding问题
- 修改openai调用方式

util/omniparser.py中修改use_paddleocr=True
(text, ocr_bbox), _ = check_ocr_box(image, display_img=False, output_bb_format='xyxy', easyocr_args={'text_threshold': 0.8}, use_paddleocr=True)
util/utils.py中, 修改

其他: 也可以参考issues中的修改 reader = easyocr.Reader(['ch_sim','en'])
https://github.com/microsoft/OmniParser/issues/27

self.send_to_vm(f"pyperclip.copy('{
     
     text}')")
self.send_to_vm("pyautogui.hotkey('Ctrl', 'V')")

在这里插入图片描述

200万优质内容无限畅学