omnitool Agent复现采坑记录
项目地址
本文主要记录一下最近复现项目过程中遇到的问题, 不涉及Omniparser的原理和Computer Use Agent的原理
项目介绍
Omnitool
简单的来说就是把Omniparser
与视觉大模型结合起来,做了一个可以控制电脑的agent
具体的项目介绍可以去官网查看, 官网还提供了视频介绍 视频观看地址
复现步骤与采坑概述
复现项目分为三个组件,先总的来记录一下各个组件中遇到的问题
环境配置按照github项目来就行,没有什么问题
omniparserserver: FastAPI server running OmniParser V2.
- 修改
omniparserserver
中的ocr
使其支持中文
- 修改
omnibox: A Windows 11 VM running in a Docker container.
- 虚拟机安装过程中镜像不存在等问题
gradio: UI to provide commands and watch reasoning + execution on OmniBox
- 启动之后
Windows Host is not responding
问题 - 修改
openai
调用方式
- 启动之后
1. omniparserserver修改中文
util/omniparser.py
中修改use_paddleocr=True
(text, ocr_bbox), _ = check_ocr_box(image, display_img=False, output_bb_format='xyxy', easyocr_args={'text_threshold': 0.8}, use_paddleocr=True)
util/utils.py
中, 修改
- 其他: 也可以参考issues中的修改
reader = easyocr.Reader(['ch_sim','en'])
https://github.com/microsoft/OmniParser/issues/27
- 修改
omnitool/gradio/tools/computer.py
self.send_to_vm(f"pyperclip.copy('{
text}')")
self.send_to_vm("pyautogui.hotkey('Ctrl', 'V')")