omnitool Agent复现采坑记录

omnitool Agent复现采坑记录

项目地址
本文主要记录一下最近复现项目过程中遇到的问题, 不涉及Omniparser的原理和Computer Use Agent的原理

项目介绍

Omnitool简单的来说就是把Omniparser与视觉大模型结合起来,做了一个可以控制电脑的agent

具体的项目介绍可以去官网查看, 官网还提供了视频介绍 视频观看地址
在这里插入图片描述

复现步骤与采坑概述

复现项目分为三个组件,先总的来记录一下各个组件中遇到的问题

环境配置按照github项目来就行,没有什么问题

  • omniparserserver: FastAPI server running OmniParser V2.
    • 修改omniparserserver中的ocr使其支持中文
  • omnibox: A Windows 11 VM running in a Docker container.
    • 虚拟机安装过程中镜像不存在等问题
  • gradio: UI to provide commands and watch reasoning + execution on OmniBox
    • 启动之后Windows Host is not responding问题
    • 修改openai调用方式

1. omniparserserver修改中文

  1. util/omniparser.py中修改use_paddleocr=True
    (text, ocr_bbox), _ = check_ocr_box(image, display_img=False, output_bb_format='xyxy', easyocr_args={'text_threshold': 0.8}, use_paddleocr=True)
  2. util/utils.py中, 修改
    在这里插入图片描述
  • 其他: 也可以参考issues中的修改 reader = easyocr.Reader(['ch_sim','en'])
    https://github.com/microsoft/OmniParser/issues/27
  1. 修改 omnitool/gradio/tools/computer.py
self.send_to_vm(f"pyperclip.copy('{
     
     text}')")
self.send_to_vm("pyautogui.hotkey('Ctrl', 'V')")

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Joker-Tong

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值