Skyvern 简介
Skyvern[1] 一个使用大型语言模型(LLMs)和计算机视觉自动化浏览器工作流程的工具。 它通过API端点提供服务,能够在无需定制代码的情况下自动化多个网站上的手动工作流程。
Skyvern利用计算机视觉和LLMs实时解析视口(viewport)中的项目,规划交互并执行操作。
它具有适应网站布局变化、在未知网站上操作的能力,并能利用LLMs处理复杂交互情况。
项目特点
主要特点
-
无需定制代码:Skyvern 能够映射视觉元素到完成工作流所需的动作,无需任何定制代码。
-
抵抗网站布局变化:由于没有预定义的XPath或其他选择器,Skyvern 不会受到网站布局变化的影响。
-
跨网站工作流应用:Skyvern 能够将单一工作流应用于大量网站,因为它能够理解完成工作流所需的交互。
-
复杂情况处理:Skyvern 利用 LLMs 推理交互,以确保能够覆盖复杂情况。
使用场景
Skyvern 可以应用于多种场景,包括但不限于:
-
保险报价获取: