Browser Useから新しいブラウザ操作系エージェントが登場しました めちゃくちゃ魅力的だったので紹介します。 従来のブラウザ操作系エージェント browser-useに限らず、従来のブラウザ操作系エージェントはユーザーからの自然言語な指令をもとにブラウザを操作します。 AIエージェントは画面キャプチャ + DOMの取得 → キャプチャを解析 → クリックすべき要素を推論 → playwrightで操作をループしてタスクを行います。 現在僕もよく使っているのですが、何点か課題があります。 どうしてもアクションに揺らぎがある 自然言語での指示である以上仕方ないのですが、「〇〇をクリックして〇〇をしてほしい」と言った細かい指示はプロンプトのチューニングが不可欠であり使用モデルの賢さにも依存します。 処理に時間がかかる 画面キャプチャ + DOMの取得 → キャプチャを解析 → クリックすべ
