[B! AI] [3ページ] giassのブックマーク

【脱キーボード】Open Super Whisperで極上の文字起こし体験を手に入れる方法 - Qiita

はじめに長い文章をキーボードで打つのはもう古い！ ChatGPT や Claude への質問、ブラウザ検索、コードレビューコメント――あなたが "今まで手入力していたテキスト" を、声だけで瞬時に入力してみませんか？世界の音声認識/API 市場は 2024 年時点で約 38 億ドル、今後も年 14 % 超の成長が見込まれています。その牽引役となっているのが AI 文字起こしツールです。本記事では、Super Whisper（本家）と、OpenAI API キーひとつで同じ快適さを提供する OSS 版 Open Super Whisper（今回開発したアプリ）を比較しながら、最速の導入方法と "AI と対話するための最強入力デバイス" としての活用術を紹介します。 1. Super Whisper とは？ 1‑1. 概要 Super Whisper は、OpenAI の "W

giass 2025/04/29

AI

リンク

【マルチモーダル対応エージェント】Agent Development Kit でメディアエージェントを作る

はじめに次の 2 つの記事では、ADK で会話型エージェントを作る基本的な方法、そして、マルチエージェントの基本となるアーキテクチャーを学びました。この後の説明では、これらの記事で説明した用語が登場するので、まずはこれらの記事に目を通しておくことをお勧めします。【超速報】Agent Development Kit で会話型エージェントを作成する【マルチエージェント徹底入門】Agent Development Kit ではじめるマルチエージェント開発今回の記事では、次のステップとして、画像ファイルなどのマルチメディアを取り扱うエージェントを作成します。Gemini API から単体の LLM を利用することで画像解析などができますが、このような機能を会話型のインターフェースで利用することを目指します。ここでは一例として、クラウドストレージに保存された画像ファイルを分析する「メディア

giass 2025/04/25

agent
AI

リンク

やさしいMCP入門

4/9(水) お昼にYouTubeでも解説します🙌 やさしいMCP入門＆実践LT会（KAGと学ぼう！勉強会） https://kddi-agile.connpass.com/event/351600/

giass 2025/04/21

mcp
AI

リンク

[2025年4月18日] o3はもうほぼAGIでいいんじゃないですかね (週刊AI)

こんにちは、Kaiです。ほんとに毎週Big Tech系のアップデートや発表がありますね……。 OpenAIから、予告されていたo3とo4-miniが発表されました。まだ完全に使いこなしてはいませんが、これまで難しかったタスクを与えてみると、従来のモデルとは異なる印象を受けています。言語化するなら「自律性」でしょうか。この使用感は、むしろManusやGensparkスーパーエージェントに近いものがあります。これまで、AIの性能や限界や知識を考慮した上で、人間がプロンプトエンジニアリングを実施することが一般的な使い方でした。しかし、o3はそういう配慮をあまり必要としていないように思います。つまり、「タスクに必要なツールや知識を自分で判断して収集し、結果を出す」という機能を備えているように見えるのです。後述のXでシェアされている使用感も、自分でタスクを与えても、これまでプロンプトに組み込む

giass 2025/04/20

AI

リンク

GPT-4.1 の概要｜npaka

以下の記事が面白かったので、簡単にまとめました。・Introducing GPT-4.1 in the API 1. GPT-4.1本日、API に 3 つの新しいモデル、「GPT-4.1」「GPT-4.1 mini」「GPT-4.1 nano」をリリースします。これらのモデルは、コーディングと指示追従において大幅な改善が見られ、「GPT-4o」「GPT-4o mini」を全般的に上回る性能を発揮します。また、コンテキストウィンドウが拡大し、最大100万トークンのコンテキストをサポートすることで、ロングコンテキスト理解が向上し、そのコンテキストをより有効に活用できます。これらのモデルは、2024年6月を期限として更新されています。「GPT-4.1」は、以下の業界標準指標において優れています。・コーディング「GPT-4.1」は「SWE-bench Verified」で54.6%のスコ

giass 2025/04/17

AI

リンク

Agent2Agent の概要｜npaka

以下の記事が面白かったので、簡単にまとめました。・Announcing the Agent2Agent Protocol (A2A) 1. Agent2Agent (A2A)本日、Atlassian、Box、Cohere、Intuit、Langchain、Mongo DB、PayPal、Salesforce、SAP、ServiceNow、UKG、Workdayといった50社以上のテクノロジーパートナー、そしてAccenture、BCG、Capgemini、Cognizant、Deloitte、HCLTech、Infosys、KPMG、McKinsey、PwC、TCS、Wiproといった大手サービスプロバイダーの協力を得て、「Agent2Agent」(A2A) という新しいオープンプロトコルをリリースします。「A2A」は、エージェントに役立つツールとコンテキストを提供する「MCP」(An

giass 2025/04/15

AI

リンク

【超速報】Agent Development Kit で会話型エージェントを作成する

2025/04/18 追記 Agent Engine にデプロイする方法を追記しました。また、それに合わせてコードの構成を一部変更しました。はじめに Agent Development Kit (ADK) が GitHub のリポジトリで公開されました。これは、会話型の LLM エージェントを作成するためのフレームワークで、複数の外部ツールを使い分けたり、あるいは、複数のエージェントが協調動作するマルチエージェントが作成できます。特に、ADK の特徴として、会話の流れを自然言語で簡単に記述・定義できるという点があるので、ここでは、この特徴を活かした LLM エージェントの構成例を紹介します。環境準備 Vertex AI workbench のノートブック上で実装しながら説明するために、まずは、ノートブックの実行環境を用意しましょう。新しいプロジェクトを作成したら、Cloud Shell

giass 2025/04/14

LLM
AI

リンク

【非エンジニアにもわかる】Google が A2A 発表！MCP と補完し AI 連携へ｜ラリオス|クラウドや AI の魅力をエモーショナルに|雲の向こう側

みなさん、こんにちは！ラリオスです。私は今、熱気あふれるラスベガスで開催中の「Google Cloud Next '25」に来ています！今日（現地時間 4 月 9 日）、AI に関する刺激的な発表があり、会場はすごい盛り上がりです。 KeyNote にはたくさんの人が訪れていましたそんな最新技術の中でも、特に「AI エージェント」は、私たちの働き方を変える可能性があります。これは、日々の繰り返し作業や少し複雑なタスクを自律的にこなしてくれるソフトウェアのこと。すでに企業では、パソコン手配の自動化やカスタマーサポート支援など、さまざまな場面で導入され、業務の効率化に貢献しています。このように AI エージェントは便利な存在ですが、多くの企業では導入したエージェントが各システム内で孤立する「サイロ化」という課題を抱えています。経理、人事、顧客管理など、異なるシステムのエージェントが連携で

giass 2025/04/13

google
AI

リンク

Gemma 3 で RAG 機能付きの安全なローカル AI チャット環境を構築する

出典：https://developers.google blog.com/ja/introducing-gemma3/ 近年、大規模言語モデル（以下 LLM）の進化は目覚ましく、その性能向上と共に、クラウドだけでなく一般的な PC やノートパソコンでの実行も現実的になってきました。Mistral AI などがローカル実行可能なモデルを提供する中、2025 年 3 月 12 日に Google が公開した「Gemma 3」は、高性能かつ一般ユーザーの PC でも動作する軽量な LLM として大きな注目を集めています。 Gemma 3 は Gemini 2.0 の技術をベースにした高性能なモデルで、1B、4B、12B、27B の 4 つのサイズが用意され、様々なハードウェア環境に対応できるよう設計されています。実際、Chatbot Arena の Elo スコアでは、より大規模なモデルと比較し

giass 2025/04/12

AI
LLM

リンク

最近1行もコードを書いていない

最近のAIの進化は目覚ましく、コーディングにおいても、もはや人間が一切を関知せず"ノリ"で全てを完成させるvibe codingなる概念まで登場しました。しかし、現実の業務にこれを適用すると、まあ、上手くいきません。 1ファイルで完結するようなスクリプトであれば上手くいきます。驚くほど上手くいってびっくりします。テトリスを書いて、と指示したらテトリスは完成するでしょう。しかし現実のコーディングは素朴なテトリスを実装するほど単純ではありません。 LLMの限界ここで一つの問いを考えます。「入社初日の知識豊富なエンジニア」と「ここ数ヶ月の間、機能Aの開発に携わっている普通のエンジニア」、どちらが5分で機能Aの開発を進められるか？おそらく、答えは後者になると思います。これがまさにAIによるコーディングに起こっていることで、どれだけLLMの性能が向上したところで、実装に関する知識（コン

giass 2025/04/12

開発
AI

リンク

コーディング AI エージェントを自作してみよう

コーディング AI エージェントを自作してみよう好むと好まずと関わらず、ソフトウェア開発において AI の活用は重要なパラダイムシフトの 1 つです。AI エージェントはユーザーからの指示を元に自律的にタスクを選択し、実行します。この記事では、コーディング AI エージェントを自作する過程を紹介します。好むと好まずと関わらず、ソフトウェア開発において AI の活用は重要なパラダイムシフトの 1 つです。The End of Programming as We Know It という記事ではプログラミングが終焉を迎えるのではなく、「今日私達が知っているプログラミングの終わり」であると述べられています。AI に置き換えられるのはジュニアおよび中級レベルのプログラマーではなく、新しいプログラミンツールやパラダイムを受け入れず過去に固執するプログラマーであるとというのです。 It is not

giass 2025/04/10

AI
開発

リンク

Llama 4: Metaがもたらす新時代のマルチモーダルAI革命

Llama 4: Metaがもたらす新時代のマルチモーダルAI革命はじめに 2025年4月5日、Meta AIは待望の新しいAIモデルファミリー「Llama 4」を正式に発表しました。このLlama 4は、Metaにとって初めてのネイティブマルチモーダルモデルであり、また初めてMixture of Experts（MoE）アーキテクチャを採用したモデルでもあります。現代のAI開発において、オープンソースモデルの重要性はますます高まっています。特に、日常生活でAIを活用する人々が増える中、先進的なモデルとシステムが広く公開されることで、誰もがパーソナライズされたAI体験の未来を構築できるようになります。この記事では、Llama 4の革新的な特徴、その技術的背景、競合他社のモデルとの比較、そして将来の展望について詳しく解説します。AI 技術者として、この新たなモデルがもたらす可能性と影響を

giass 2025/04/06

AI

リンク

AIを用いた開発の効率を最大化させるためにやっていることを全部書く

こんにちは、しば田です。 AI を用いたプログラミング、中々難しいです。日々どうしたら効率を最大化できるかを日々試行錯誤していますが、なかなか正解に辿り着けている気もしないしモデルの登場のたびにチューニングが必要なのでツラいですね。この記事では、自分の思考整理も兼ねて常日頃から私が意識して行っている Tips に関してまとめてみました。重要なことから些末なことまで全て書いています。最近、Cursorのコミュニティが出していたTips17選に対して自分の考えを書いたのですが、反響があったのでもっと網羅的に書きたいなと思い記事を書くことにしました。（30個くらいあります。） ※記事の対象者は Cursor、Windsurf、Cline（Roo）あたりを使ってプログラミングしている人を想定しています。 ※一覧性を優先するのでそれぞれを深くは語りません。 ※多分抜け漏れがあるので適宜追加し

giass 2025/04/06

リンク

今から始めても遅くない！ComfyUI初心者ガイド - ⑧ローカルLLMを構築してみよう！｜とーふのかけら

主に、Text-to-Textモデルの生成AIとして広く活用されていますよね！今回はこの環境をローカルに構築してみようというお話です。 Ollamaを使ってみよう今回使うのは、みんな大好きOllamaちゃんです！これがないと始まりません。まずはダウンロードしてみましょう。 Ollama公式サイトDownloadから、導入環境のOSを選択してダウンロードしてください。 Ollama for Windows DownloadWindows環境ですが必須スペックとして以下になります。 OS : Windows10以上 RAM : 最低8GB（16GB以上推奨） Strage : 10GB以上の空き容量インストールファイルをダウンロードしたら、実行せずにコマンドプロンプトを開きましょう。コマンドプロンプトOllamaをダウンロードしたフォルダに階層変更しましょう。 cd C:\Input

giass 2025/04/02

AI

リンク

AI利用「ガチ実態」調査、誰が何にAIを使っているのか？

消費者に加え企業の間でもAI活用が広がる中、その利用実態を把握する試みが本格化している。アンソロピックは2024年12月から2025年1月にかけて、自社サービスでの400万件以上のユーザー会話を分析した調査を発表した。実際の利用データをもとにした貴重な調査と言える。同調査では、AI利用の57％が「拡張・増強型」であることが判明し、AIが人間の仕事を奪うのではなく補完している現状も明らかになった。ここでは、同調査から、AIが実際にどのように活用されているのかを解説する。バークリー音大提携校で2年間ジャズ／音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社を経てLivit参画。興味分野は、メディアテクノロジーの進化と社会変化。2014〜15年頃テックメディアの立ち上げにあた

giass 2025/04/01

それ以上のことを求めてくる上位職。

AI

リンク

AIの頭の中ではどのように情報が処理されて意思決定が行われるのかをAnthropicが解説

大量のデータから学習する大規模言語モデルは、人間が直接設計したアルゴリズムとは異なり、学習の過程で独自に問題解決の戦略を獲得しますが、それらの戦略は開発者にとっても不可視であり、モデルがどのように出力を生成しているのかを理解するのは困難です。Anthropicは、同社が開発した大規模言語モデル・Claudeの「思考の軌跡」を可視化するための新たな研究成果をまとめた論文を複数発表しました。 Tracing the thoughts of a large language model \ Anthropic https://www.anthropic.com/research/tracing-thoughts-language-model Circ uit Tracing: Revealing Computational Graphs in Language Models https://tra

giass 2025/03/29

AI

リンク

みんなのためのLLMアプリケーション開発環境の構築事例

はじめにこんにちは。Game Platform DevのDong Hun Ryoo、Takenaka、Zhang Youlu（Michael）、Hyungjung Leeです。私たちの組織は、ゲームパブリッシングに必要なさまざまな機能を開発・運用する役割を担っています。私たちは最近、組織内の業務効率を高めるためにさまざまなLLM（large language model）アプリケーションを開発し、それと連携してLLMOpsシステムの構築プロジェクトを行いました。プロジェクトの主な目標の一つは、参入障壁が高いLLMアプリケーション開発を、職種に関係なく誰でも簡単に作成できる環境を構築することでした。そのため、さまざまなことを考えながら試行錯誤を経た結果、誰でも簡単にアクセスできる開発・デプロイ環境を整えました。今回の記事では、LLMアプリケーションの一般的な開発方法と開発プロセスで直面

giass 2025/03/29

AI
開発

リンク

Playwright MCP技術解説〜次世代ブラウザ自動化の可能性〜 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 1. はじめに C-RISEの村井です。当社はクラウドBOTというブラウザ自動化サービスを提供しています。クラウドBOTは、ブラウザ操作の自動化をよりシンプルに、そして多くの人にとって身近なものにするため開発してきました。プログラミング不要で誰でも業務自動化ができることを目指し、これまで数多くのアップデートを重ねてきました。そして、今月プレビュー版として公開したCloud BOT Operatorは、RPAによる定型操作ロボットという枠組みから一歩踏み出し、AIによる自動操作ロボットとしての可能性に挑戦しました。エージェントが

giass 2025/03/29

リンク

Gemma3をローカル環境のDockerで動かす（Ollama+OpenWebUI）

OllamaとOpenWebUIを使い、ローカル環境でGemma3を動かしてみました。4b以上のモデルであれば、次のように画像の入力もできます！前提条件 OllamaおよびOpenWebUIを使うために、今回はDockerを使いました。ローカル環境のスペック私のローカル環境はこんな感じのスペックです。2019年春に購入したものなので古く、メモリは多いですがGPU性能はあまりよくありません。なお、1bであればConoHa VPS 2GBのGPUなし環境でも動きましたので、軽さに感動しました。 CPU: Intel Core i9-9900K @ 3.60GHz Memory: 64GB GPU: NVIDIA GeForce GTX 1060 6GB OS: Windows 11 Pro 環境構築 open-web-uiというディレクトリに次のcompose.ymlを作成しました。なお