タグ

AIに関するgiassのブックマーク (218)

  • 【脱キーボード】Open Super Whisperで極上の文字起こし体験を手に入れる方法 - Qiita

    はじめに 長い文章をキーボードで打つのはもう古い! ChatGPT や Claude への質問、ブラウザ検索、コードレビューコメント――あなたが "今まで手入力していたテキスト" を、声だけで瞬時に入力してみませんか? 世界の音声認識/API 市場は 2024 年時点で 約 38 億ドル、今後も 年 14 % 超 の成長が見込まれています。その牽引役となっているのが AI 文字起こしツールです。 記事では、Super Whisper家) と、OpenAI API キーひとつで同じ快適さを提供する OSS 版 Open Super Whisper(今回開発したアプリ) を比較しながら、最速の導入方法と "AI と対話するための最強入力デバイス" としての活用術を紹介します。 1. Super Whisper とは? 1‑1. 概要 Super Whisper は、OpenAI の "W

    【脱キーボード】Open Super Whisperで極上の文字起こし体験を手に入れる方法 - Qiita
    giass
    giass 2025/04/29
  • 【マルチモーダル対応エージェント】Agent Development Kit でメディアエージェントを作る

    はじめに 次の 2 つの記事では、ADK で会話型エージェントを作る基的な方法、そして、マルチエージェントの基となるアーキテクチャーを学びました。この後の説明では、これらの記事で説明した用語が登場するので、まずはこれらの記事に目を通しておくことをお勧めします。 【超速報】Agent Development Kit で会話型エージェントを作成する 【マルチエージェント徹底入門】Agent Development Kit ではじめるマルチエージェント開発 今回の記事では、次のステップとして、画像ファイルなどのマルチメディアを取り扱うエージェントを作成します。Gemini API から単体の LLM を利用することで画像解析などができますが、このような機能を会話型のインターフェースで利用することを目指します。 ここでは一例として、クラウドストレージに保存された画像ファイルを分析する「メディア

    【マルチモーダル対応エージェント】Agent Development Kit でメディアエージェントを作る
    giass
    giass 2025/04/25
  • やさしいMCP入門

    4/9(水) お昼にYouTubeでも解説します🙌 やさしいMCP入門 & 実践LT会(KAGと学ぼう!勉強会) https://kddi-agile.connpass.com/event/351600/

    やさしいMCP入門
    giass
    giass 2025/04/21
  • [2025年4月18日] o3はもうほぼAGIでいいんじゃないですかね (週刊AI)

    こんにちは、Kaiです。 ほんとに毎週Big Tech系のアップデートや発表がありますね……。 OpenAIから、予告されていたo3とo4-miniが発表されました。まだ完全に使いこなしてはいませんが、これまで難しかったタスクを与えてみると、従来のモデルとは異なる印象を受けています。言語化するなら「自律性」でしょうか。この使用感は、むしろManusやGensparkスーパーエージェントに近いものがあります。 これまで、AIの性能や限界や知識を考慮した上で、人間がプロンプトエンジニアリングを実施することが一般的な使い方でした。しかし、o3はそういう配慮をあまり必要としていないように思います。つまり、「タスクに必要なツールや知識を自分で判断して収集し、結果を出す」という機能を備えているように見えるのです。 後述のXでシェアされている使用感も、自分でタスクを与えても、これまでプロンプトに組み込む

    [2025年4月18日] o3はもうほぼAGIでいいんじゃないですかね (週刊AI)
    giass
    giass 2025/04/20
  • GPT-4.1 の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Introducing GPT-4.1 in the API 1. GPT-4.1日、API に 3 つの新しいモデル、「GPT-4.1」「GPT-4.1 mini」「GPT-4.1 nano」をリリースします。これらのモデルは、コーディングと指示追従において大幅な改善が見られ、「GPT-4o」「GPT-4o mini」を全般的に上回る性能を発揮します。また、コンテキストウィンドウが拡大し、最大100万トークンのコンテキストをサポートすることで、ロングコンテキスト理解が向上し、そのコンテキストをより有効に活用できます。これらのモデルは、2024年6月を期限として更新されています。 「GPT-4.1」は、以下の業界標準指標において優れています。 ・コーディング 「GPT-4.1」は「SWE-bench Verified」で54.6%のスコ

    GPT-4.1 の概要|npaka
    giass
    giass 2025/04/17
  • Agent2Agent の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Announcing the Agent2Agent Protocol (A2A) 1. Agent2Agent (A2A)日、Atlassian、Box、Cohere、Intuit、Langchain、MongoDB、PayPal、Salesforce、SAP、ServiceNow、UKG、Workdayといった50社以上のテクノロジーパートナー、そしてAccenture、BCG、Capgemini、Cognizant、Deloitte、HCLTech、Infosys、KPMG、McKinsey、PwC、TCS、Wiproといった大手サービスプロバイダーの協力を得て、「Agent2Agent」(A2A) という新しいオープンプロトコルをリリースします。 「A2A」は、エージェントに役立つツールとコンテキストを提供する 「MCP」(An

    Agent2Agent の概要|npaka
    giass
    giass 2025/04/15
  • 【超速報】Agent Development Kit で会話型エージェントを作成する

    2025/04/18 追記 Agent Engine にデプロイする方法を追記しました。また、それに合わせてコードの構成を一部変更しました。 はじめに Agent Development Kit (ADK) が GitHub のリポジトリで公開されました。これは、会話型の LLM エージェントを作成するためのフレームワークで、複数の外部ツールを使い分けたり、あるいは、複数のエージェントが協調動作するマルチエージェントが作成できます。特に、ADK の特徴として、会話の流れを自然言語で簡単に記述・定義できるという点があるので、ここでは、この特徴を活かした LLM エージェントの構成例を紹介します。 環境準備 Vertex AI workbench のノートブック上で実装しながら説明するために、まずは、ノートブックの実行環境を用意しましょう。新しいプロジェクトを作成したら、Cloud Shell

    【超速報】Agent Development Kit で会話型エージェントを作成する
    giass
    giass 2025/04/14
  • 【非エンジニアにもわかる】Google が A2A 発表!MCP と補完し AI 連携へ|ラリオス|クラウドや AI の魅力をエモーショナルに|雲の向こう側

    みなさん、こんにちは!ラリオスです。私は今、熱気あふれるラスベガスで開催中の「Google Cloud Next '25」に来ています! 今日(現地時間 4 月 9 日)、AI に関する刺激的な発表があり、会場はすごい盛り上がりです。 KeyNote にはたくさんの人が訪れていましたそんな最新技術の中でも、特に「AI エージェント」は、私たちの働き方を変える可能性があります。これは、日々の繰り返し作業や少し複雑なタスクを自律的にこなしてくれるソフトウェアのこと。すでに企業では、パソコン手配の自動化やカスタマー サポート支援など、さまざまな場面で導入され、業務の効率化に貢献しています。 このように AI エージェントは便利な存在ですが、多くの企業では導入したエージェントが各システム内で孤立する「サイロ化」という課題を抱えています。経理、人事、顧客管理など、異なるシステムのエージェントが連携で

    【非エンジニアにもわかる】Google が A2A 発表!MCP と補完し AI 連携へ|ラリオス|クラウドや AI の魅力をエモーショナルに|雲の向こう側
  • Gemma 3 で RAG 機能付きの安全なローカル AI チャット環境を構築する

    出典:https://developers.googleblog.com/ja/introducing-gemma3/ 近年、大規模言語モデル(以下 LLM)の進化は目覚ましく、その性能向上と共に、クラウドだけでなく一般的な PC やノートパソコンでの実行も現実的になってきました。Mistral AI などがローカル実行可能なモデルを提供する中、2025 年 3 月 12 日に Google が公開した「Gemma 3」は、高性能かつ一般ユーザーの PC でも動作する軽量な LLM として大きな注目を集めています。 Gemma 3 は Gemini 2.0 の技術をベースにした高性能なモデルで、1B、4B、12B、27B の 4 つのサイズが用意され、様々なハードウェア環境に対応できるよう設計されています。実際、Chatbot Arena の Elo スコアでは、より大規模なモデルと比較し

    Gemma 3 で RAG 機能付きの安全なローカル AI チャット環境を構築する
    giass
    giass 2025/04/12
  • 最近1行もコードを書いていない

    最近のAIの進化は目覚ましく、コーディングにおいても、もはや人間が一切を関知せず"ノリ"で全てを完成させるvibe codingなる概念まで登場しました。 しかし、現実の業務にこれを適用すると、まあ、上手くいきません。 1ファイルで完結するようなスクリプトであれば上手くいきます。驚くほど上手くいってびっくりします。テトリスを書いて、と指示したらテトリスは完成するでしょう。 しかし現実のコーディングは素朴なテトリスを実装するほど単純ではありません。 LLMの限界 ここで一つの問いを考えます。 「入社初日の知識豊富なエンジニア」と「ここ数ヶ月の間、機能Aの開発に携わっている普通のエンジニア」、どちらが5分で機能Aの開発を進められるか? おそらく、答えは後者になると思います。 これがまさにAIによるコーディングに起こっていることで、 どれだけLLMの性能が向上したところで、実装に関する知識(コン

    最近1行もコードを書いていない
  • コーディング AI エージェントを自作してみよう

    コーディング AI エージェントを自作してみよう 好むと好まずと関わらず、ソフトウェア開発において AI の活用は重要なパラダイムシフトの 1 つです。AI エージェントはユーザーからの指示を元に自律的にタスクを選択し、実行します。この記事では、コーディング AI エージェントを自作する過程を紹介します。 好むと好まずと関わらず、ソフトウェア開発において AI の活用は重要なパラダイムシフトの 1 つです。The End of Programming as We Know It という記事ではプログラミングが終焉を迎えるのではなく、「今日私達が知っているプログラミングの終わり」であると述べられています。AI に置き換えられるのはジュニアおよび中級レベルのプログラマーではなく、新しいプログラミンツールやパラダイムを受け入れず過去に固執するプログラマーであるとというのです。 It is not

    コーディング AI エージェントを自作してみよう
  • Llama 4: Metaがもたらす新時代のマルチモーダルAI革命

    Llama 4: Metaがもたらす新時代のマルチモーダルAI革命 はじめに 2025年4月5日、Meta AIは待望の新しいAIモデルファミリー「Llama 4」を正式に発表しました。このLlama 4は、Metaにとって初めてのネイティブマルチモーダルモデルであり、また初めてMixture of Experts(MoE)アーキテクチャを採用したモデルでもあります。 現代のAI開発において、オープンソースモデルの重要性はますます高まっています。特に、日常生活でAIを活用する人々が増える中、先進的なモデルとシステムが広く公開されることで、誰もがパーソナライズされたAI体験の未来を構築できるようになります。 この記事では、Llama 4の革新的な特徴、その技術的背景、競合他社のモデルとの比較、そして将来の展望について詳しく解説します。AI技術者として、この新たなモデルがもたらす可能性と影響を

    Llama 4: Metaがもたらす新時代のマルチモーダルAI革命
    giass
    giass 2025/04/06
  • AIを用いた開発の効率を最大化させるためにやっていることを全部書く

    こんにちは、しば田です。 AI を用いたプログラミング、中々難しいです。 日々どうしたら効率を最大化できるかを日々試行錯誤していますが、なかなか正解に辿り着けている気もしないしモデルの登場のたびにチューニングが必要なのでツラいですね。 この記事では、自分の思考整理も兼ねて常日頃から私が意識して行っている Tips に関してまとめてみました。重要なことから些末なことまで全て書いています。 最近、Cursorのコミュニティが出していたTips17選に対して自分の考えを書いたのですが、 反響があったのでもっと網羅的に書きたいなと思い記事を書くことにしました。(30個くらいあります。) ※記事の対象者は Cursor、Windsurf、Cline(Roo)あたりを使ってプログラミングしている人を想定しています。 ※一覧性を優先するのでそれぞれを深くは語りません。 ※多分抜け漏れがあるので適宜追加し

    AIを用いた開発の効率を最大化させるためにやっていることを全部書く
  • 今から始めても遅くない!ComfyUI初心者ガイド - ⑧ローカルLLMを構築してみよう!|とーふのかけら

    主に、Text-to-Textモデルの生成AIとして広く活用されていますよね! 今回はこの環境をローカルに構築してみようというお話です。 Ollamaを使ってみよう今回使うのは、みんな大好きOllamaちゃんです! これがないと始まりません。 まずはダウンロードしてみましょう。 Ollama公式サイトDownloadから、導入環境のOSを選択してダウンロードしてください。 Ollama for Windows DownloadWindows環境ですが必須スペックとして以下になります。 OS : Windows10以上 RAM : 最低8GB(16GB以上推奨) Strage : 10GB以上の空き容量 インストールファイルをダウンロードしたら、実行せずにコマンドプロンプトを開きましょう。 コマンドプロンプトOllamaをダウンロードしたフォルダに階層変更しましょう。 cd C:\Input

    今から始めても遅くない!ComfyUI初心者ガイド - ⑧ローカルLLMを構築してみよう!|とーふのかけら
    giass
    giass 2025/04/02
  • AI利用「ガチ実態」調査、誰が何にAIを使っているのか?

    消費者に加え企業の間でもAI活用が広がる中、その利用実態を把握する試みが格化している。アンソロピックは2024年12月から2025年1月にかけて、自社サービスでの400万件以上のユーザー会話を分析した調査を発表した。実際の利用データをもとにした貴重な調査と言える。同調査では、AI利用の57%が「拡張・増強型」であることが判明し、AIが人間の仕事を奪うのではなく補完している現状も明らかになった。ここでは、同調査から、AIが実際にどのように活用されているのかを解説する。 バークリー音大提携校で2年間ジャズ/音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社を経てLivit参画。興味分野は、メディアテクノロジーの進化と社会変化。2014〜15年頃テックメディアの立ち上げにあた

    AI利用「ガチ実態」調査、誰が何にAIを使っているのか?
    giass
    giass 2025/04/01
    それ以上のことを求めてくる上位職。
  • AIの頭の中ではどのように情報が処理されて意思決定が行われるのかをAnthropicが解説

    大量のデータから学習する大規模言語モデルは、人間が直接設計したアルゴリズムとは異なり、学習の過程で独自に問題解決の戦略を獲得しますが、それらの戦略は開発者にとっても不可視であり、モデルがどのように出力を生成しているのかを理解するのは困難です。Anthropicは、同社が開発した大規模言語モデル・Claudeの「思考の軌跡」を可視化するための新たな研究成果をまとめた論文を複数発表しました。 Tracing the thoughts of a large language model \ Anthropic https://www.anthropic.com/research/tracing-thoughts-language-model Circuit Tracing: Revealing Computational Graphs in Language Models https://tra

    AIの頭の中ではどのように情報が処理されて意思決定が行われるのかをAnthropicが解説
    giass
    giass 2025/03/29
  • みんなのためのLLMアプリケーション開発環境の構築事例

    はじめに こんにちは。Game Platform DevのDong Hun Ryoo、Takenaka、Zhang Youlu(Michael)、Hyungjung Leeです。私たちの組織は、ゲームパブリッシングに必要なさまざまな機能を開発・運用する役割を担っています。 私たちは最近、組織内の業務効率を高めるためにさまざまなLLM(large language model)アプリケーションを開発し、それと連携してLLMOpsシステムの構築プロジェクトを行いました。プロジェクトの主な目標の一つは、参入障壁が高いLLMアプリケーション開発を、職種に関係なく誰でも簡単に作成できる環境を構築することでした。そのため、さまざまなことを考えながら試行錯誤を経た結果、誰でも簡単にアクセスできる開発・デプロイ環境を整えました。 今回の記事では、LLMアプリケーションの一般的な開発方法と開発プロセスで直面

    みんなのためのLLMアプリケーション開発環境の構築事例
  • Playwright MCP技術解説 〜次世代ブラウザ自動化の可能性〜 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 1. はじめに C-RISEの村井です。 当社はクラウドBOTというブラウザ自動化サービスを提供しています。 クラウドBOTは、ブラウザ操作の自動化をよりシンプルに、そして多くの人にとって身近なものにするため開発してきました。 プログラミング不要で誰でも業務自動化ができることを目指し、これまで数多くのアップデートを重ねてきました。 そして、今月プレビュー版として公開したCloud BOT Operatorは、RPAによる定型操作ロボットという枠組みから一歩踏み出し、AIによる自動操作ロボットとしての可能性に挑戦しました。 エージェントが

    Playwright MCP技術解説 〜次世代ブラウザ自動化の可能性〜 - Qiita
  • Gemma3をローカル環境のDockerで動かす(Ollama+OpenWebUI)

    OllamaとOpenWebUIを使い、ローカル環境でGemma3を動かしてみました。4b以上のモデルであれば、次のように画像の入力もできます! 前提条件 OllamaおよびOpenWebUIを使うために、今回はDockerを使いました。 ローカル環境のスペック 私のローカル環境はこんな感じのスペックです。2019年春に購入したものなので古く、メモリは多いですがGPU性能はあまりよくありません。なお、1bであればConoHa VPS 2GBのGPUなし環境でも動きましたので、軽さに感動しました。 CPU: Intel Core i9-9900K @ 3.60GHz Memory: 64GB GPU: NVIDIA GeForce GTX 1060 6GB OS: Windows 11 Pro 環境構築 open-web-uiというディレクトリに次のcompose.ymlを作成しました。なお

    Gemma3をローカル環境のDockerで動かす(Ollama+OpenWebUI)
  • Agents

    Authors: Julia Wiesinger, Patrick Marlow and Vladimir Vuskovic