タグ

LLMに関するT-norfのブックマーク (219)

  • Claude 3.7 Sonnet and Claude Code

    Today, we’re announcing Claude 3.7 Sonnet1, our most intelligent model to date and the first hybrid reasoning model on the market. Claude 3.7 Sonnet can produce near-instant responses or extended, step-by-step thinking that is made visible to the user. API users also have fine-grained control over how long the model can think for. Claude 3.7 Sonnet shows particularly strong improvements in coding

    Claude 3.7 Sonnet and Claude Code
    T-norf
    T-norf 2025/02/25
    ベンチマークの図表は、コーディング特化で成長させてきた感じ。コーディングツールのAPI課金の売上貢献が大きいんじゃないかな。もともとGPT-4oより優秀だから、そうなってるところへの強化で、どこまで優秀か楽しみ
  • Clineに自分をエミュレートさせて技術記事を代筆させてみたらビビった

    なんか驚き屋っぽくてアレなんだけど、今回はさすがに驚く権利があると思うので、至急記事を書く。 やろうとしたこと 毎回手元の検証結果から技術記事を構成するのがだるい 自分のブログを適当に読ませておいて、その構成と文体を真似させればいいのでは 手元に mizchi/zenn というリポジトリがあり、ここに zennにポストする原稿を管理している。 $ tree ./articles ./articles ├── 1c35fdcc77065c02f631.md ├── 3e4742e24f2ca0118f70.md ├── 8a017097d3994ddc0a85.md ├── ai-code-generation.md ├── ai-programmer.md ├── ai-team-mate.md ├── antipattern-of-tournament-score-sheet.md ├─

    Clineに自分をエミュレートさせて技術記事を代筆させてみたらビビった
    T-norf
    T-norf 2025/02/24
    LLMにドキュメント作らせて、LLMがそのドキュメントを参照しつつ生成する(生成したコンテンツを元にドキュメントアップデート)ループを上手く回せば、コーディングもライティングも凄くレベル高くできるって話よね
  • GitHub - mizchi/deno-ai-bestpractice

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - mizchi/deno-ai-bestpractice
    T-norf
    T-norf 2025/02/24
    deno知らないけど、すごく基本的なことに文字数つかってて、APIコストとコーディング性能の両面でもっと短く箇条書きにした方がいい気もするけど、どうだろ
  • Devinを導入して1ヶ月経ったので、人間とAIとでどのような開発の役割分担をするべきか振り返ってみる - Generative Agents Tech Blog

    こんにちは、ジェネラティブエージェンツの西見です。 「完全自律型AIエンジニア」という触れ込みと、その印象的なティザー動画で一躍有名になったDevinが、2024年12月10日にGAしました。 www.cognition.ai それからしばらく経ったこともあって、X上でもチラホラと日企業におけるDevin採用報告が聞こえてくるようになり、「こんなタスクには使えた😆」「簡単なタスクにハマり続けて使えない、金もったいない😭」といったポストがよく見られるようになりました。 正直なところ、月500ドルは高いなぁ・・・*1なんて思っていたのですが、弊社も多分に漏れずの手も借りたい状況なのもあって、2025年1月22日からDevin(の手)を採用してみました。それからちょうど1ヶ月が経ったので、弊社の開発状況にどんな変化があったのかを振り返って、レポートしてみたいと思います。 GitHub

    Devinを導入して1ヶ月経ったので、人間とAIとでどのような開発の役割分担をするべきか振り返ってみる - Generative Agents Tech Blog
    T-norf
    T-norf 2025/02/23
    ありがたい人柱。「Web更新は大体Devinがやっていますが、とても便利です。Web更新の作業なんてメンバーに依頼したら死ぬほど嫌がられ(中略)お願いできなくて、結局全ての雑用が自分に回ってくる全経営者にオススメ」www
  • LLMを活用するためのデータのテキストへの変換方法

    LLMにいかにデータを入力するか 「LLM活用していますか?」 LLMは文章の翻訳、資料のチェック、ソフトの修正など様々な活用の可能性があります。 その際、問題になってくるのがLLMにいかにデータを入力するか、出力したデータを活用するかです。画像、PDF、Office資料などを丸ごと入力できる便利なサービスやも出てきていますが、様々な事情により使用できるサービスが限られていて、資料をそのまま入力できずに困っている人も多いと思います。また、サービスは使用できるけど、同じデータを違うLLMに入力して結果を比較したいというニーズもあるかと思います。 そんなときに重要になってくるのがデータ変換です。この記事では、上記のような困りごとを持っている方に、データをLLMに入力しやすい形に変換する方法について紹介します。なお、記事はLLMのAPIなどを使ってバリバリ開発している人ではなく、ChatGPT

    LLMを活用するためのデータのテキストへの変換方法
    T-norf
    T-norf 2025/02/23
    略すと、LLM入力用の、ファイルからテキスト変化は“MarkItDownというPythonツールが便利”。
  • GitHub - punkpeye/awesome-mcp-servers: A collection of MCP servers.

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - punkpeye/awesome-mcp-servers: A collection of MCP servers.
    T-norf
    T-norf 2025/02/23
    2025年2月23日時点では、外部リソースから情報を取得したりコントロールする汎用的な仕組みはAnthropicが発表したMCP APIと、それに対応したサーバ群が進んでそう。こちらは有志によるMCP server一覧
  • Cline+Claude SonnetでのAIプログラミングが心地よい

    今年に入って、LLMにアシストされたプログラミングツールが話題になっています。Clineを使ってみて、今までのGithub CopilotやWeb上でのChatGPTに比べ、1ステップ、LLMプログラミングの階段が上がったと感じています。このLTでは、Clineを使ってAIプログラミングを行う際に気を付…

    Cline+Claude SonnetでのAIプログラミングが心地よい
    T-norf
    T-norf 2025/02/23
    Cline活用事例。デバッグにはあまり使えないという意見が気になった。「VSCode LM API」って何だろと思ったけど、軽く調べた範囲では各LLMモデルAPIへのラッパーAPI。VSCode機能拡張が叩く用っぽい
  • Roo Code (Roo Cline)のメモリバンクを応用して最新鋭のAI小説執筆を体験しよう!|葦沢かもめ

    みなさん、Roo Code (旧Roo Cline)を使って小説執筆していますか? おそらく多くの方はコーディングでの利用が大多数だと思いますが、実は小説執筆にも応用できる技術です。しかもこの体験は、今までの生成AIを活用した執筆よりも明らかにワンランク上です。まだまだ足りないところもありますが、おそらく技術の進展でカバーできるでしょう。 おそらく「すでに小説執筆は試したけど、あまり使えなかったよ」という方もいらっしゃると思います。そんな方はぜひ「メモリバンク」も活用してみてください。きっとクリアな視界を得られるはずです。 記事では、Roo Codeの導入から、小説執筆用に私がカスタムしたメモリバンク「Writing Memory」についても解説いたします。 お知らせ天狼院書店さんにて開催される「AI時代の小説の書き方」1day講座に、『小説を書く人のAI活用術』著者である山川健一先生、

    Roo Code (Roo Cline)のメモリバンクを応用して最新鋭のAI小説執筆を体験しよう!|葦沢かもめ
    T-norf
    T-norf 2025/02/23
    コーディングで完成物、参考ドキュメントの修正ループをどう回すか考えてたのでメモリバンクは気になるな。あと趣味創作ならDeepSeek系モデルのAPI利用での性能も気になるな
  • 【悪用厳禁! 】日本一怠惰なエンジニアが教える、生成AIでレポートを“限界まで”サボる方法|Ami Otsuka「生成AIに育てられた第1世代 | 研究者x SE」

    ChatGPTにレポートを書かせれば、一瞬で終わるんじゃないの?」 2023年4月、当時大学4年生の私はそう考えていた。大学では毎週の課題が山積み…ではないけど、真面目にやったら週に20時間近くかかる。 ChatGPTに丸投げされたレポートを検知する方法が次々と見つかり、教授に怒られ、単位を失う。ニュースでは、そんな学生の話が連日報道されていた。周りの学生は「AIなんて使い物にならない」と考え、嫌々ながらも自力でレポートを書いていた。 「何か、妙案はないのか?」 そんな一筋の希望を求めて、私は数百時間かけて国内外のニュースや論文を読み漁った。文章を書くのも、宿題をするのも嫌い。なんとしてでもやりたくない。 毎日何十回もプロンプトを打ち込んだ。連日回数制限に遭い、解除されるとすぐに打ち込んだ。数ヶ月間、私はレポートをサボるための方法を考え続けた。 それは、帰宅後の自由を守るための、”聖戦”

    【悪用厳禁! 】日本一怠惰なエンジニアが教える、生成AIでレポートを“限界まで”サボる方法|Ami Otsuka「生成AIに育てられた第1世代 | 研究者x SE」
    T-norf
    T-norf 2025/02/23
    個人的にはあんまり長文書かずにプレゼン用ピッチがほとんどだけと、Pro契約するほどのChatGPT使いなら、Canvas 、プロジェクト、Deep Research あたりの言及版が欲しいな。この記事は無償版使う学生さんが想定読者かもだけど
  • Gemini 2.0 Flashで実現する高コスパAI開発 〜実践的プロンプトエンジニアリングと文書管理システムの実装例〜/gemini-2.0-flash-prompt-engineering

    LLMの新たな選択肢としてGemini 2.0 Flashに注目し、その特徴と実践的な活用方法を解説します。従来のLLMは「高性能だが高コスト」か「低コストだが低性能」という二択でしたが、Gemini 2.0 Flashは適切なプロンプトエンジニアリングにより、高コストなモデルに匹敵する性能を低コストで…

    Gemini 2.0 Flashで実現する高コスパAI開発 〜実践的プロンプトエンジニアリングと文書管理システムの実装例〜/gemini-2.0-flash-prompt-engineering
    T-norf
    T-norf 2025/02/22
    o3 miniは入力は安くなったけど、裏での推論(熟考)出力もoutput tokenとしてカウントアップするので、そのウェイトが大きいと課金10倍では済まないと思う。と、こっちは最大1500 req/day の無償枠も用途によっては面白そう
  • 【徹底比較】5つの「Deep Research」を比べてみた!|ChatGPT研究所

    ChatGPT vs Gemini vs Perplexity vs Felo vs Grok近年、大規模言語モデルの進化に伴い、各種AIチャットボットがインターネット上でのDeep Research 機能を打ち出しています。 ChatGPTOpenAI)、Gemini(Google)、Perplexity、Felo(Felo Agent)、Grok (X) といったサービスは、複雑な課題に対し自動で多段階のウェブ調査を行い、詳細なレポートを生成する機能を提供し始めました。 それぞれデータ収集範囲や分析精度、利用料金モデルなどに特徴があり、ユーザーからの評判も様々です。 記事では、ChatGPTのDeep Research、GeminiのDeep Research、PerplexityのDeep Research、Felo Agent(検索代理)、GrokのDeepSearchについて

    【徹底比較】5つの「Deep Research」を比べてみた!|ChatGPT研究所
    T-norf
    T-norf 2025/02/22
    大学の講義でのレポート課題とか、対象分野これやって、自分のレポート文体ワンショット、指定文字数、課題文とかのプロンプトで加工すれば完璧になっちゃうよね。進化する人と、退化する人と両方を生み出しそう
  • ログラスは全エンジニアにCursorを配ります|布川友也 | ログラスCEO

    こんにちは、良い景気を作ろう。 ログラスCEOの布川です。 近年、AIの進化が私たちのビジネスや生活をあらゆる面で刷新し始めています。特にソフトウェア開発領域においては、ChatGPTやCursorといった対話型AI・コード生成AIの登場が、エンジニアの生産性を一気に引き上げる可能性を見せつけています。 ※AIと言えば、最近ログラス社はDeepSeekのロゴに似ていると各方面から言われておりますが、全く無関係の会社です。 いきなりですが、タイトルの通りログラスでは、 全エンジニアに対してCursorを支給し、 さらに一部のメンバーにDevinの導入も行うという決断に至りました。 なんだそんなことか・・・という方もいらっしゃるかもしれませんが、 ログラスは既に業務委託等も含めると相当数のエンジニアが在籍しているため、費用的にもオペレーション的にも結構大きな意思決定です。 Cursor・Dev

    ログラスは全エンジニアにCursorを配ります|布川友也 | ログラスCEO
    T-norf
    T-norf 2025/02/22
    非エンジニア社長さんか。じわじわこういう会社、増えてくるよね。うちも負けてられない
  • AIを“AIで”改善 Sakana AIが新技術「AI CUDA Engineer」発表 目指すは100万倍の効率化

    AIモデルの開発や利用を“AIによって”効率化する──Sakana AIは2月20日、新たな技術AI CUDA Engineer」を発表した。AIモデルの開発や利用時にかかる計算処理を10~100倍高速化できるエージェントシステム。同社は「AI技術は必ず100万倍は効率化される」と展望を示しており、この技術はそのための重要なステップだという。 米NVIDIA製のGPUハードウェアには、その並立計算を制御するためのプラットフォーム「CUDA」が用意されている。そこで肝となっているのは、ハードウェアに直接指示を行う「CUDAカーネル」という関数だ。この関数のレベルで、直接命令を記述できれば、AIアルゴリズムのパフォーマンスを向上させることが可能という。 そこで同社は、CUDAカーネルの生成を自動化する技術として、AI CUDA Engineerを開発。最新の大規模言語モデル(LLM)を活用し

    AIを“AIで”改善 Sakana AIが新技術「AI CUDA Engineer」発表 目指すは100万倍の効率化
    T-norf
    T-norf 2025/02/21
    コーディングじゃなくて、コンパイルに近いところでLLM使うのか。これまたNVIDIAの需要を削ぐ話かな。この技術がNVIDAに特化しちゃってNVIDIAの独占が続く要素もあるけど。
  • 非エンジニア必見。─ Cursorがもたらす"不可逆な書く革命" - 仕事で使えるAI|中村修三(ShuzoN)

    手で書く時代は終わったAIが文章作成のツールとして浸透しつつある今、あなたもChatGPTやClaudeといったLLM(大規模言語モデル)を活用しているかもしれません。しかし、こう感じたことはありませんか? 「意図した通りの文章にならない」 「リライトすると微妙にニュアンスがずれる」 「そもそも、プロンプトを工夫しないと望む質が得られない」 もし、あなたがこうした壁にぶつかっているなら、それは「次に進む」段階にいる証拠。Cursorはそんなあなたにとって「創造性を引き出すパートナー」として、より快適な執筆をサポートしてくれます。 これからは単なる"文章作成"から解放され、質的な"クオリティの追求"に専念できるようになります。では見ていきましょう。 Cursorとは?Cursorは、世界中で人気のエディタ Visual Studio Code(VSC)互換のエディタに、LLMを統合した次世

    非エンジニア必見。─ Cursorがもたらす"不可逆な書く革命" - 仕事で使えるAI|中村修三(ShuzoN)
    T-norf
    T-norf 2025/02/21
    さすがにコーディングしない人がVScodeもどき使うのどうよと思うけど、発想はおもしろいな。小説書くのに、人物造形・プロット・章ごとの概略とかのファイルを作って、gitで管理しながらLLMで本文作成・修正とか楽しそう
  • DevinにVitest移行させたら数分で5000円溶けた [人間がやったほうが安い]

    これは5000円かかっても何も進捗が得られなかったが結構悔しかったのでせめてもの抵抗でPRにコメントしたところです。 この記事は最近話題のAIエンジニア「Devin」 を使ってライブラリ開発をしてみた体験談です。 Devinのセットアップから始まり、 上手く行ったケース npmライブラリを公開しドキュメントを書いてもらった = 3300円💸💸 何も成果が得られなかったケース テストフレームワークを変えようとして失敗 = 5000円💸💸💸 などを紹介しています。OSS上での作業だったためPRのリンクなども載せていますので、Devinの修正など自由にご覧いただけます。 ぜひ最後までお楽しみください Devinとは? Devinは、GitHubリポジトリを連携し、特定のタスクを自然言語で指示すると、ソースコードの生成やテスト、修正まで自動で提案してくれます。 この手の自律型AIツールは

    DevinにVitest移行させたら数分で5000円溶けた [人間がやったほうが安い]
    T-norf
    T-norf 2025/02/20
    1番自動化レベルが高い、コーディングAIエージェント。雑に任せて、悩んだ分、課金が進んで失敗した例。ありがたい人柱かな
  • DeNA南場智子が語る「AI時代の会社経営と成長戦略」全文書き起こし | フルスイング by DeNA

    「DeNAはAIにオールインします」 2025年2月5日に開催したイベント「DeNA × AI Day || DeNA TechCon 2025」のオープニングでDeNA代表取締役会長 南場 智子(なんば ともこ)はそう高らかに謳い、「1999年に創業したDeNAの第2の創業、チャプター2が始まる」と表明しました。 日々目まぐるしく発展するAIと、DeNAはどう向き合っていくのか。 そしてAIが導く未来に対し「やはり起点は人間である」と語った真意とは。 南場の講演内容をノーカットでお届けします! AIのパワーで“楽”を手に入れる皆さんこんにちは。ご視聴ありがとうございます。まず私からは、「DeNAがAIとどう向き合っていくのか」についてお話したいと思います。 まず、経営者としてAIをどう見るかなんですけれども、現実、確かなものとして、劇的な経営の効率化があります。いろんな会社が「こうやって

    DeNA南場智子が語る「AI時代の会社経営と成長戦略」全文書き起こし | フルスイング by DeNA
    T-norf
    T-norf 2025/02/18
    全肯定された感が “やはりトップが引っ張らなきゃいけない(中略)自らがツールを使い倒して、この可能性に感激して、興奮して、そしてその興奮を改革のエネルギーに変えて全社を引っ張っていくということが必要”
  • Slackの会話からドキュメントを育てるGo製AIエージェント「Docgent」を開発しました

    ※この記事は「AI Agent Hackathon with Google Cloud」向けに開発したAIエージェントの説明のために作成したものです。 前書き 現代のソフトウェア開発組織では、素早く高頻度で機能追加・改善していくことが求められると同時に、LLMの時代においてはAIによる利活用を見据えて 「ドキュメンテーション」の重要性が高まってきています。 しかし、「包括的なドキュメントよりも動くソフトウェアを[1]」重視するアジャイル開発を実践する中で、 忙しない日々の中でどうしても残すべきドキュメントを残せない 過去に書いたドキュメントの古い内容がアップデートされず放置されていて当てにならない という組織も少なくないと思います。 きっと今日もどこかの組織のSlackでは、他の部署や開発チームから仕様確認の問い合わせが寄せられ、それらに人手で回答する努力が積み重ねられていることでしょう(

    Slackの会話からドキュメントを育てるGo製AIエージェント「Docgent」を開発しました
    T-norf
    T-norf 2025/02/16
    非プログラマだから少し理解しにくいけど、GitHub管理下のドキュメント更新をLLMがGitHubでプルリクしてくる感じよね。AIアカウントに対してメンション入れたときだけ応答するの含めて気軽で良さそなインタフェースね
  • 2025年2月最新版:Devinに関するおすすめ資料(2/17追記)

    Devin は生成AIを活用した新しいエンジニアAIエージェントで、今後のエンジニアの開発に大きな影響を与える可能性があると思います。個人的にDevin関連の資料をストックしていたので、Devinについての理解を深めるためにおすすめの資料を日語と英語で紹介します。 ※今後、適宜追加していくかも(´・ω・`) 2/17 追記 日語でおすすめ 1. ざっくり知りたい人向け まずこれを読むと全体像が把握できると思います。 手前味噌ですが、自分の記事も。長くないので、サクッと最初の導入やDevinを活用するうえでのポイントがわかると思います。 料金やオプトアウト(データが学習に使われるか否か)など、Devinを社内で使う際の稟議に必要そうな情報がまとまっていてありがたい。※2/17追加 Devinに任せるタスクを「自律度」という観点で推奨・非推奨の事例を説明している。ちょっとしたUI修正であれ

    2025年2月最新版:Devinに関するおすすめ資料(2/17追記)
    T-norf
    T-norf 2025/02/16
    うちもまずは小規模に導入を考えるべか。とりあえず記事は全部読まないとな
  • サイト構築からデプロイまで。AIが変えるフロントエンド開発 | レバテックラボ(レバテックLAB)

    ほとんどのサービスとアプリケーションには、制限の大きなお試し版とも言える無料プランと、制限の緩和された有償プランがあります。さらに、有償プランのトライアルや、グループ開発向けのEnterpriseプランが用意されていることがあります。個々のサービスおよびアプリケーションについての料金体系の掲示は省くので、関心のあるものについてはまず無料プランから試すことをお勧めします。 アプリケーション構築は、多くの手順を必要とすることから比較的難易度の高い作業です。専用のウィザードがステップ・バイ・ステップで構築をフォローするスタイルは、今では「やりたいこと」を述べるだけでAIが代行してくれるようになりました。デザインも、直接アプリケーション構築に持ち込むことができます。 スタイリッシュなUIを生成するv0 ▲v0 v0(ブイゼロ)は、Next.jsの開発元であるVercel Labsによる、AIを活用

    サイト構築からデプロイまで。AIが変えるフロントエンド開発 | レバテックラボ(レバテックLAB)
    T-norf
    T-norf 2025/02/14
    UIやデザイン、自動テスト、まだまだ試してないのが一杯ある
  • Llama 3.3 70BベースでGPT-4o超えの満足度を達成するAIをPerplexityが発表

    AI企業のPerplexity AIが、自社独自モデルである「Sonar」の新しいバージョンをリリースしたことを明らかにしました。このバージョンはGPT-4o miniやClaude 3.5 Haikuのような同クラスのモデルを大幅に上回り、ユーザー満足度ではGPT-4oやClaude 3.5 Sonnetのようなフロンティアモデルを上回ることがわかっています。 Meet New Sonar https://www.perplexity.ai/ja/hub/blog/meet-new-sonar Sonarの新しいバージョンは、有料サービス「Perplexity Pro」の加入者がAI検索エンジン「Perplexity」で利用することができます。 SonarはMetaの大規模言語モデル「Llama 3.3 70B」をベースに構築されていて、Perplexityのデフォルトの検索モードにおい

    Llama 3.3 70BベースでGPT-4o超えの満足度を達成するAIをPerplexityが発表
    T-norf
    T-norf 2025/02/14
    4oは各種copilotに対応したり、マズイ応答しないための学習に力を割いてる気もするけど、グラボ10枚程度で走るモデルがこれだけ性能出せれば、自社用にファインチューニングできるデータと資金力あるとこには生きるかも