本記事は、DeepSeek-R1の論文とDeepSeekMathの論文を読んだ私の理解をもとに記載しています。 本論文で使われている技術に関しては、ある程度の知識を持っているので、大きくは外していないとは思いますが、私の主観も入っている部分もありますので、ご了承ください。 また、DeepSeek-R1の論文が公開される前に、小型モデルに対して同様の実験(強化学習)をしていたグループがあるようです。 そちらのレポートは下記になります。 意図せず、DeepSeek-R1-Zeroの再現実験のようなレポートになっていますが、レポートの著者はDeepSeek-R1論文の公開前から実験していると主張しています。 こちらも非常に興味深かったため紹介です。 本論文の興味深いところ 本論文は、大きく分けて3つの構成でできています 強化学習による思考能力の強化 LLM(DeepSeek-V3-Base)に対
初めに 2024年のノーベル物理学賞は人工知能の分野で受賞されました。「え!?物理学賞なのに人工知能なの!?」と思うかもしれませんが、少なくとも人工知能の根幹であるニューラルネットワークと統計力学は、同様の確率構造で議論され、情報統計力学とういう分野があるくらい、人工知能と物理学は密接につながっています。よって統計力学を勉強してきた筆者からすれば、物理学賞で人工知能が受賞されても不思議ではないと考えています。 今回はこうしたニューラルネットワークにちなんで特に統計力学と接点のあるボルツマンマシンについて述べていこうかなと思います。 ボルツマンマシンとは? まず何をやりたいか説明します。これは昨今の生成AIのベースの考え方と同じです。とある情報(画像や音声など)がランダムに得られるとき、その情報を生成する元の確率分布q(\mathbf{x})は何かを考えます。具体的には確率分布q(\math
拙著『深層ニューラルネットワークの高速化』が重版して第 2 刷となりました。皆さまありがとうございます! 深層ニューラルネットワークの高速化 (ML Systems) 作者:佐藤 竜馬技術評論社Amazon もはや恒例、重版に感謝して書き下ろし専門記事をお届けします。 本稿では、SNS などでもたびたび話題になるトランスフォーマーは RNN であるという話をします。本稿では単に形式的に包含性を指摘するだけでなく、トランスフォーマーと RNN はどの程度似ているのかや、そこから導かれる応用上の意味についても詳しくご紹介します。 本稿は『深層ニューラルネットワークの高速化』の第 6.3 節と第 7.2 節に基づいています。 過去回 拡散モデルと最適輸送(最適輸送第 5 刷) GNN の最新動向(グラフニューラルネットワーク第 3 刷) 深層学習で部分空間を扱うときは射影行列を考えるとよい(グラ
A visual walkthrough of the AlphaFold3 architecture, with more details and diagrams than you were probably looking for. Introduction Who should read this Do you want to understand exactly how AlphaFold3 works? The architecture is quite complicated and the description in the paper can be overwhelming, so we made a much more friendly (but just as detailed!) visual walkthrough. This is mostly written
Book: Alice’s Adventures in a differentiable wonderland Neural networks surround us, in the form of large language models, speech transcription systems, molecular discovery algorithms, robotics, and much more. Stripped of anything else, neural networks are compositions of differentiable primitives, and studying them means learning how to program and how to interact with these models, a particular
Artificial intelligence has recently experienced remarkable advances, fueled by large models, vast datasets, accelerated hardware, and, last but not least, the transformative power of differentiable programming. This new programming paradigm enables end-to-end differentiation of complex computer programs (including those with control flows and data structures), making gradient-based optimization o
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits Shuming Ma∗ Hongyu Wang∗ Lingxiao Ma Lei Wang Wenhui Wang Shaohan Huang Li Dong Ruiping Wang Jilong Xue Furu Wei⋄ arxiv.org このページの図面・表の権利は全て論文の著者らに帰属があります。 The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits この論文を一行でいうと Abstract The Era of 1-bit LLMs BitNet b1.58 LLaMA-alike Components. Result Memory and Latency Energy
While Transformers have enabled tremendous progress in various application settings, such architectures still trail behind traditional symbolic planners for solving complex decision making tasks. In this work, we demonstrate how to train Transformers to solve complex planning tasks. This is accomplished by training an encoder-decoder Transformer model to predict the search dynamics of the $A^*$ se
Translations: Russian This year, the talk of the town was AI and how it can do everything for you. I like it when someone or something does everything for me. To this end, I decided to ask ChatGPT to write my New Year's post: "Hey ChatGPT. Can you implement a large language model in SQL?" "No, SQL is not suitable for implementing large language models. SQL is a language for managing and querying d
Imitation learning from human demonstrations has shown impressive performance in robotics. However, most results focus on table-top manipulation, lacking the mobility and dexterity necessary for generally useful tasks. In this work, we develop a system for imitating mobile manipulation tasks that are bimanual and require whole-body control. We first present Mobile ALOHA, a low-cost and whole-body
今回は、何も知らないところからバンディットアルゴリズムを学びました。 シンプルなバンディットアルゴリズムから、各ユーザーごとに最適化するContextual Bandit、順序を最適化するCascading Banditまで解説します。 学んでいて疑問に思ったことを解消しつつ記載しています。 ソースコード https://github.com/birdwatcherYT/bandit 対象読者 バンディットアルゴリズムを理解して実装したい人 ユーザーごとにカスタマイズしたバンディットを理解して実装したい人(Contextual Bandit) 順序を最適化するバンディットを使いたい人(Cascading Bandit) バンディットアルゴリズム バンディットの問題設定を説明します。 スロットマシンN台がある スロットマシンの腕を引くと報酬がもらえる 累積報酬を最大化したい バンディットアル
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く