[B! *program] sh19910711のブックマーク

GPT4相当のLLMをローカルで自由に学習させたい

1. 概要本記事では、Meta の LLM である Llama3 70B モデルを RTX3090(24GB)を搭載した計算機二台で分散学習する手法について紹介します。 kubernetes で作成したオンプレミスの GPU クラスタ（RTX3090×2）にて、FSDP_QLoRa という手法を活用した分散学習を行うことで、24GB GPU を搭載した PC 二台という比較的実現しやすい環境での学習を実現します。 2. 前提対象者 LLM をトレーニングしたいが、API(OpenAI など)経由だと簡単なファインチューニングしかできない、クラウドサービス上での学習はコスト的に厳しい、けど 24GB GPU を搭載した PC 二台くらいは用意できるという方。（研究室の学生はこういう方多いんじゃないでしょうか？知らんけど） FSDP_QLoRa について FSDP_QLoRa とは、Q

sh19910711 2025/10/25

2024 / "FSDP_QLoRa では、QLoRA で極限までメモリ使用量を減らした後に、モデルを分割するというプロセスによって、低コストの計算資源で LLM を学習 / ネットワークがボトルネックになってかなり学習速度が落ちた"

リンク

AIと開発するときにも初期から始めた方が良いこと - Flavor Wheel Engineering

開発時に標準的に使われるコマンドを整備する Next.js のプロジェクトであれば pnpm run typecheck pnpm run build などがあることは当然だろうから、それらはpackage.jsonに書いて実行可能な状態にしておくと良い。AIは既存のコードを学習しているので、これらのコマンドを変換結果の確認に使おうとする。その時に独自のコマンド名にしていたり、コマンドを準備していないと実行に失敗して無駄な試行錯誤の時間を取られてしまう。また、AIがコードを編集したとしてもレビューをするのは人間なので差分を見やすい状態に維持しておきたい。AIは大量にコードを書くし、Vibe Codingだと差分が大きくなりがち。ただでさえ差分が多いと量的にレビューが大変なのに加えてフォーマットのような本質的でない差分が含まれているとよりレビューが辛くなる。全部必要だが個人的な優先順は、ビ

sh19910711 2025/10/25

"筋がよくない実装を油断していると混ぜてくるので、人間側もレビューで防いだり早期に軌道修正できるように学習が必要 / 公式ドキュメントなど信頼できる情報源を自分で読みにいく方が確実"

リンク

【データ整理】Unicode正規化とMySQL COLLATION

utf8mb4_bin はバイナリレベルで文字を比較するため当然全て異なる結果となります。 utf8mb4_general_ci は比較的よく使われるCollationですが、半角アルファベットの大文字小文字の違いが同一視されるのが特徴です。また絵文字の区別はされないのはよく「寿司ビール問題」として有名ですね。 utf8mb4_unicode_ci は「ア」「ｱ」が同一されるのは良いですが、「は」「ぱ」「ば」あたりが同一視されるなど、日本語を扱う上では正直使いにくいという印象です。 utf8mb4_unicode_520_ci は、utf8mb4_unicode_ci に対して絵文字が全て同一視されるのを無くしたCollationですが、utf8mb4_unicode_ciと同じく日本語には不向きです。テーブルのデフォルト Collation MySQLではテーブルを作るときにCHAR

sh19910711 2025/10/25

2023 / "NFD・NFCの場合は「Ａ」「A」のように全角半角による差を吸収しない / NFDとNFCの違いは、合成文字を変換した場合に表れ / 半濁音の文字は、「結合済文字」で表す方法と「基底文字 + 結合文字」で表す方法の2通り"

リンク

R言語の過去と最新の動向

本連載「フリーソフトによるデータ解析・マイニング」は今月号をもって終了となります。 2003年8月に連載第1回として金明哲氏による「データ解析・マイニングとR言語」という記事が掲載されて以来、約12年半149回に渡り、6名の執筆陣がR言語とデータ解析について解説してきました。最終回となる今回は、過去10年余りのR言語の国内での普及、そしてR言語の最新の動向について紹介しながら、有用な情報をピックアップしてみます。なお今回の記事には著者の主観が多分に反映されていることをご承知おき下さい。 R言語の10余年史コンピュータのバックアップ履歴を漁ってみたところ、著者自身は大学院生だった2003年頃からRを触り始めて、 2004年夏頃に研究のための分析ツールとしてRを導入していたようです。この頃のRのバージョンは1.7から1.8だったように記憶しています。本連載の開始時期と著者のR利用

sh19910711 2025/10/25

2015 / "RjpWikiがオープンした2003年は、日本国内のR言語の普及にとって一つの大きな転換点であった / 2003〜2004年にはR言語の利用を中心に解説した書籍が刊行"

リンク

OpenGLとC++で大規模(数億オーダー) 点群をリアルタイムで表示する - AKARI Tech Blog

はじめに今週のAKARI Tech Blogは、DX Solution 事業本部 Dev nebulaの西宮が担当します！今回は、開発している三次元シミュレーションソフトに点群表示を実装する際に行った工夫について紹介します。開発中のシミュレータの点群表示機能。点群はオープンナガサキを使用建築、都市計画、自動運転など、多くの分野で大規模な点群データを扱う機会が増えています。しかし、数千万から数十億に及ぶ大規模点群のなかをGoogle Street Viewのように自由に移動しながら表示するには、パフォーマンスの面でいろいろな工夫が必要です。本記事では、一番簡単でオーソドックスな実装だけではなく、より大規模なシーンをレンダリングするための主要なアプローチをOpenGLでの描画を前提として解説します。（同じシミュレーションソフトで学習画像を自動生成しSim2Realした例もあります。

sh19910711 2025/10/25

"点群ソートを利用してバッチとして点群を分割し、メモリ上の局所性と物理的な点の位置の局所性を一致させている / 空間的な局所性が高いほど、カリングや座標圧縮の効果が高まり効率化"

リンク

ライブカメラに映った落雷をAmazon Novaで検出する試み

こんにちは。ウェザーニューズモバイル・インターネット事業部の hoka です。ウェザーニューズにはウェザーニュースアプリユーザーのみなさまにご協力いただき設置しているライブカメラが日本国内に 2000 ヵ所以上あります。ライブカメラの映像を動画理解モデルである Amazon Nova を使って解析し、落雷の検出を試してみました。録画・検出例落雷・稲妻がはっきり映っていることがわかります。落雷の検出例(茨城県土浦市) 落雷の検出例(石川県珠洲市) 落雷検出のアプローチ 3 つのステップに分けて処理しています落雷が発生した地点周辺のライブカメラを録画映像内で輝度がスパイクした箇所の前後を切り出し Amazon Nova で落雷の有無を解析 Step 1: 落雷が発生した地点周辺のライブカメラを録画落雷が発生した地点周辺のライブカメラをピックアップして録画しました。落雷の情

sh19910711 2025/10/25

"ffprobe を使ってフレームごとの輝度を取得し、フレーム間の輝度差分が 99.5 パーセンタイルを超えており、MAD(Median Absolute Deviation)が一定値を超えている箇所をスパイクとして検出"

リンク

mypyの10年、pyrightの5年 tyの挑戦 - 型チェッカー進化論 -

型チェッカーの歴史と性能比較について少しだけ掘り下げます

sh19910711 2025/10/25

"型ヒント標準化: 2015年はPythonの型元年 + PEP 484(Type Hints)が採択 + Python 3.5にtypingモジュールが追加 / pyright: mypyが発見できないエラーを検出することもある"

リンク

Juliaで学ぶ確率微分方程式

Julia言語の疑似乱数には dSFMT 現在はXoshiro256++が採用されており, 特別な準備をせずに良質な疑似乱数を用いて計算を行うことができるため, 確率微分方程式（Stochastic Differential Equation, SDE）との相性が極めて良い. この記事では, 確率過程の概念, Eular-Maruyama法による種々の確率微分方程式の数値解法について, Julia言語での実装例を交えて解説する. 得られた数値解はPlots.jlを用いて可視化し, Fokker-Planck方程式の解析解と比較する. パッケージ可視化にはPlots.jlを用いる. Plots.jlの入門的内容はこちらのノートを参照されたい. plot()を使用するためには, Juliaのパッケージモードでadd Plotsを実行し, 事前にPlots.jlをインストールしておく必要がある

sh19910711 2025/10/25

2022 / "Julia言語の疑似乱数: 良質な疑似乱数を用いて計算を行うことができるため, 確率微分方程式（Stochastic Differential Equation, SDE）との相性が極めて良い"

リンク

Rustでセキュリティsandboxツールを作った

mori(杜)の基本的な使い方ネットワーク制御は以下のホワイトリスト方式を取っています。野良のMCPサーバーを使っていると、どこにどんな情報が送られてしまうのか、実装でも追わない限りわからないためです。 # Allow access to example.com mori --allow-network example.com -- curl https://example.com # Allow multiple domains mori --allow-network example.com,github.com -- your-command # Allow specific IP addresses mori --allow-network 192.168.1.1 -- your-command # Allow CIDR ranges mori --allow-network

sh19910711 2025/10/25

"eBPFを使ったファイルI/Oとネットワーク制御(ドメインやIPレベル)ができるsandbox / ネットワーク制御は以下のホワイトリスト方式 + ファイルI/Oの制御は逆で、ブラックリスト方式"

リンク

[Julia]Pluto.jlを導入してみた

プライベートで書くスクリプトを、PythonからJuliaに移行していくかー、と思い、ライブラリだったりのテスト書きをしていました。その過程で、インタラクティブなIDE（と言うべきかは怪しいけど、、）もJulia用にPluto.jlと言う物があったので、サクッと入れてみました。 Pluto.jlとは一体、、 JupyterLabと比べると、、の2本立てで、Pluto.jlの所感をまとめていきます。 Pluto.jlとは fonsp/Pluto.jl: 🎈 Simple reactive notebooks for Julia Julia + React（Preact）製のインタラクティブIDEです。こうしたアプリケーションは割とフロントエンド側の実装・依存が複雑で読むと「うげー」となっちゃいがちなのですが、Pluto.jlはかなり分かりやすい実装をしているイメージです。依存もCDNで

sh19910711 2025/10/25

2021 / "Julia + React（Preact）製のインタラクティブIDE / リアクティブでノートブックの中身がこわれない（次回開き直した時に、ちゃんと動く）点が良い / x の値を変えると、プロットも自動でアップデート"

リンク

記法の「軽さ」を最優先した数式マークアップ言語を作った

はじめに軽量マークアップ言語（e.g. Markdown）の中で数式を書くという目的においては、TeX記法がデファクトスタンダードになっている。しかし、軽量マークアップ言語自体の「軽さ」と比較したとき、TeX記法は少し「重い」よな〜、ということを前々から思っていた。ここで「軽い」ことをもう少ししっかり定義しておくと、「プログラムから見た時の扱いやすさや文法としての単純さよりも、人間にとっての見やすさ書きやすさを重視している」ことという感じになるだろうか。[1] TeX記法もXMLベースのMathMLなどと比べれば圧倒的に軽いのだが、もっと軽くできないものだろうか？特に、僕のようなTeXコードを編集しながら式変形を考えるタイプの人間[2]にとっては、TeX記法でも重すぎると感じることが多い。出てくる記号が多かったり、添え字の添え字のような構造が沢山出てくると、コードは何重にもネストされた

sh19910711 2025/10/25

2023 / "演算子の結合の強さをその場でコントロールできれば、括弧を減らし、本来の数式とコードとしての表現を近づけることで、可読性を高めることができるのでは"

リンク

Foundation Models Frameworkで絵文字を推薦させる仕組み

azooKey v3.0.1からは「えもじ」と入力すると文脈に合わせた絵文字推薦が表示されるようになりました。この機能はiOS 26で導入された「Foundation Models Framework」を利用して作られています。このフレームワークではApple Intelligenceでも用いられているオンデバイスのLLMを利用することができるため、アプリに簡単に知的な振る舞いを導入することができます。したがって、絵文字推薦程度は余裕のはずです。この記事ではFoundation Models Frameworkで絵文字を推薦させる仕組みと、意外に難しかったポイントを紹介します。基本的な実装 Foundation Models FrameworkはFoundationModelsをインポートすることで利用できます。利用にはiOS 26以上が必要なので、それ以前のiOSをサポートする場合

sh19910711 2025/10/25

"「えもじ」と入力すると文脈に合わせた絵文字推薦 / iOS 26で導入された「Foundation Models Framework」を利用 / Apple Intelligenceでも用いられているオンデバイスのLLMを利用することができる"

リンク

Julia でいろんな繰り返し処理・イテレーションを書く

概要 Julia では（邪道を含めて）いろんな繰り返し処理・イテレーションの書き方ができます。思いつく限りの書き方を列挙していきます。次のイテラブルなオブジェクトを考えます。

sh19910711 2025/10/25

2024 / "for x ∈ xs: LaTeX で言うところの \in + REPL でも \in で入力 / do を使うと第一引数として渡す関数の処理を書き下すことができ ~ foreach に渡す関数がその場でしか使わない場合"

リンク

Pythonを使った製品や構造物の挙動のシミュレーション入門 - AKARI Tech Blog

こんばんは！今週のAKARI Tech Blogは、DX Solution 事業本部 Dev の小山が担当いたします。 CAEはComputer Aided Engineering（コンピューター支援エンジニアリング）の略でものづくり分野で、製品の開発や設計の効率化にコンピューターを活用する技術のことです。その処理の流れは次の3つに分けられます。プレ処理ソルバー実行ポスト処理私は燈に入社する前はCAEソフトウェアベンダーのエンジニアとしてキャリアを積んできました。その経験を活かし、燈でもCAEへのAI応用という観点からAIの社会実装に取り組んでいます。その際に使用しているPythonは、適用範囲も非常に広く、データ解析、機械学習、Webなどの分野で広く使用されています。それはCAEの分野でも例外ではありません。CAEをAIの共通言語であるPythonで行うことで、AIのCAEへの

sh19910711 2025/10/18

"Felupe: 柔軟なメッシュ定義や物性設定が可能で、熱伝導や構造解析などのシミュレーションを比較的シンプルなコードで記述できる / PyVista などの可視化ライブラリと組み合わせることで、解析結果を直感的に表示"

リンク

PLaMoをベースにしたテキスト埋め込みモデルの開発 - Preferred Networks Research & Development

本記事は、2024年夏季インターンシッププログラムに参加された九門涼真さんによる寄稿です。今回はPLaMoをベースにしたテキスト埋め込みモデルの開発に取り組んでいただきました。PFN/PFEではこのようなLLM性能改善のための研究開発を進めています。本取り組みで得られた知見・成果は今後PLaMoに取り入れていく予定です。 2024年度夏季インターンシップに参加した、東京大学大学院情報理工学系研究科修士一年の九門涼真と申します。現在は谷中研究室で自然言語処理に関する研究をしています。今回のインターンでは、大規模言語モデル (LLM) を用いたテキスト埋め込みモデルについて研究と開発を行いました。LLMの持つ特徴を生かし、質の高いテキスト埋め込みを生成することを目指しました。背景テキスト埋め込みは、テキスト分類、文書検索など自然言語に関わる様々なタスクで用いられており、必要不可欠なものと

sh19910711 2025/10/18

2024 / "NV-Embed: LLM2Vecと同様に双方向の注意機構への変換 + 二段階の教師あり対照学習 / latent注意層を導入し、既存の手法の弱点である重要なフレーズの情報の損失や最終トークンに近い埋め込みへの依存を改善"

リンク

『再現可能性のすゝめ ―RStudioによるデータ解析とレポート作成― 』を読みました - DPA

共立出版様よりご恵増いただきました。ありがとうございます。データ解析プロセスを学びたいかたは必読、というか真っ先に読むと良い本。再現可能性のすゝめ作者: 高橋康介,市川太祐,高柳慎一,福島真太朗,松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2018/05/09メディア: 単行本この商品を含むブログ (2件) を見る個人的に残念なのは、この本を5月に手にしてしまったこと。 4月であれば、新人研修で「コレ読みましょう」で済んだのに。本書『再現可能性のすゝめ ―RStudio によるデータ解析とレポート作成― 』は、再現可能なデータ解析とレポート作成の意義と実践方法について、これ以上無いほど丁寧に記した一冊。再現可能性とは『いつでもどこでもだれでも同じモノを再現できること』。データ解析の文脈では、『同じデータがあったときに、いつでもどこでもだれでも同じ解析結果を再現でき

sh19910711 2025/10/18

2018 / "データ解析者が何を考えてそのツールを使ったりコードを書いているのか / 本書と RStudio を片手に出発し、再現可能性の重要性を理解してから別のツールや言語に手を出すとスムーズ"

リンク

text-embeddings-inference で日本語トークナイザーモデルの推論をする - A Day in the Life

HuggingFace が提供している推論サーバ、text-embeddings-inference(以下TEI)は rust で書かれており、各種GPUアーキテクチャ対応の Docker コンテナも用意され、GPUアーキテクチャが FlashAttention-2 対応以降なら、推論速度も python の transf ormers ライブラリで動かすよりも約1.5~2倍弱の速さというかなりのパフォーマンスで、本番でのハイパフォーマンス推論サーバとして重宝している。しかしながら、日本語環境での問題点の一つが rust ベースの FastTokenizer 動かせる、つまり tokenizer.json を用意しているモデルでないと利用できないことだ。日本語 transf ormer モデルの多くが、unidic や mecab といった python で動く形態素解析辞書・ライブラリを利

sh19910711 2025/10/18

2024 / "text-embeddings-inference: HuggingFace が提供している推論サーバ / GPUアーキテクチャが FlashAttention-2 対応以降なら、推論速度も python の transformers ライブラリで動かすよりも約1.5~2倍弱の速さ"

リンク

Vibe-CodingにADRを導入して開発体験を改善する試み | Daiki Matsui

sh19910711 2025/10/18

"書いてみて・試してみてわかることがある / Proposedというステータスを用意したことで、いきなり実装に進まず、実装方針を検討する段階を踏める"

リンク

わいわいswiftc開発合宿 at 湯河原おんやど恵〜型推論アルゴリズムを学ぶ｜sonson

Swift Compilerとその周辺技術に関する勉強会，わいわいswiftcの中で開発合宿に行ってきました．場所は，湯河原のおんやど恵さんです．お題今回の合宿のお題は，「Swiftコンパイラの型推論を学ぶ」です．具体的には，おもちメタル氏お手製の型推論ライブラリの未実装の部分を各員が穴埋めし，すべてのテストをパスさせることがお題です．前回わいわいswiftcで発表された型推論のアルゴリズムの発表を聞いたメンバーは早速作業開始で，それ以外のメンバーは，おもち（メタルってかくの面倒だな）氏の発表をここで再度聞き，穴埋めスタートと相成りました．今回のお題に関する発表資料場所湯河原のおんやど恵という旅館でやりました．電源タップ，お茶，水が提供されます．オプションで，ホワイトボード，プロジェクタ，スクリーンを借りました．我々は，２０人くらいが余裕で入る会議室を借りて，合宿を行いました．会議室