
This repository provides fast automatic speech recognition (70x realtime with large-v2) with word-level timestamps and speaker diarization. ⚡️ Batched inference for 70x realtime transcription using whisper large-v2 🪶 faster-whisper backend, requires <8GB gpu memory for large-v2 with beam_size=5 🎯 Accurate word-level timestamps using wav2vec2 alignment 👯♂️ Multispeaker ASR using speaker diariza
sbv2api.py `� �WU ��*�WU # 1. Install dependencies # pip install style-bert-vits2 fastapi uvicorn # pip install numpy==1.26.4 # If you use GPU, reinstall PyTorch that matches the CUDA version of your environment. # pip uninstall torch torchvision torchaudio # pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 # for CUDA 12.4 # 2. Set path and settings MODEL
こんにちは、抹茶もなかです。 もう夏も終わりという事でちょうど区切りの良いタイミングのため、久しぶりにポエム記事でも書こうかと思います。 今回は画像生成AIの社会実装について。 進む高精度化と進まない社会実装 今年も画像生成AIはその速度を緩めることなく成長をし続けています。 アーキテクチャがUnetベースからTransformerベースへ移行し、生成精度も格段に良くなってきました。 FluxやImageFXなど、AIによる生成画像とAIを使用せずに制作された写真・イラストとの区別はどんどんつかなくなってきています。 また、画像生成に留まらず、動画生成も徐々に実用的なレベルに達しつつあり、今年はKling, Vidu, Gen3など去年とは比較にならないほど高精度な動画生成サービスもでてきています。 また、画像生成AIを支える周辺技術も整備され始めており、必要スペックの要求水準引き下げや、
関連URL Tanuki-8x8B Leaderboard3 Tanuki-8B Leaderboard3 大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など 全体像 フルスクラッチで開発した大規模言語モデルTanuki-8B, 8x8Bの性能についての技術的な詳細 Japanese MT-Benchにおける性能の詳細とJasterに関する一部言及 ChatbotArena的なシステムでTanuki-8x8Bを始めとする大規模言語モデルの日本語性能を評価する(2024年8月) ブラインドテスト形式で種々のモデル出力の優劣を人手で評価した結果と、各種ベンチマークとの関係性 大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー 開発の鍵となった合成データ戦略に至るまでの試行錯誤など Tanuki-8B,8x8Bの開発完了までに考えていたこ
株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田晋、東証プライム市場:証券コード4751)は、225億パラメータの日本語LLM(Large Language Model、大規模言語モデル)「CyberAgentLM3」を公開したことをお知らせいたします。 当社はかねてより日本語LLMの開発に取り組んでおり、2023年5月に独自の日本語LLMである「CyberAgentLM」を一般公開しました。その後も、2023年11月にバージョン2となる「CyberAgentLM2」を、2024年6月には視覚を付与したVLM(大規模視覚言語モデル)を公開しています。これらの技術は当社が提供する「極予測AI」をはじめとするサービスにおいて広く活用されています。
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。通常は新規性の高い、AI領域の科学論文を解説しているが、ここでは番外編として“ちょっと昔”に発表された個性的な科学論文を取り上げる。 X: @shiropen2 夢を見る目的は何なのか。従来の理論では、夢は記憶の固定化や情報の整理に役立つと考えられているが、夢を見る理由やメカニズムについてはいまだ十分に解明されていない。一方、夢と最も関連の深い睡眠段階を抑制すると、哺乳類の学習能力が低下することは以前から知られている。 研究者らは機械学習の概念を用いてこの問題にアプローチし、夢の役割について新しい視点を提示した。具体的には、夢が現実の経験を少し変形させたバージョンを提供することで、脳が特定のパターンに過度に適応するのを防いでいるというも
非常に高性能な画像生成AI「ImageFX(Imagen 3)」の登場です。 FLUX.1がMidjourneyと並ぶ最高峰の画像生成AIとして注目を浴び始めてから2週間もたたないうちに、新しいAI画像サービスが、なんとGoogleから登場しました。それがImageFXです。 Googleは画像生成AIの新バージョンであるImagen 3をリリースしたばかりですが、この技術を使った「ImageFX」というサービスをGoogle AI Test Kitchenでスタートしています。これが生成する人物画像がとてもリアルだというので評判です。GeminiでもImagenを使った画像生成は可能なのですが、制限が厳しく、人物を含んだ画像の生成ができなくなっています。 ▲GeminiのImagenでは人物画像が生成できない ImageFXは、テキストプロンプトを入れると、4枚の画像が生成されるという仕
Flux を試してみたい方向けのインストール方法です。 SDXL の画像生成なら EasySdxlWebUi などの既存の画像生成環境が今のところオススメです。 最近の NVIDIA 製ビデオカードを搭載した Windows PCで動作します。 Geforce GTX 1660Ti 6GB, RAM 32GB の Win PC で 2:45秒 でした。 「トラブルシューティング」「日本語化」「既存の画像生成環境のモデルや LoRA の参照」などは『EasyForge のインストールと更新』。 EasyForgeInstaller.bat を右クリックから保存して、インストール先のフォルダで実行します。 WindowsによってPCが保護されました と表示されたら、詳細表示 から 実行 します。 インストールが終わったら、download/Flux-Minimum.bat で Flux のモデ
はじめに オープンソースな日本語音声合成 (TTS) であるStyle-Bert-VITS2の2024-06-16のver 2.6.0で、マージ機能に差分マージやヌルモデルマージが追加されました。 この記事は、これらのマージでできることをいろいろ紹介して、みんな実験して共有してみてね、という記事です。 注意 日本語特化版 (JP-Extra版) とそうでないモデル同士のマージはできません。 このページで共有している結果やモデルは全てJP-Extra版のものです。 差分マージとは? 通常のマージについて SBV2では、今まで以下の点で2つのモデルをマージすることができました: 声質(誰が喋っているか) 声の高さ 話し方・感情表現 話すリズム・テンポ 具体的には、2つのモデルを A, B とすると、スカラー weight について、 を、上記4つの要素が入っていると思われるモデルの重みについて
※この記事は2024/8/27時点のものなので今後変更があるかもしれないですのでご了承ください ヌルモデル素材の用意まずはヌルモデルというものがささやき音声モデルの作成には必要になるので用意します。 ※もちろん、ささやき声にしたいモデルも必要なので、こちらは自由に用意してください ヌルモデルとは?いきなりヌルモデルと言われてもよくわからないと思うので概要を説明しておきます。 簡単に言うと、声の特徴"だけ"を抽出したモデルとなります。 イメージ例としては以下のような感じです。 2つの声を用意します: 声A:普通の声(例:普通に話すシロハナ) 声B:特殊な声(例:囁くシロハナ) BからAを引きます(B - A) 結果:ささやき方の特徴だけが残ります この「特徴だけ」を保存します これがヌルモデルです! 素材のダウンロード先ほどの例の通り、ささやき声にしたい元の声(A)とささやきだけを抽出したヌ
Amazon のアンディ・ジャシー CEO の以下の投稿が話題になっている。 One of the most tedious (but critical tasks) for software development teams is updating foundational software. It’s not new feature work, and it doesn’t feel like you’re moving the experience forward. As a result, this work is either dreaded or put off for more exciting work—or… pic.twitter.com/MJvsqNxgiT— Andy Jassy (@ajassy) August 22, 2024 ソフトウェア開発チームにとっても
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く