[B! deeplearning] [6ページ] stealthinuのブックマーク

stealthinu id:stealthinu

deeplearningに関するstealthinuのブックマーク (1,815)

NotebookLM now lets you listen to a conversation about your sources
stealthinu 2024/09/12
NotebookLMに上げた資料をLLMが解釈して２キャラで説明してくれる。ゆっくり動画の音声自動生成的な？これ聞いたあと会話に混ざらせてくれるようにしたい。というかたぶん次はそうなる流れ。

deeplearning

LLM

音声
リンク
GitHub - kuuchan-code/MMVC_Client: AIを使ったリアルタイムボイスチェンジャー(client)
stealthinu 2024/09/12
おお！MMVC Clientのrustバージョン書いてるんだ！

deeplearning

音声
リンク
GitHub - tuna2134/sbv2-api: Only infer tts
stealthinu 2024/09/11
Style-BERT-VITS2のonnxモデルのRustクライアント。まだ実装中っぽい。

deeplearning

音声
リンク
sarulab-speech/J-CHAT · Datasets at Hugging Face
stealthinu 2024/09/06
J-CHATコーパス。5T!という音声なのに笑えるほどでかいデータセットのためwebdatasetという形式になってる。5Tはなあ…　さすがに置き場にこまる。

deeplearning

音声
リンク
J-CHAT: Japanese Large-scale Spoken Dialogue Corpus for Spoken Dialogue Language Modeling
stealthinu 2024/09/06
日本語会話コーパスでめちゃくちゃでかい！これでpyannote学習させたら間違いなく日本語の話者分離性能あがるだろう。てかもうだれかやってるよね？

deeplearning

音声
リンク
ニューラルネットワークの損失地形
stealthinu 2024/09/06
感動だった！平坦解から・大きいモデルが学習速い・次元の呪いにかからない・量子化しても性能落ちない・SGDのほうがよくなる・ResNetの利点・相転移・モデルマージ等々の理由が「腑落ち」する説明

機械学習

deeplearning
リンク
GitHub - m-bain/whisperX: WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization)
This repository provides fast automatic speech recognition (70x realtime with large-v2) with word-level timestamps and speaker diarization. ⚡️ Batched inference for 70x realtime transcription using whisper large-v2 🪶 faster-whisper backend, requires <8GB gpu memory for large-v2 with beam_size=5 🎯 Accurate word-level timestamps using wav2vec2 alignment 👯‍♂️ Multispeaker ASR using speaker diariza
stealthinu 2024/09/04
faster-whisperとpyannote使った話者分離しつつ高速で音声認識書き起こしするツール。ただやはりpyannote使ってるから英語での話者分離ほどの精度は出ない感じ。

deeplearning

音声
リンク
GitHub - anthropics/anthropic-quickstarts: A collection of projects designed to help developers quickly get started with building deployable applications using the Anthropic API
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
stealthinu 2024/09/04
Anthropic ClaudeのAPI使ったアプリケーションの公式サンプル。ユーザーサポートエージェントというすごくよくある需要のやつ。

deeplearning

LLM
リンク
🚀 A super lightweight API server for Style-Bert-VITS2 that can run anywhere! 🌍
sbv2api.py `� �WU ��*�WU # 1. Install dependencies # pip install style-bert-vits2 fastapi uvicorn # pip install numpy==1.26.4 # If you use GPU, reinstall PyTorch that matches the CUDA version of your environment. # pip uninstall torch torchvision torchaudio # pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 # for CUDA 12.4 # 2. Set path and settings MODEL
stealthinu 2024/09/04
Style-BERT-VITS2をAPI呼び出しするためのスクリプト

deeplearning

音声
リンク
yifeihu/TF-ID-base · Hugging Face
TF-ID: Table/Figure IDentifier for academic papers Model Summary TF-ID (Table/Figure IDentifier) is a family of object detection models finetuned to extract tables and figures in academic papers created by Yifei Hu. They come in four versions:
stealthinu 2024/09/03
論文等から図表部分だけを抽出するモデル

機械学習

deeplearning

画像
リンク
コンテンツ産業に画像生成AIを社会実装する上で越えるべき課題と提案
こんにちは、抹茶もなかです。もう夏も終わりという事でちょうど区切りの良いタイミングのため、久しぶりにポエム記事でも書こうかと思います。今回は画像生成AIの社会実装について。進む高精度化と進まない社会実装今年も画像生成AIはその速度を緩めることなく成長をし続けています。アーキテクチャがUnetベースからTransf ormerベースへ移行し、生成精度も格段に良くなってきました。 FluxやImageFXなど、AIによる生成画像とAIを使用せずに制作された写真・イラストとの区別はどんどんつかなくなってきています。また、画像生成に留まらず、動画生成も徐々に実用的なレベルに達しつつあり、今年はKling, Vidu, Gen3など去年とは比較にならないほど高精度な動画生成サービスもでてきています。また、画像生成AIを支える周辺技術も整備され始めており、必要スペックの要求水準引き下げや、
stealthinu 2024/08/31
フロー毎分割の方針もわかるが一貫性付与のためにキャラクターについてのベクトルを保持して渡すようなLLMと組み合わせた手法が次は求められてる気がする。

deeplearning

画像
リンク
大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー
関連URL Tanuki-8x8B Leaderboard3 Tanuki-8B Leaderboard3 大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など全体像フルスクラッチで開発した大規模言語モデルTanuki-8B, 8x8Bの性能についての技術的な詳細 Japanese MT-Benchにおける性能の詳細とJasterに関する一部言及 ChatbotArena的なシステムでTanuki-8x8Bを始めとする大規模言語モデルの日本語性能を評価する(2024年8月) ブラインドテスト形式で種々のモデル出力の優劣を人手で評価した結果と､各種ベンチマークとの関係性大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー開発の鍵となった合成データ戦略に至るまでの試行錯誤など Tanuki-8B,8x8Bの開発完了までに考えていたこ
stealthinu 2024/08/31
tanuki-8Bの学習についての総括。自分がこんなふうにLLM自体の研究には関われないとは思うが読んでるだけでワクワク感があった。そして合成データが精度上げた話とか他分野でも使えそうな話だった。

deeplearning

LLM
リンク
独自の日本語LLM（大規模言語モデル）のバージョン3を一般公開 ―225億パラメータの商用利用可能なモデルを提供―
株式会社サイバーエージェント（本社：東京都渋谷区、代表取締役：藤田晋、東証プライム市場：証券コード4751）は、225億パラメータの日本語LLM（Large Language Model、大規模言語モデル）「CyberAgentLM3」を公開したことをお知らせいたします。当社はかねてより日本語LLMの開発に取り組んでおり、2023年5月に独自の日本語LLMである「CyberAgentLM」を一般公開しました。その後も、2023年11月にバージョン2となる「CyberAgentLM2」を、2024年6月には視覚を付与したVLM（大規模視覚言語モデル）を公開しています。これらの技術は当社が提供する「極予測AI」をはじめとするサービスにおいて広く活用されています。
stealthinu 2024/08/31
Calm-3-22Bがtanukiの合成データ生成に使われてたという話で改めてブクマ。CAは日本のLLMではトップ走ってるしライセンスもApache2.0だしすごい。

deeplearning

LLM
リンク
生成AIに「夢」を見せる→“過学習”を防ぐ　「人間が夢（合成データ）を見る理由も同じか？」　米研究者が21年に提唱
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。通常は新規性の高い、AI領域の科学論文を解説しているが、ここでは番外編として“ちょっと昔”に発表された個性的な科学論文を取り上げる。 X：＠shiropen2 夢を見る目的は何なのか。従来の理論では、夢は記憶の固定化や情報の整理に役立つと考えられているが、夢を見る理由やメカニズムについてはいまだ十分に解明されていない。一方、夢と最も関連の深い睡眠段階を抑制すると、哺乳類の学習能力が低下することは以前から知られている。研究者らは機械学習の概念を用いてこの問題にアプローチし、夢の役割について新しい視点を提示した。具体的には、夢が現実の経験を少し変形させたバージョンを提供することで、脳が特定のパターンに過度に適応するのを防いでいるというも
stealthinu 2024/08/30
この論文は夢はDAだという意見だけど、自分は夢は枝刈りじゃないかと思ってる。結びつき弱いとこ刈ってるのを意識が見てしまったものが夢。なので夢から覚めたら普通は覚えてないと。

deeplearning

機械学習
リンク
Googleの新画像生成AI『ImageFX』が考える非実在日本アイドル史（1968～83）。超リアルだが全部偽物（CloseBox） | テクノエッジ TechnoEdge
非常に高性能な画像生成AI「ImageFX（Imagen 3）」の登場です。 FLUX.1がMidjourneyと並ぶ最高峰の画像生成AIとして注目を浴び始めてから2週間もたたないうちに、新しいAI画像サービスが、なんとGoogleから登場しました。それがImageFXです。 Googleは画像生成AIの新バージョンであるImagen 3をリリースしたばかりですが、この技術を使った「ImageFX」というサービスをGoogle AI Test Kitchenでスタートしています。これが生成する人物画像がとてもリアルだというので評判です。GeminiでもImagenを使った画像生成は可能なのですが、制限が厳しく、人物を含んだ画像の生成ができなくなっています。 ▲GeminiのImagenでは人物画像が生成できない ImageFXは、テキストプロンプトを入れると、4枚の画像が生成されるという仕
stealthinu 2024/08/30
ここまで細かく時代と写真についての理解がされてるんだな。というか与えてる画像へのタグ付けが細かく正確にされてたデータが作られてる。

deeplearning

画像
リンク
【西川和久の不定期コラム】話題のFLUX.1をComfyUIで画像生成してみる！基本系とControlNetのWorkflow(json)公開
stealthinu 2024/08/28
ComfyUIでFLUX試すのこの記事がすごく参考になった。ありがたい。

deeplearning

画像
リンク
GitHub - Zuntan03/EasyForge: EasyForge は簡単・安全に新生 Forge を試せる環境です。
Flux を試してみたい方向けのインストール方法です。 SDXL の画像生成なら EasySdxlWebUi などの既存の画像生成環境が今のところオススメです。最近の NVIDIA 製ビデオカードを搭載した Windows PCで動作します。 Geforce GTX 1660Ti 6GB, RAM 32GB の Win PC で 2:45秒でした。「トラブルシューティング」「日本語化」「既存の画像生成環境のモデルや LoRA の参照」などは『EasyForge のインストールと更新』。 EasyForgeInstaller.bat を右クリックから保存して、インストール先のフォルダで実行します。 WindowsによってPCが保護されましたと表示されたら、詳細表示から実行します。インストールが終わったら、download/Flux-Minimum.bat で Flux のモデ
stealthinu 2024/08/28
Fluxを試す環境を一番簡単に構築できる

deeplearning

画像
リンク
Style-Bert-VITS2の差分マージで遊ぶ
はじめにオープンソースな日本語音声合成 (TTS) であるStyle-Bert-VITS2の2024-06-16のver 2.6.0で、マージ機能に差分マージやヌルモデルマージが追加されました。この記事は、これらのマージでできることをいろいろ紹介して、みんな実験して共有してみてね、という記事です。注意日本語特化版 (JP-Extra版) とそうでないモデル同士のマージはできません。このページで共有している結果やモデルは全てJP-Extra版のものです。差分マージとは？通常のマージについて SBV2では、今まで以下の点で2つのモデルをマージすることができました: 声質（誰が喋っているか）声の高さ話し方・感情表現話すリズム・テンポ具体的には、2つのモデルを A, B とすると、スカラー weight について、を、上記4つの要素が入っていると思われるモデルの重みについて
stealthinu 2024/08/27
Style-Bert-VITSで特徴の論理和するデモ

deeplearning

音声
リンク
Style-Bert-VITS2でささやきボイスを生成する【ヌルモデルマージ】｜yuki@AIキャラ開発P
※この記事は2024/8/27時点のものなので今後変更があるかもしれないですのでご了承くださいヌルモデル素材の用意まずはヌルモデルというものがささやき音声モデルの作成には必要になるので用意します。 ※もちろん、ささやき声にしたいモデルも必要なので、こちらは自由に用意してくださいヌルモデルとは？いきなりヌルモデルと言われてもよくわからないと思うので概要を説明しておきます。簡単に言うと、声の特徴"だけ"を抽出したモデルとなります。イメージ例としては以下のような感じです。 2つの声を用意します：声A：普通の声（例：普通に話すシロハナ）声B：特殊な声（例：囁くシロハナ） BからAを引きます（B - A）結果：ささやき方の特徴だけが残りますこの「特徴だけ」を保存しますこれがヌルモデルです！素材のダウンロード先ほどの例の通り、ささやき声にしたい元の声(A)とささやきだけを抽出したヌ
stealthinu 2024/08/27
Style-Bert-VITSで特徴の論理和の対応とかしてたんだ

deeplearning

音声
リンク
Amazonは生成AIアシスタントで開発者4500人年の工数を節約し、年間2億6000万ドルもの効率向上を実現したって？ - YAMDAS現更新履歴
Amazon のアンディ・ジャシー CEO の以下の投稿が話題になっている。 One of the most tedious (but critical tasks) for software development teams is updating foundational software. It’s not new feature work, and it doesn’t feel like you’re moving the experience forward. As a result, this work is either dreaded or put off for more exciting work—or… pic.twitter.com/MJvsqNxgiT— Andy Jassy (@ajassy) August 22, 2024 ソフトウェア開発チームにとっても
stealthinu 2024/08/26
AmazonでJava17対応をLLMにやらせてたった数時間で対応できたという話。前後の時間考えるともっとかかったろうが、でもそういう世界になるよ、ということが証明されてきてる。

deeplearning

LLM

開発
リンク
前のページ 2 3 4 5 6 7 8 9 10 11 次のページ