並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 106件

新着順 人気順

Whisperの検索結果41 - 80 件 / 106件

  • 話題の文字起こしAI「Whisper」、ニュース記事を読み上げて試したら驚きの精度だった

    インタビューや会議の際に発言内容をメモしながら、後で間違えないよう録音もする人は少なくないだろう。だが、録音した音声を聞いてテキストに起こす作業はかなりの手間がかかる。筆者の場合は聞き取りづらい箇所を繰り返し再生したり、パソコンに文字を打ち込む操作が遅れて音声の再生を一時停止したりしているうちに、実際の録音時間の何倍もかかってしまう。作業が終わるころには疲れてうんざりしていることもある。 筆者と同じように「骨の折れる文字起こし作業を何とか楽にこなしたい」と考える人は、洋の東西を問わず多いのかもしれない。最近はAI(人工知能)によって音声を解析して自動的に文字起こしするツールが国内外で増えてきた。中でも大きな注目を集めているのは、米OpenAI(オープンAI)の音声認識AI「Whisper」だ。 同社は米テスラ創業者のイーロン・マスク氏らが設立したAIの研究開発企業で、2020年に発表した言

      話題の文字起こしAI「Whisper」、ニュース記事を読み上げて試したら驚きの精度だった
    • ChatGPT・Whisper・Otter・DeepLのすごい「英語力」、海外取材で効果絶大だった

      米OpenAI(オープンAI)の「ChatGPT」をはじめとする高度な言語AI(人工知能)が国内外で大きな話題となっている。英語、日本語、中国語など多言語を操り、人が話した言葉を聞き取ったり、こなれた文章を書いたり、翻訳したりする。近ごろは毎日のようにテレビやインターネットでニュースを見かけるほどだ。様々な言語AIを試しながら、自分なりの活用法を探っている読者の方は少なくないだろう。 筆者も最近、取材活動にChatGPTなどの言語AIがどれだけ役立つのかを検証する機会があった。スペイン・バルセロナで2023年2月27日から3月2日まで開催されたモバイル業界最大級の展示会「MWC Barcelona 2023」に初めて参加した。世界202の国と地域から8万8500人以上が参加したという同イベントは、基本的に英語が使われる。カンファレンス、メディア向けの展示ブースツアー、1対1のインタビューの

        ChatGPT・Whisper・Otter・DeepLのすごい「英語力」、海外取材で効果絶大だった
      • iOS版「OpenAI ChatGPT」アプリ、まずは米国で公開 音声入力も可能

        Web版と同様にログインして使う。有料版「ChatGPT Plus」ユーザーであれば、Web版と同様にGPT-4へのアクセスや新機能の早期利用などが可能だ。 また、昨年9月に発表したオープンソースの音声テキスト変換AI「Whisper」により、音声でのプロンプト入力も可能だ。 米Microsoftは2月に「新しいBing」のモバイルアプリ版をiOSおよびAndroid向けにリリースした。こちらは既に日本でも利用可能で、日本語での音声入力もできる。 現在App Storeで「ChatGPT」を検索すると、OpenAIのロゴに似たロゴを冠した類似アプリが多数表示される。OpenAI ChatGPTは日本ではまだ公開されていないので、注意が必要だ。 関連記事 ChatGPT Plusのプラグインを使ってみた 「食べログ」連携で実在店舗も案内可能に OpenAIは「ChatGPT Plus」のサー

          iOS版「OpenAI ChatGPT」アプリ、まずは米国で公開 音声入力も可能
        • whisper.cppのCore ML版をM1 MacBook Proで動かす

          OpenAIの音声認識モデルであるWhisperの高速推論版であるwhisper.cppが、いつのまにか [1] Core ML対応していた。 Core ML対応したということは、macOS/iOSデバイス(Mac, iPhone, etc...)に搭載されているNeural Engine、GPUを利用して推論処理を行うようになった、ということを意味する。[2] さっそくREADMEの手順をなぞりつつ手元のMBPで動かしてみたメモ。 なお、実行環境は以下の通り: MacBook Pro M1 Max 64GB macOS Ventura 13.3.1 Core MLモデルの生成手順 依存パッケージのインストール whisper.cppのCore MLモデルの作成に必要なパッケージをインストールする。

            whisper.cppのCore ML版をM1 MacBook Proで動かす
          • OpenAI Whisper に追加学習をさせる試み | IIJ Engineers Blog

            地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を経て、ローカルLLMを中心としたAIソリューションを主軸に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、性的違和の治療に一歩足を踏み出しています。 【IIJ 2022 TECHアドベントカレンダー 12/8(木)の記事です】 Whisperの追加学習に挑む2022年の冬 2022年アドベントカレンダー企画だそうです。 いかがお過ごしでしょうか。 私はもう興味を引くものに没頭するしか楽しみがないもんで、PCに向かってぼんやり面白いネタはないかなーと探す日々です。 最近はすっかりディープラーニングにズブズブで、とうとう数式かくのが面倒なあまり手書き入力のためのペンタブレットを買いました

              OpenAI Whisper に追加学習をさせる試み | IIJ Engineers Blog
            • Amazon Connectでお問い合わせ内容をWhisper APIで文字起こしし、ChatGPTで要約して音声出力してみた(一次対応の無人化) | DevelopersIO

              Amazon Connectでお問い合わせ内容をWhisper APIで文字起こしし、ChatGPTで要約して音声出力してみた(一次対応の無人化) はじめに Amazon Connectを使用して、お問い合わせ内容をOpenAIのWhisper APIで文字起こしとChatGPTで要約し、通話中に音声出力する方法をまとめました。 Connectで無人対応の場合、顧客からの発話を聞き取る方法としては、チャットボットサービスであるAmazon Lexもしくは、Kinesis Video Stream(KVS)で音声のストリーミングなどがあります。 Amazon Lexを利用する場合は、1度に15秒以上は聞き取ることができない点や文字起こしにはAmazon Transcribeを利用する制約があります。 今回は、文字起こしにWhisper APIを利用し、ChatGPTで要約した内容をConne

                Amazon Connectでお問い合わせ内容をWhisper APIで文字起こしし、ChatGPTで要約して音声出力してみた(一次対応の無人化) | DevelopersIO
              • 生成AIと音声認識を組み合わせて会議アシスタントツールを作ったら生産性が大幅に向上した話

                株式会社クラウドネイティブは、Azure OpenAIで自組織専用のChatGPTの構築を支援するサービスを展開しています。ChatGPTとAzure AD OpenAI Serviceの取り組みや事例、支援… IDチームの前田です。今日は生成AI(ChatGPT)と音声認識モデル(Whisper)を利用した会議アシスタントツールに関する投稿になります。 (追記) 作ったツールはGitHub上で公開しており、Dockerを利用してすぐに試せるようになってます。 https://github.com/cloudnative-co/mtg-ai-assistant 2023年8月30日現在Azure OpenAIにてWhisperが利用出来ていないため、OpenAI Whisper APIを利用した試験段階のものになります。近日中にAzure OpenAIにてWhisperが利用出来るとアナウ

                  生成AIと音声認識を組み合わせて会議アシスタントツールを作ったら生産性が大幅に向上した話
                • GitHub - ggerganov/whisper.cpp: Port of OpenAI's Whisper model in C/C++

                  Stable: v1.7.5 / Roadmap High-performance inference of OpenAI's Whisper automatic speech recognition (ASR) model: Plain C/C++ implementation without dependencies Apple Silicon first-class citizen - optimized via ARM NEON, Accelerate framework, Metal and Core ML AVX intrinsics support for x86 architectures VSX intrinsics support for POWER architectures Mixed F16 / F32 precision Integer quantization

                    GitHub - ggerganov/whisper.cpp: Port of OpenAI's Whisper model in C/C++
                  • Introducing Whisper

                    Whisper is an automatic speech recognition (ASR) system trained on 680,000 hours of multilingual and multitask supervised data collected from the web. We show that the use of such a large and diverse dataset leads to improved robustness to accents, background noise and technical language. Moreover, it enables transcription in multiple languages, as well as translation from those languages into Eng

                      Introducing Whisper
                    • ジェネレーティブAIで「文字起こし」をリライトさせるとどうなるのか。Easy-Peasy.AIを日本語で使ってみた(西田宗千佳) | テクノエッジ TechnoEdge

                      1971年福井県生まれ。得意ジャンルは、パソコン・デジタルAV・家電、ネットワーク関連など「電気かデータが流れるもの全般」。主に、取材記事と個人向け解説記事を担当。 音声の書き起こしはライターにとって夢の技術だ。そのまま原稿にできるわけではないが、インタビュー原稿や取材記事を執筆する上での手間が劇的に減る。筆者はもうずっと昔から、書き起こし系の技術が出るたびに試行錯誤を繰り返してきた。 そんな中に、ちょっとびっくりするようなサービスが現れた。正確にいえば「使ってみたらびっくりするようなものだった」というのが正しいだろうか。 それはいわゆるジェネレーティブAIサービスである「Easy-Peasy.AI」だ。このうち、AIによる音声書き起こしサービス「AI Transcription」を日本語で使ってみた。 結果として、「非常に使えるが、面白い性質がある」こともわかってきた。現在のジェネレーテ

                        ジェネレーティブAIで「文字起こし」をリライトさせるとどうなるのか。Easy-Peasy.AIを日本語で使ってみた(西田宗千佳) | テクノエッジ TechnoEdge
                      • OpenAIの音声認識モデルWhisperを利用し音声からテキストを書き起こしてくれるMacアプリ「MacWhisper (Whisper Transcription)」がリリース。

                        OpenAIの音声認識モデルWhisperを利用し音声をテキストへ書き起こしてくれるMacアプリ「MacWhisper (Whisper Transcription)」がリリースされています。詳細は以下から。 ChatGPTやGPT-3などを開発しているOpenAIは2022年09月、Web上から収集した68万時間にも及ぶ音声データを利用し学習させた自動音声認識(ASR: Automated speech recognition)システムWhisperを公開しましたが、その音声認識モデルを利用して音声ファイルをテキストへ変換(書き起こし)してくれるMacアプリ「MacWhisper (Whisper Transcription)」が新たにリリースされています。 Quickly and easily transcribe audio files into text with OpenAI’s

                          OpenAIの音声認識モデルWhisperを利用し音声からテキストを書き起こしてくれるMacアプリ「MacWhisper (Whisper Transcription)」がリリース。
                        • OpenAIの文字起こしAI「Whisper」の使い方 | DXを推進するAIポータルメディア「AIsmiley」

                          OpenAIが発表した音声認識モデル「Whisper」は、日本語の音声でも精度高く文字起こしできるツールとして知られています。今回はアイスマイリー編集部が「AIニュース原稿の読み上げ音声を素材にどのくらい精度高く文字起こしできるのか」や「生活騒音下における読み上げ音声でも結果は変わらないのか」について調べてみましたので是非やり方を真似して試してみてください。 記事後半ではWhisper APIおよびChatGPT APIを活用した文字起こしサービスである「writeout.ai」の紹介も行っていますので、業務への活用イメージとしてご活用ください。 生成AIについて詳しく知りたい方はこちらの記事もご覧ください。 生成AI(ジェネレーティブAI)とは?種類・使い方・できることをわかりやすく解説 音声認識モデルとは? 音声認識モデルとは、AIが人間の声を認識し、認識した音声をもとに何らかのデータ

                            OpenAIの文字起こしAI「Whisper」の使い方 | DXを推進するAIポータルメディア「AIsmiley」
                          • ChatGPTがスマホアプリに まず米国でiPhone向け - 日本経済新聞

                            【シリコンバレー=渡辺直樹】米新興企業のオープンAIは18日、対話型AI(人工知能)「Chat(チャット)GPT」のスマートフォンアプリの配信を始めたと発表した。音声入力にも対応した。米アップルのiPhone向けに提供し、近く米グーグルの基本ソフト(OS)アンドロイドのスマホにも対応する。米国向けを手始めに今後数週間で対応地域を広げる。アプリは無料で利用でき、複数の端末間で履歴を同期できる。オ

                              ChatGPTがスマホアプリに まず米国でiPhone向け - 日本経済新聞
                            • 【Python】OpenAIのWhisperで音声文字起こしアプリを作成! - Qiita

                              はじめに OpanAI社の音声文字認識エンジンのWhisperを使って、音声文字起こしするプログラムを作成しました。 プログラムはPythonからAPIでWhisperを使って、音声文字認識する形式です。 約2分の音声を試したところは、Whisperの音声文字認識の精度は99%とAmiVoiceCloudPlatform(96%)以上の精度でした。 2分の動画を約9秒で変換できるなど、非常に使い勝手の良いAPIです。 価格は1分あたり0.9円(0.006ドル)です。 ただし、Whisperのインプットの音声ファイルの容量は25Mバイトですので、それ以上のファイルは分割する必要があります。 環境 Windows10 Python3.8.8 VSCode 使用ライブラリー openai pydub tkinter openpyxl pandas 処理の流れ: 今回作成した処理は、音声ファイルを

                                【Python】OpenAIのWhisperで音声文字起こしアプリを作成! - Qiita
                              • OpenAIの自動文字起こし「Whisper API」は1分1円以下! 簡単に使える?

                                  OpenAIの自動文字起こし「Whisper API」は1分1円以下! 簡単に使える?
                                • VSCode上でCodeWhispererとCopilotを両方使うと、捗る (AIが脆弱性診断→AIが解説)

                                  (2024/05/01追記) CodeWhispererがAmazon Qに吸収されたみたいです。 今から読む人は、CodeWhispererをAmazon Qに読み替えていただければと思います。 言いたいこと VSCode上でAmazon CodeWhispererに脆弱性診断をさせてGitHub Copilot Chatにその解説をさせると、とても捗るよ。 もう少し細かい説明 GitHub CopilotやAmazon CodeWhispererって何? GitHub Copilotは、IDE上でAIがコーディングの補完をしてくれるGitHub提供のサービスです。 Amazon CodeWhispererは、IDE上でAIがコーディングの補完をしてくれるAWS提供のサービスです。 つまり競合しています。比較用に両方を使ったことがある人はいても、日常的に同時使用している人は少ないのではな

                                    VSCode上でCodeWhispererとCopilotを両方使うと、捗る (AIが脆弱性診断→AIが解説)
                                  • OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始 | Ledge.ai

                                    インター・ラボ株式会社は12月15日、人工知能研究組織OpenAIが開発した音声認識モデル「Whisper」を利用した音声文字起こしAPIである「WhisperAPI」の無償提供を開始したことを発表した。OpenAIは、文章から画像を生成するAI「DALL・E2」や、自然で多彩な文章を生成するAI「GPT-3」などを開発している。 高い音声認識精度を持つWhisperを用いたAPIを無償提供し、外部サービスと連携するなど幅広いユーザーが利用できるようにする。また、プログラミングの知識を持たない人でもブラウザでかんたんに利用できるWebサービスも提供する。 画像はWhisper公式Githubより Whisperとは、OpenAIが開発した汎用的な音声認識モデルで、現在GitHubにおいて公開されている。教師あり学習で68万時間というデータを学習しており、高い音声認識精度を持つ。音声翻訳や言

                                      OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始 | Ledge.ai
                                    • 【Mac Info】 文字起こしは「Whisper Transcription」がオススメ!

                                        【Mac Info】 文字起こしは「Whisper Transcription」がオススメ!
                                      • Whisper Web - a Hugging Face Space by Xenova

                                        Discover amazing ML apps made by the community

                                          Whisper Web - a Hugging Face Space by Xenova
                                        • OpenAI、「ChatGPT」と「Whisper」のAPIを公開 料金体系、データの利用ポリシーは?

                                          AI関連技術を開発する非営利組織OpenAIは2023年3月1日(米国時間)、対話に特化した言語モデル「ChatGPT」と汎用(はんよう)の音声認識モデル「Whisper」をAPIで利用できるようにしたと発表した。APIの公開に合わせて、利用規約を開発者ニーズにより良く対応できるように改訂したことも明らかにした。 ChatGPT APIは1000トークン当たり0.002ドルで提供 関連記事 ChatGPTとは何か そのできること/できないこと OpenAIがリリースした人との対話をターゲットとする大規模な言語モデル「ChatGPT」。その概要について見てみましょう。 サイバー犯罪者も「ChatGPTを使ってコーディング」をしている チェック・ポイント チェック・ポイント・ソフトウェア・テクノロジーズは脅威アクターがOpenAIのChatGPTを悪用して悪質なコードを生成していることを、実例

                                            OpenAI、「ChatGPT」と「Whisper」のAPIを公開 料金体系、データの利用ポリシーは?
                                          • AWS Lambda でOpenAI の Whisper API を 認識精度の改善も含めて試してみた | DevelopersIO

                                            はじめに AWS LambdaでOpenAIのWhisper APIを試してみました。 OpenAIには音声データから文字起こししてくれる「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び出すWhisper APIが存在します。日本語ももちろん対応してます。 今回は、AWS LambdaがS3バケットに保存された音声データを元にWhisper APIで文字起こしして、精度を確認してみたいと思います。 OpenAIアカウントAPIキーの発行 OpenAIアカウント作成後、APIキーの発行をします。 APIキーの発行は、アカウントの View API keys をクリックします。 Create new secret key をクリックすると、API keyが発行されますので、コピーしておきます。 S3バケット 拡張子がwavの音声ファイルをS3バケットに保存しました

                                              AWS Lambda でOpenAI の Whisper API を 認識精度の改善も含めて試してみた | DevelopersIO
                                            • 「ChatGPT」が見て、聞いて、話せるように ~音声・画像対応のマルチモーダルAI/今後2週間のうちに「Plus」および「Enterprise」で提供

                                                「ChatGPT」が見て、聞いて、話せるように ~音声・画像対応のマルチモーダルAI/今後2週間のうちに「Plus」および「Enterprise」で提供
                                              • 無償のiOS版「ChatGPT」を早速使ってみた ~ついに来た公式アプリは優秀な音声入力機能がいい!/基本は同じでも直感的かつスムーズな手触りに好印象【やじうまの杜】

                                                  無償のiOS版「ChatGPT」を早速使ってみた ~ついに来た公式アプリは優秀な音声入力機能がいい!/基本は同じでも直感的かつスムーズな手触りに好印象【やじうまの杜】
                                                • OpenAIの音声認識モデルWhisperを利用し、オーディオやビデオファイルの音声をテキストへ変換してくれるMacアプリ「AI Transcription」がリリース。

                                                  OpenAIの音声認識モデルWhisperを利用し音声をテキストへ変換してくれるMacアプリ「AI Transcription」がリリースされています。詳細は以下から。 ChatGPTなどを開発するOpenAIは2022年09月、Web上から収集した68万時間にも及ぶ音声データを利用し学習させた自動音声認識(ASR: Automated speech recognition)システム「Whisper」を公開しましたが、このWisperを利用し、音声をテキストへ変換してくっるMacアプリ「AI Transcription」が新たにリリースされています。 Turn audio into text! AI Transcription uses advanced Speech Recognition to transcribe your audio and video files in a bli

                                                    OpenAIの音声認識モデルWhisperを利用し、オーディオやビデオファイルの音声をテキストへ変換してくれるMacアプリ「AI Transcription」がリリース。
                                                  • WhisperのモデルをONNXにする - TadaoYamaokaの開発日記

                                                    WhisperのモデルをONNXに変換する方法について記述する。 Whisperのモデル WhisperのモデルはPyTorchを使ってPythonで実装されている。 そのため、実行にはPyTorchをインストールしたPython環境が必要になる。 環境構築なしでスタンドアロンで利用できると用途が広がる。 また、アプリへの組み込みも行いやすくなる。 ONNXモデル ONNXは、ニューラルネットワークの標準ファイルフォーマットである。 モデルをONNXにすると、ONNX Runtimeなどの推論用のライブラリを使って推論できる。 推論用のライブラリは、組み込みで使うことを意図しているので、スタンドアロンのアプリに組み込むことができる。 ONNXへの変換 WhisperのモデルからONNXへの変換は、pytorch.onnxを使って行う。 ただし、Whisperは、デコーダのループ処理で、前の

                                                      WhisperのモデルをONNXにする - TadaoYamaokaの開発日記
                                                    • GitHub - SYSTRAN/faster-whisper: Faster Whisper transcription with CTranslate2

                                                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                        GitHub - SYSTRAN/faster-whisper: Faster Whisper transcription with CTranslate2
                                                      • 議事録生成AI「CalqTalk」の更なる飛躍: OpenAIのGPT-3とWhisperで高速高精度化

                                                        議事録生成AI「CalqTalk」の更なる飛躍: OpenAIのGPT-3とWhisperで高速高精度化文字起こし技術の高度化により音声構造化と提案精度向上、及び高速化に成功 ジェネレーティブAIや量子技術を活用したクリエイティブ集団であるKandaQuantum(本社:東京都千代田区、CEO:元木大介)は、当社のサービスである議事録AI「CalqTalk(カルクトーク)」にOpenAIの音声認識モデル「Whisper」を導入し、更なる議事録AIの高速高精度化に成功しました。 *議事録AI: 音声認識モデルと自然言語生成モデルを組み合わせ人間が理解しやすい情報への構造化とネクストアクション等の提案まで行うAI 「CalqTalk」先行ユーザー登録フォームはこちら! https://forms.gle/fe1DtwTkYdQtUiby8 [お知らせ] 株式会社KandaQuantum代表元木

                                                          議事録生成AI「CalqTalk」の更なる飛躍: OpenAIのGPT-3とWhisperで高速高精度化
                                                        • GitHub - leetcode-mafia/cheetah: Mac app for crushing remote tech interviews with AI

                                                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                            GitHub - leetcode-mafia/cheetah: Mac app for crushing remote tech interviews with AI
                                                          • Hugging FaceでOpenAIの音声認識”Whisper”をFine Tuningする方法が公開されました | DevelopersIO

                                                            こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 OpenAIがリリースしたWhisperについて、先日Hugging FaceのブログでHugging Faceのフレームワークを用いたfine-tuningの実行方法が紹介されました。 fine-tuningにより、自社で蓄積された音声や書き起こしのデータセットがある場合は、特化した学習をすることが可能です。 また著名なHugging Faceからfine-tuningの実装がリリースされたことで、今後様々なシーンでの応用の可能性を感じます。 Hugging FaceブログではHindi語を例として実施していますが、今回はこちらについて、日本語データを例にしながら動作を確認していきたいと思います。 概要 本記事では、Hugging Faceのフレームワークを用いたfine-tuningの実行を、日本語データセットを例

                                                              Hugging FaceでOpenAIの音声認識”Whisper”をFine Tuningする方法が公開されました | DevelopersIO
                                                            • Whisperで文字起こしをした文章をChatGPTでいい感じにする

                                                              本記事は、あくまで個人的な使用を前提とした文字起こしの方法の紹介です。許可なく、他人のコンテンツを全部文字起こしして公開すると、著作物の改変などの問題になる可能性があると思います タイトル通りです。Whisperで文字起こしをしました。 ただ、以下のように句読点がない文章になってしまい、読みづらいです。 樋口 世界の歴史キュレーションプログラム コテンラジオ樋口 世界の歴史キュレーションプログラム コテンラジオパーソナリティーの株式会社ブック代表樋口清則 です深井 そして株式会社コテンの深井 隆之介です樋口 そして株式会社コテンの楊 英史です樋口 このラジオは歴史を愛し歴史 の面白さを知りすぎてしまった深井さんを代表とする株式会社 コテンのお二人と一緒に学校の授業ではなかなか学べない国内外 の歴史の面白さを学んじゃおうという番組ですよろしくお願いします これを修正するのは結構たいへんそうで

                                                                Whisperで文字起こしをした文章をChatGPTでいい感じにする
                                                              • iPhoneでChatGPT。iOSアプリが日本でも公開

                                                                  iPhoneでChatGPT。iOSアプリが日本でも公開
                                                                • 無料で使えるChatGPT公式のiOSアプリ登場、文字起こしAIのWhisperで音声入力も可能

                                                                  OpenAIが高性能チャットAI「ChatGPT」のiOSアプリを公開しました。アプリではChatGPTとチャットできるほか、文字起こしAI「Whisper」を用いた音声入力にも対応しています。 Introducing the ChatGPT app for iOS https://openai.com/blog/introducing-the-chatgpt-app-for-ios ChatGPTの公式iOSアプリは、以下のリンク先で配布されています。 OpenAI ChatGPT on the App Store https://apps.apple.com/app/openai-chatgpt/id6448311069 ただし、記事作成時点ではアメリカでのみ公開されており、日本からアクセスしても「App入手不可能」と表示されてしまいました。 そこで、居住国をアメリカに設定したAppl

                                                                    無料で使えるChatGPT公式のiOSアプリ登場、文字起こしAIのWhisperで音声入力も可能
                                                                  • OpenAIがリリースした音声認識モデル”Whisper”の使い方をまとめてみた | DevelopersIO

                                                                    こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 OpenAIがリリースしたWhisperについて、先日は以下の紹介記事を書きました。 今回はもう少し深堀することで、様々な使い方がわかってきたのでシェアしたいと思います。 Whisperでできること APIを使ってできるのは以下になります。 transcribe(書き起こし処理) 音声からの文字書き起こし。 99言語に対応 translate(書き起こし + 翻訳) 音声からの翻訳処理。 入力は多言語に対応していますが、出力は英語のみ。 また内包される機能として、言語判定や有音無音判定(VAD:Voice Activation Detector)があります。 この記事ではそれぞれの使い方を見ていきながら、transcribeの詳細に迫ります。 実行環境 ハードウェアなどの主な情報は以下の通りです。 GPU: Tesla

                                                                      OpenAIがリリースした音声認識モデル”Whisper”の使い方をまとめてみた | DevelopersIO
                                                                    • ‎ChatGPT

                                                                      Introducing ChatGPT for iOS: OpenAI’s latest advancements at your fingertips. This official app is free, syncs your history across devices, and brings you the newest model improvements from OpenAI. With ChatGPT in your pocket, you’ll find: · Advanced Voice Mode–tap the soundwave icon to have a real-time convo on the go, request a bedtime story for your family, or settle a dinner table debate. · Cr

                                                                        ‎ChatGPT
                                                                      • OpenAIからChatGPTとWhisperに関するAPIがリリースされたのでドキュメントを読み解いてみた | DevelopersIO

                                                                        こんちには。 データアナリティクス事業本部 インテグレーション部 機械学習チームの中村です。 先日、OpenAIからChatGPTとWhisperに関するAPIがリリースされました。 この記事では発表やAPIドキュメントからポイントとなりそうな部分を抽出して紹介したいと思います。 1次情報は以下を参照ください。 冒頭まとめ 冒頭で気付いたポイントを列挙しておきます。 ChatGPT API 入力としてテキスト(content)以外にroleをmessagesに記述(複数可能) 入力にroleを用いた複数のmessageを与えることで、ある程度内容のコントロールが可能 会話の履歴は自動では参照しないため、サービスとしてのChatGPTと同様の動きをさせるには、過去の会話を入力する必要があると推察 課金は入力出力合計のトークン単位($0.002/1ktoken) トークンは単純な単語単位とは異

                                                                          OpenAIからChatGPTとWhisperに関するAPIがリリースされたのでドキュメントを読み解いてみた | DevelopersIO
                                                                        • OpenAIの音声認識モデル Whisperの解説 / Fine Tuning 方法

                                                                          OpenAIから、かなりすごい音声認識モデル Whisperが発表されました。特出すべき点は、教師付き音声68万時間という、かなりヤバめのデータ量で訓練しており、英語では商用の音声認識システムや人間の書き起こしに匹敵する性能とのことです。 社内でも日本語、ブルガリア語、韓国語で試してみましたが、すごい精度でした。日本語の場合、漢字の間違いが多々ありましたが、発音は大体あってそうでした。ブルガリア語は、ロシア語で認識されていました。韓国語は、完璧でした。 しかし、Githubに公開されたコードを見てみると、訓練コードが含まれておらず、公開の予定もないそうです。そこで、本記事では、Whisperの解説に加えて、Fine Tuningの方法を解説します。 ※ Fine Tungingを何となくで作成しているので、正確なコードではないです。気付いた点がありましたら、コメントください。 全てのコード

                                                                            OpenAIの音声認識モデル Whisperの解説 / Fine Tuning 方法
                                                                          • OpenAI、「ChatGPT」のiOS向けの公式アプリを無償公開 ~Androidも近いうちに登場【5月26日追記】/デバイス間で履歴を同期、有料プラン「ChatGPT Plus」にも対応

                                                                              OpenAI、「ChatGPT」のiOS向けの公式アプリを無償公開 ~Androidも近いうちに登場【5月26日追記】/デバイス間で履歴を同期、有料プラン「ChatGPT Plus」にも対応
                                                                            • 話題のiPhone版ChatGPTアプリ、必要な設定とは

                                                                              AI/人工知能を利用したチャットサービス「OpenGPT」のアプリ版が、ついに日本のApp Storeで公開されました。米国でのリリースに遅れること約1週間、それほど待たされずに済んだことに安心したiPhoneユーザも多いのではないでしょうか。 使いかたはWEB版と基本的に同じ、アカウント作成後に質問事項をキーボードで入力すればOK。ユーザインタフェースは英語ですが、質問文は日本語でOK。もちろん、ひらがな/カタカナや漢字も使用できます。畏まった言い回しは必要なし、ふだん会話しているときの感覚でかまいません。 ChatGPTはWEBサービスで、エンジン部分はクラウド上に存在しますから、WEB版とアプリ版の機能は基本的に同じです。回答内容もほとんど違いはありませんが、アプリ版はAppライブラリから起動できたり、「ショートカット」で他のアプリと連携できたり、WEBブラウザより応用が利きます。2

                                                                                話題のiPhone版ChatGPTアプリ、必要な設定とは
                                                                              • ChatGPT API や Whisper API を早速使って開発された22個の面白いサービスまとめ|ChatGPT研究所

                                                                                250以上の記事が全て読み放題。AGIラボはGPTs Difyなど、最前線のAI活用情報に特化したマガジン・コミュニティです。実践的なプロンプトを含む記事で得られる知見で業務の効率化、自動化から創造的なプロジェクトまですぐに活用可能。生成AI革命の最前線をお届け。

                                                                                  ChatGPT API や Whisper API を早速使って開発された22個の面白いサービスまとめ|ChatGPT研究所
                                                                                • WhisperをFine Tuningして専門用語を認識可能にする

                                                                                  Whisperを少量のデータセットでFine Tuningして専門用語を認識可能にする方法を解説します。Tacotron2の合成音声でデータセットを作成することで、専門用語を認識可能なWhisperモデルを作成します。 WhisperについてWhisperはOpenAIの開発した音声認識モデルです。日本語を含む多言語に対応しており、高精度な音声認識が可能です。ただし、学習時に使用していない専門用語は認識できないという問題があります。 Whisperのアーキテクチャ(出典:https://huggingface.co/blog/fine-tune-whisper)Whisperにおける専門用語の扱いについてWhisperで専門用語を取り扱う場合、initial_promptに専門用語を埋め込むという方法があります。しかし、initial_promptにはコンテキストサイズの半分の224トーク

                                                                                    WhisperをFine Tuningして専門用語を認識可能にする

                                                                                  新着記事