A conversational AI system that listens, learns, and challenges
「AI自動音声でお伝えしています」 ある朝のNHK「おはよう日本」の画面。ニュース映像の右上に、こんな文字が表示されれていて驚いた。音声に違和感がなく、人間のアナウンサーの声だとばかり思っていたからだ。 意識してよく聞けば、イントネーションや“間”がやや不自然だが、流し聞きしているだけでは分からないレベルだ。 場面がスタジオに転換すると、人間のアナウンサーが2人写った。アナウンサーがそこにいるのに、AIがニュースを読んでいたのだ。 「おはよう日本」だけではない。NHKは、平日午後のニュース、ラジオ、Webのニュース番組の一部などでAIによるアナウンスを活用している。 AIアナウンスはどのように作られたのか? 人間のアナがいるのに、なぜわざわざ、AIにニュースを読んでもらうのか? NHKに聞いた。 放送時間ぴったりにニュースが読めるAI AIアナウンスの音声は、NHKが開発した技術だ。気象情
2年ほど前に、自分の声を結月ゆかりにする声質変換技術を作り、動画を投稿しました。この技術には利用者の音声データが大量に必要であるという欠点があり、ゆかりさんになりたいというみなさんの願いを叶えるのが難しい状態でした。そこで、この技術を利用者の音声データが不要になるように改良し、誰でも簡単に使えるようにしました。ここではその技術について解説します。 手法 音声を直接変換しようとすると、利用者の音声データが必要になってしまいます。そこで、音声を直接変換するのをやめて、①音声を構成する要素である音素と音高に分解し、②音素と音高を目標の声(ゆかりさん)に再合成することを考えました。 ①は、音素の抽出に音声認識とOpenJTalkとJuliusを、音高の抽出にWORLDを用いれば簡単に実現できます。そのため、②さえ実現できれば、利用者の声のデータを用意することなく、誰でもゆかりさんの声に変換すること
次々と発表されるオープンな日本語大規模モデル どうなっているの??という感じですよね。 我らがnpakaさんは、さっそくGoogle Colabで動かしていらっしゃいます。 ただ、Google Colabだと毎回モデルのダウンロードが大変なので、ローカルでDocker使って手軽に動かせるといいな、ということでやってみました。 以下GitHubのリポジトリにDockerfileとサンプルプログラムをおいています。チャットっぽいことをできるようにしています。 上記で、サイバーエージェントとリンナのLLMが両方動きます。 使用環境 前提となる環境です。使用しているPCのスペックは以下です。 項目 内容
本講座では計8回にわたり、ディープニューラルネットワークの原理と実装について 説明してきた。ニューラルネットワークの原理は基本的には 勾配降下法であり、その基盤となっているのが関数の微分可能性である。 ニューラルネットワークにはさまざまな形態が存在するが、 画像処理・画像認識の場合は畳み込みニューラルネットワークが非常に 有効であることがわかっている。また、ニューラルネットワークの 出力形式や損失関数を変えることにより、ニューラルネットワークが 物体検出や奥行き推定など、さまざまなタスクに利用可能であることを紹介した。 さて、本講座は「真面目なプログラマのための」ディープラーニング入門、 と銘打っている。真面目なプログラマとは何か? 諸説いろいろあるだろうが、 多くのプログラマは、ソフトウェア開発において 仕様の明確さや、 システムの効率・堅牢性、そして 保守のしやすさといったものを 追求
10月31日投開票の衆院選で、香川1区に出馬する自民前職の平井卓也前デジタル相(63)。その大口献金者で、IT関連企業「豆蔵K2TOPホールディングス」(東京都新宿区)の荻原紀男社長(63)が、平井氏が受けた民間企業からの接待などについて擁護する動画を投稿し、その後、削除していたことが、「週刊文春」の取材でわかった。 香川1区からは平井氏のほか、立憲民主党前職の小川淳也氏(50)、日本維新の会新人の町川順子氏(62)が出馬している。小川氏は公示前、日本維新の会に対し、町川氏の出馬取り下げを要請。こうした行動を受け、日本共産党は県委員会の支持に留めている。現在、平井氏と小川氏が激しく争う展開だ。 平井氏と荻原氏は20年来の付き合いで、豆蔵HDは2013年から2017年にかけて毎年60万円、計300万円を平井氏が代表を務める自民党香川県第1選挙区支部に献金してきた。 さらに、平井氏と豆蔵HDを
AI for Everyoneについては日本語版もあるのと、どちらのコースも日本語字幕付きで見られる(多分機械翻訳での英語字幕からの翻訳だが、翻訳の質は悪くない)ので、英語分からなくてある程度何とかなるんじゃないかと思います。 あと、余力のある人、最新のNLP研究を理解したい人はこちらの本を読むことをオススメします。アルゴリズムの詳細は必ずしも理解しなくても良いですが、どんなタスクがあるのかは理解しておいた方が良いかと思います。 NLPの知識がLLMを応用する上で実際にどう役に立つかですが、例えばで言うとNLP的には対話の中には「タスク指向型対話(task-oriented dialogue)」と「雑談(chit-chat dialogue)」があります。それぞれ対話の中で重要視されるものから評価の仕方まで全然違うのですが、NLPをやらずにLLMをやっている人と話しているとこれらをごっちゃ
","naka5":"<!-- BFF501 PC記事下(中⑤企画)パーツ=1541 -->","naka6":"<!-- BFF486 PC記事下(中⑥デジ編)パーツ=8826 --><div id=\"kiji_bottom-banner\">\n<p style=\"padding:10px;\"><a href=\"https://www.asahi.com/senkyo/shuinsen/2021/?iref=kiji_bottom_banner\" style=\"display:block;\"><img src=\"https://www.asahicom.jp/senkyo/shuinsen/2021/images/shuinsen2021_660x100.jpg\" alt=\"2021衆院選\" style=\"width:100%;height:auto;\"/><
はじめに大規模言語モデルであるChatGPTに文章を渡す際、適切な区切り線の使用は、情報の正確な伝達や解釈に大いに役立ちます。 この記事では、区切り線に適切なものを検証します。 区切り線とは?使い方区切り線は文章を区切る時に使用する文字列のことです。 例えば下記のようなものです。 また、使い方をまとめた記事もあるので参考にしてください。 def test() a = "a" b = "b" c = a + b print(c) ================================ ←これが区切り線 上記のコードについて教えてください 結論先に結論を言うと、4個~16個連続した「-」か「=」 もしくは8の倍数の「-」か「=」が区切り線としてはベストでした。 ---- ---------------- -------------------------------- ==== ==
「Graph Game」はニューラルネットワークの構造をグラフで作成するゲームです。AI技術の発展と共に頻繁に目にするようになった「ニューラルネットワーク」をどの程度理解しているか試せるゲームとのことなので、実際にプレイしてみました。 Graph Game - By Sabrina Ramonov https://graphgame.sabrina.dev/ サイトにアクセスするとこんな感じ。「RNN」「LSTM Cell」「GRU Cell」「ResNet Block」「Deep RNN」という5つのステージが用意されています。まずは「RNN」をクリックしてみます。 「x_t」「h_t」「y_t」という3つの箱が出現しました。それぞれの箱はデータを表しており、上が出力で下が入力となっています。「x_t」の上の○をクリックし、ドラッグして「h_t」の下に接続します。 緑の線で接続が表示され
人工知能、AI、機械学習、ニューラルネットワーク、ディープラーニング…これらの言葉が世間ではよく聞かれるようになっています。よく聞く言葉だけれども、よくわからない、自分の身近なものではなさそうと思っている方も多いのではないでしょうか。本講座では、AI に関わる基本知識だけでなく、事例や具体的にそれがどのような仕組みで動いているかも紹介します。AI の基礎を理解し、AI をどう活用できるかのヒントがつかめるように、本講座で学びます。
グラフ理論と隣接行列 グラフ理論は点と線で物事を表す理論です。たとえば駅の路線図では下記のように駅を点、路線を線で表します。 東京メトロホームページより 上記の路線図では「駅と駅が隣接するかどうか」を中心に取り扱う一方で、それぞれの位置や方角などは厳密に再現はされません。このように、「隣接するかどうか」のみに着目して物事を表す際の理論を「グラフ理論」といいます。 グラフ理論では点をノード(node)、線をエッジ(edge)、全体をグラフ(graph)と定義します。数式で表すと$G = (V,E)$のように表しますが、$V$が頂点のVertice、$E$がEdge、$G$がGraphであるとそれぞれ解釈すると良いです。 グラフの表記法に関しては主に$2$通りあり、「①図を用いる」と「②隣接行列を用いる」をそれぞれ抑えておくと良いです。例があるとわかりやすいので下記のWikipediaの例を元
Developers can now integrate ChatGPT and Whisper models into their apps and products through our API. ChatGPT and Whisper models are now available on our API, giving developers access to cutting-edge language (not just chat!) and speech-to-text capabilities. Through a series of system-wide optimizations, we’ve achieved 90% cost reduction for ChatGPT since December; we’re now passing through those
東京・千代田区の医療用のAI(人工知能)を開発するベンチャー企業の元取締役が、会社の口座からおよそ29億円を着服した疑いで警視庁に逮捕された。 元取締役は、33億円余りを着服したとみられている。 「エルピクセル」元取締役の志村宏明容疑者(45)は、2018年から2019年にかけて、会社の口座からおよそ29億円を着服した疑いが持たれている。 エルピクセルは、AIを活用した医療診断のソフトウエアを開発するなど、注目のベンチャー企業。 事件当時、志村容疑者は、経理担当者で会社の資金を1人で管理していて、着服した金の大半をFX取引に充てていたという。 警視庁は、志村容疑者があわせて33億円余りを着服したとみて余罪を調べている。
とあるディープラーニング技術者が、『ポケットモンスター』風のゲーム画面を生成するデモを構築。プレイヤーの操作まで検知して“それっぽい”映像を再現することに成功し、実際にブラウザ上で操作できるよう公開されている。その独特の映像はユーザーたちの関心も集めているようだ。 ディープラーニング技術者であるOllin Boer Bohan氏が、『ポケットモンスター』風のゲーム画面を生成するデモを構築。プレイヤーの操作まで検知して“それっぽい”映像を再現することに成功し、実際にブラウザ上で操作できるよう公開されている。 Ollin Boer Bohan氏によるデモより 『ポケットモンスター』(以下、ポケモン)は、任天堂の人気RPGシリーズだ。同作はポケモンを捕獲・育成してバトルに挑むシステムが特徴。また、初代『ポケモン 赤・緑』から、メインシリーズ作品は長らく見下ろし視点で親しまれていた。描画としては2
2011年2月16日に Kaggle アカウントを取得して10年が経過した。長い間 Kaggle Ranking 世界 1 位を目指してきたが、この目標やモチベーションが大きく変化してきたと感じたため、一区切りつけるためにもこの10年+αを振り返る。今の目標は対象を問わずアルゴリズムで資産を最大化すること。エンジニアリングを駆使してデータからアルファを探し、システム化して運用する。実利的で定量評価できる最高に楽しいタスクです(記事では触れません)。 競技プログラミングからKaggleを始めるまで Kaggle ができる前は ICPC や ICFP Programming Contest といった競技プログラミング系のコンテストに参加していた。ICPC ではアジア地区会津大会 2007、アジア地区東京大会 2008 に出場したが大敗して悔しくて仕方がなかった。コードゴルフも嗜む程度に遊んでい
「Pokemon GO」(ポケモンGO)などのARゲームで知られる米Nianticは9月14日(現地時間)、iOS向け3Dスキャンアプリ「Scaniverse」がLiDARを持たないiPhoneにも対応すると発表した。iPhone XS以降の全てのiPhoneと過去4年間に発売されたほとんどのiPadで利用できるという。 LiDARに代わり、ニューラルネットワークを活用してカメラ画像から奥行きを推測する「ManyDepth」技術を搭載した。建物など大きな空間に適した「Areaモード」と人物やオブジェクトの細部を捉える「Detailモード」があり、DetailモードならScaniverseフォトグラメトリ処理を活用してLiDAR搭載デバイスと同等の高品位なスキャン結果が得られるとしている。 「LiDARを搭載していない端末でもScaniverseを利用したいという要望が多かった。(ManyD
近年のAIは、人間が手を加えなくてもコンピューターが自動的に大量のデータからそのデータの特徴を発見する「ディープラーニング(深層学習)」という学習手法で動いています。このディープラーニングは、コンピューターゲームに代表されるリアルタイム画像処理に特化した演算装置・プロセッサであるGPUで処理されるというのが通例ですが、ライス大学のコンピューター科学者がIntelと共同で「GPUに比べて最大15倍も高速にディープラーニングできるCPU向けソフトウェア」を開発しました。 ACCELERATING SLIDE DEEP LEARNING ON MODERN CPUS:VECTORIZATION, QUANTIZATIONS, MEMORY OPTIMIZATIONS, AND MORE (PDFファイル)https://proceedings.mlsys.org/paper/2021/file/
画像生成AI「Stable Diffusion」の開発元であるStability AIが、3DCGソフトウェア「Blender」上で動作するAI搭載拡張機能「Stability For Blender」を公開しました。Stability For Blenderでは「Blenderで作成したラフ画像を元に好みの画像を生成」「テクスチャのラフ画像からリアルなテクスチャ生成」「アニメーションを生成」といったAI機能を無料で使えます。 Stability for Blender https://platform.stability.ai/docs/integrations/blender Stability AI Announces Stability For Blender; Text To Image Creation in 3D — Stability AI https://ja.stabi
こんにちは、R&Dチームの河野(@ps3kono)です。深層学習モデルの開発を担当しております。 今回は、画像分類、画像検査、顔認識や異常検知など様々な分野に利用されている深層距離学習(Deep Metric Learning)について紹介したいと思います。 Deep Metric Learningとは 定番のクラス分類と距離学習によるクラス分類の違い 距離学習の進化 1. 対照的(contrastive)アプローチ サンプル選択(sample selection) 代表的な学習手法 Contrastive loss Triplet loss さらなる改善と進化 対照的アプローチの問題点 2. Softmaxをベースにしたアプローチ 代表的な学習手法 Center loss SphereFace CosFace ArcFace さらなる改善と進化(2019年以降) 推論 深層距離学習の利点
この記事はOpenCV Advent Calendar 2020の12日目の記事です。 他の記事は目次にまとめられています。 対象者 以下みたいな作業依頼を受けることのある人。 つまり、デザインに予算はつかないけど、ある程度の工夫を求められるやつ。。。 上長「部内とかで見せるちょっとしたデモをパパッと作って欲しい」 高橋「デザインは○○さんか、△△社さんにお願いします?」 ※○○さん:デザイン会社から派遣で来ているデザイナーさん ※△△社:デザイン会社 上長「今回、デザインに出すお金は無い」 高橋「What?」 高橋「それじゃ、見た目は気にしな」 上長「偉い人も見る可能性あるからソレっぽくしといてもらわないと困る」 高橋「短い間ですが、お世話になりました」 Flaskとか立てて、UI作る人とデザイナーと役割分担出来るようなプロジェクトは対象外 はじめに OpenCVとかPillowで出来る
はじめに 「メルアイコン」と呼ばれる、Melvilleさんの描くアイコンはその独特な作風から大勢から人気を集めています。 上はMelvilleさんのアイコンです。 この方へアイコンの作成を依頼し、それをtwitterアイコンとしている人がとても多いことで知られています。 代表的なメルアイコンの例 実装したコードはこちら 本記事ではこれに用いた手法を紹介していきます。 GANとは 画像の変換にあたってはUGATITという手法を使っています。これは**GAN(Generative adversarial networks、敵対的生成ネットワーク)**という手法をベースにしたもので、GANは以下のような構成をとっています。 図の引用元 この手法では、画像を生成するニューラルネットワーク(Generator)と、画像を識別するニューラルネットワーク(Discriminator)の2つを組み合わせま
先日、革新的な画像の異常検知(SAA)が出てきました。 何やら革命的な臭いがする... SAMを使った異常検知手法https://t.co/wmwFcbULdq コードはこちらhttps://t.co/3npK3FhnEz pic.twitter.com/JDs30bEJyQ — shinmura0 (@shinmura0) May 22, 2023 本稿では、操作手順 & 触ってみた感想をご報告します。 特長 本題に入る前に、どこら辺が革新的なのかざっくり説明します。 ※ SAAの詳細は論文をご参照ください。 学習データは不要 通常、学習(正常)データを数百枚用意しますが、この手法では正常データを必要としません。 ドメイン知識を導入できる 予め、異常の傾向をプロンプトに入れることにより、異常の特徴をモデルに教えることができます。 二点目が特に大きく、今までの異常検知では、積極的に異常の傾
TL;DR ESD の手法で LoRA を学習してみたらそれっぽい感じのことができたよ VRAM 8GB で余裕で学習できるようになったよ (元は20GB要求) LoRA として保存できるようになったので重みの取り回しが良くなったよ マイナス適用によって、概念を削除するだけでなく強調することもできたよ 一度でも画像生成 AI に触ったことがあると、より楽しんで読めると思います。 論文とかどうでもいいから学習方法知りたい! という方は 実際に学習してみる へどうぞ! 今回作成したもの コード: モデルなど: 前提 Stable Diffusion とは、Stability AI らが公開したオープンソースの画像生成 AI であり、テキストによる指示で様々な画像を生成することができる。 本来の Stable Diffusion は、実写画像や海外風のイラストを出力することが得意だが、アジア系の
平井卓也氏の親族が、平井氏が代表を務める政党支部に寄付した際の寄付金控除に関する書類(画像の一部を加工しています) 自民党の平井卓也広報本部長の親族3人が2020~21年、計4000万円を平井氏が代表を務める党支部に寄付し、所得税の一部を控除される税優遇を受けた疑いがあることが判明した。平井氏を巡っては、本人が1000万円を党支部に寄付し、税優遇を受けたことを既に認めている。専門家は「国民の政治参加を推し進める制度の趣旨にそぐわない」として、政治家本人だけでなく親族の寄付も税優遇の対象外にすべきだと指摘している。 租税特別措置法では、個人が政党などに寄付した場合、寄付額の約3割が税額控除されるか、課税対象の所得総額から寄付分が差し引かれる。
複数の視点の画像から、新たな視点の画像を合成して作り出す「Novel View Synthesis」というタスクがある。VRやスポーツの自由視点映像などには不可欠な技術だ。この領域で驚異的な性能を発揮したのが「NeRF」(ナーフ)。果たしてどんなアルゴリズムで、美しい合成画像を作り出せるのか。世界中の研究者や技術者に衝撃を与えたその技術を、論文からひもといていく。 まずは下の3枚の画像を見ていただきたい(図1)。左の2枚の写真を基に、一番右の画像のような新たな視点の画像を生成する技術を、今回は紹介していく。コンピュータービジョン分野やコンピューターグラフィックス分野の主要な研究課題の1つであり、応用先にはVR(仮想現実)やスポーツの自由視点映像など、様々な分野が挙げられる。 これは「Novel View Synthesis」という、複数の視点の画像を手がかりに新たな視点の画像を合成する技術
RPGなどのゲームをプレイしている最中に、村人のようなノンプレイヤーキャラクターが同じことしか言わなかったり、同じ行動ばかり続けていることにがっかりしたことがあるゲーマーは多いはず。ジョージア工科大学と、Facebook AI Research(FAIR)が協力して行った最近の研究で、「目標を持って会話したり行動したりするファンタジーゲームのAI」が発表されました。 How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds (PDFファイル)https://arxiv.org/pdf/2010.00685.pdf Teaching AI agents to communicate and act in fantasy worlds https://techxplor
AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃 2020.10.08 Updated by Ryo Shimizu on October 8, 2020, 11:13 am JST 「最近のAIがすごい」と言われてからもう6年ほどが経過した。 なかでも人目を引いたのは、なんといっても2016年のAlphaGoだろう。最難関ゲームの一つと言われる囲碁において、人間のトップ棋士に対しAIが圧勝したのである。 これは「深層強化学習」というAIだが、実際のところ、「深層強化学習」を実用的に利用した例はまだ少ない。 多くのAIベンチャーやAIベンダーが扱う「AI」技術は、古典的な統計解析か、時折ニューラルネットを使っているくらいで、「深層学習」ではあっても「深層強化学習」とは完全に別物である。ラジオもコンピュータも同じ電気で動くものだが別物であるのと同じだ。 深層強化学
Interpretable Machine Learning A Guide for Making Black Box Models Explainable. Christoph Molnar 2021-05-31 要約 機械学習は、製品や処理、研究を改善するための大きな可能性を秘めています。 しかし、コンピュータは通常、予測の説明をしません。これが機械学習を採用する障壁となっています。 本書は、機械学習モデルや、その判断を解釈可能なものにすることについて書かれています。 解釈可能性とは何かを説明した後、決定木、決定規則、線形回帰などの単純で解釈可能なモデルについて学びます。 その後の章では、特徴量の重要度 (feature importance)やALE(accumulated local effects)や、個々の予測を説明するLIMEやシャープレイ値のようなモデルに非依存な手法(mo
ジャーナリストの伊藤詩織氏は2020年8月20日、ツイッターで誹謗中傷を受けたとして、元東大特任准教授で株式会社Daisy代表取締役の大澤昇平氏に110万円の損害賠償を求めて東京地裁に提訴した。各メディアが報じた。 提訴を受け、大澤氏は「先方の主張は理不尽すぎるので全力で勝負します」と争う構えを示している。 杉田水脈氏も法廷闘争へ 各報道によれば、伊藤氏が20年6月、誹謗中傷する内容のイラストをツイートされたなどとして、漫画家のはすみとしこ氏ら3人を提訴した一件をめぐり、大澤氏が「伊藤詩織の何がダメダメかって、刑事裁判でレイプが認められなかったにもかかわらず、その後の民事裁判の結果をレイプを関連付けている点」などとツイート。「伊藤詩織って偽名じゃねーか」と事実無根の内容も書き込んでいた。 大澤氏は提訴を受け、8月20日にツイッターで「突然俺を訴えると言い出した。正直全く意味が分からない」と
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く