midnightseminarのブックマーク / 2023年1月29日

midnightseminar id:midnightseminar

2023年1月29日のブックマーク (3件)

話題爆発中のAI「ChatGPT」の仕組みにせまる！ - Qiita
オミータです。ツイッターで人工知能のことや他媒体の記事などを紹介しています。 @omiita_atiimoもご覧ください！話題爆発中のAI「ChatGPT」の仕組みにせまる！注意：ChatGPTはまだ論文が出ていないため、細かい箇所は不明です。本記事では公式から出た記事およびInstructGPTの論文をもとにChatGPTの仕組みを探っていきます本記事の流れ: 忙しい方へ ChatGPTとは GPT-3 InstructGPT ChatGPT まとめと所感参考 0. 忙しい方へ ChatGPTは、InstructGPTをベースとしたモデルだよ InstructGPTは、「人間の好みに合った文を出力するように微調整したGPT-3」だよ InstructGPTの学習では、以下の3つが重要だよ GPT-3の教師ありファインチューニング Reward Modelの学習 RLHF（＝Re
midnightseminar 2023/01/29
GPT本体部分以外で何をしてるかのイメージをつかむのに良い解説

AI

ChatGPT

き機械学習
リンク
ChatGPT 人間のフィードバックから強化学習した対話AI
東京大学松尾研究室が主催する深層強化学習サマースクールの講義で今井が使用した資料の公開版です．強化学習の基礎的な概念や理論から最新の深層強化学習アルゴリズムまで解説しています．巻末には強化学習を勉強するにあたって有用な他資料への案内も載せました．主に以下のような強化学習の概念やアルゴリズムの紹介をしています．・マルコフ決定過程・ベルマン方程式・モデルフリー強化学習・モデルベース強化学習・TD学習・Q学習・SARSA ・適格度トレース・関数近似・方策勾配法・方策勾配定理・DPG ・DDPG ・TRPO ・PPO ・SAC ・Actor-Critic ・DQN（Deep Q-Network）・経験再生・Double DQN ・Prioritized Experience Replay ・Dueling Network ・Categorical DQN ・Nois
midnightseminar 2023/01/29
AI

ChatGPT

き機械学習
リンク
ChatGPTはどのように学習を行なっているのか
はじめに ChatGPTのインパクトが個人的にすごかったので、どういった学習が行われているのか、どういう課題があるのか等を理解しようと思い、OpenAIの記事をベースに情報をピックアップしてざっとまとめました。あくまで私なりの解釈で情報を整理してまとめたものになりますので、いくつか専門性の低い分野に対しては曖昧な記述になっていたり、理解を誤って記載しているかもしれません。もし間違い等がありましたらご指摘いただけると大変ありがたいです。 ChatGPT: Optimizing Language Models for Dialogue 参考 ChatGPTは、OpenAIによって開発された、対話に特化した言語モデルである。特徴としては、前の対話内容に続く質問への回答が可能。間違いを認めることもできる。正しくない前提に対する異議を唱えることもできる。不適切なリクエストには応じない。
midnightseminar 2023/01/29
AI

ChatGPT

き機械学習
リンク
- 2023年1月30日
- 2023年1月29日
- 2023年1月12日