arXivには1日あたり全体では800件ほどの論文が投稿されます。Quantum Physicsカテゴリだけでも50~100件ほどです。これだけの量を自力で追うのは現実的ではないでしょう。そこで、投稿論文をLLMで要約してRAGのナレッジベースに蓄積し、全体の動向を把握しやすくするシステムを実験的に構築しました。正直前の記事と思いっきり内容が被っているのですが、1つ1つの論文を詳しく読むというよりも、全体の動向を把握することに重点を置いたシステムであるという点では違いがあります。 この記事のコードはGitHubで公開しています。 システム全体図 このシステムはDocker Compose上で動作させることを想定しています。主要なコンテナは3つ(RAGFlow, Ollama, Python worker)です。この他に補助的なコンテナ(ElasticSearchやMySQL)もいくつか動い

