本書はただ読むだけではなく、実際に手を動かして学びたい人のための一冊です。解説には図解を多用しており、これからPythonを学ぶ方や初学者の方でも無理なく勉強を進められます。 また、内容はPythonチュートリアル(公式のドキュメント)に準拠しているため、理解必須の部分をこの1冊ですべて網羅することができます。 ・プログラミングを1から学びたい ・エンジニアとして活躍したい ・リスキリングして年収をあげたい そんな方は是非ご活用ください。

はじめに最近、LLMへのRAGを用いた文書データの連携等を目的に海外を中心にOCRや文書画像解析技術に関連する新しいサービスが活発にリリースされています。 しかし、その多くは日本語をメインターゲットに開発されているわけではありません。日本語文書は、英数字に加えて、ひらがな、漢字、記号など数千種類の文字を識別する必要があったり、縦書きなど日本語ドキュメント特有のレイアウトに対処する必要があったりと日本語特有の難しさがあります。 ですが、今後、海外の開発者がこれらの課題に対処するため、日本のドキュメント画像解析に特化したものをリリースする可能性は低く、やはり自国の言語向けのサービスは自国のエンジニアが開発すべきだと筆者は考えています。 もちろん、Azure Document Intelligenceをはじめとした、クラウドサービスのドキュメント解析サービスはありますが、クラウドを利用できないユ
この本では、初心者・入門者の方に向けて、RAGの知識や使い方を体系的にまとめました。少し難易度の高い内容になりますが、本書の中で事前に学んでおくべき項目を示しているため、ご安心ください。 【概要】 ・内容:RAGの概要【入門者向けの基礎知識】、RAGの処理フロー【In-Context Learning / Embedding / Vector Search】、RAGのビジネス活用ロードマップ【大企業向け】、RAGの実装アプローチ、RAGの大分類【Document RAG】、RAGの大分類【SQL RAG】、RAGの大分類【Graph RAG】、RAGの精度評価アプローチ、RAGの精度評価方法【LangChain Evaluation】、RAGの精度評価方法【Ragas】、RAGの精度改善手法【データ品質 / プロンプト品質 / ベクトル検索】、RAGの精度改善のためのLLMOps概論、LL
これはなに? ちょっとした分析の用事で久しぶりにGoogle Colaboratory (以下 Colab) を触ったら結構良くなってました。Cursorでコード書くのも快適だけど、面倒なデータ分析やるならやっぱColabの方が便利だなぁと再認識しました。 そこで、最近Colabに追加されて便利になったと思う機能を簡単にまとめてみました。(見てわかる通りタイトルはもちろん話題のあの本のオマージュです😇) 最近のColab便利機能を使おう 粒度まちまちですがざーっと書いていきます。「最近」の定義は曖昧なのでご容赦ください。 Github Copilot的なコード補完を使おう Github Copilotみたいなコード補完機能がついにColabに搭載されました。↓のように補完してくれます。 VS CodeでもCursorでも一緒やん、って思われるかもしれませんが、Colabのような多機能No
Bedrock, OpenSearch Serverless, App Runner, Slack Bolt, LangChainを利用してRAGを実行できるSlackチャットボットを作成しました。 こんにちは。たにもんです。 生成AIを活用したアプリケーションの代表例としてRAG (Retrieval-Augmented Generation; 検索拡張生成) があります。 LLMが生成する文章にはもっともらしい嘘(ハルシネーション)が含まれることがありますが、RAGを用いることでハルシネーションを抑える効果が期待できます。 ハルシネーションはLLMが学習していない知識に関する文章を生成する際に発生する可能性が高まりますが、RAGではユーザーの入力に関連する情報を外部から検索してLLMの知識を補ってあげることで精度向上を目指します。 今回はRAGを実行できるSlackチャットボットを作っ
作業メモ。モダン Python 速習。 AI 周りのツールを動かしていたら TypeScript だけでやるには無理が出てきたので、久しぶりに Python の環境構築をする。 具体的には TestGen LLM を動かしたい。 Python はたまに触るけど、基本 2.x 時代の知識しかない。 基本的にこの記事を読みながら、細かいアレンジをしている。 追記 rye が ruff と pytest を同梱してるので rye fmt, rye check, rye test で良かった uvicorn を叩くより、 fastapi-cli を使って起動したほうが良さそうので変更 基本方針: Rye に全部任せる 良く出来てると噂に聞いたので、 rye に任せる。 自分が Python が苦手な点は pip を下手に使うと環境が汚れていく点で、基本的に rye で閉じて管理させる。システムの
こんにちは。私がAidemyでデータ分析講座コースを受講いたしました。今回は学んだスキルを活用して、上場企業を株価予測をしてみました。 ※私の環境: Python3 Chrome Google Colaboratory Windows 10 目次 1.目的 2. データセット 3. 機械学習モデル 4. 予測モデルの構築と検証 5. 結果 6. 反省 1.目的 上場会社の株価データセットを用いて、株価予測するLSTMの機械学習モデルを構築すること。 2.データセット Yahoo Financeである上場企業Lasertec(6920.T)の時列データ 3.機械学習モデル LSTM(Long Short-Term Memory: ニューラルネットワークの一種で、長期的な依存関係を学習することができる特徴ある。 4.予測モデルの構築と検証 4-1. ライブラリのインポート import ker
はじめに Claude3Opusはものすごい能力で、手動で作成するのは面倒なプロジェクトのドキュメンテーションなどを一撃で生成してくれます。 しかし、プロジェクト全体の内容をWebのCladeには投入できないし、ファイルを1個ずつコピペするのもかなり時間を要します。 頼みのCursorもClaudeは対応していないので@Codebase機能が利用できません・・・ そこで、Pythonスクリプトを使ってプロジェクトのフォルダ構造とファイルの内容を自動的にまとめるスクリプトを作成したので紹介します! このスクリプトを使うことで、プロジェクトを200kトークンまでの単一のテキストにまとめ、Claude3Opusに簡単に投入できるようになります。 スクリプトの機能と使い方 このPythonスクリプトは以下のような機能を持っています: プロジェクトのフォルダ構造をMarkdown形式で生成。※本当は
それぞれのアルゴリズムが最適な状況は異なります。以下に、いくつかの主要なアルゴリズムとそれらが最適となる状況について説明します。 近傍法 (k-Nearest Neighbors):評価値の分布が一様でなく、ユーザーやアイテム間に明確な関連性が存在する場合に有効です。 SVD (Singular Value Decomposition):データセットが大きく、スパース性(欠損値が多い)が高い場合に適しています。 NMF (Non-negative Matrix Factorization):SVDと同様。元の評価行列の全ての要素が非負(0以上)。 Slope One:スピーディーに妥当な精度の予測を行いたい場合に適しています。 Co-clustering:データセットが明確なクラスタ構造を持っているときに有効です。 推薦システム(レコメンドエンジン)を作る 流れ 取り急ぎ、以下の手順で作っ
これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。 参考記事 導入は非常に簡単です。 pip install 'unstructured[pdf]' 実装も簡単です。 解析コード: from unstructured.partition.pdf import partition_pdf pdf_elements = partition_pdf("pdf/7_71_5.pdf") 表示コード: for structure in pdf_elements: print(structure) 結果: 残念ながら、2段組のカラムを正確に検出することはできませんでした。 Grobidを使うGrobidは、peS2oというオープンアクセス論文のコ
Google Colaboratoryが便利 最近、Google Colaboratoryがちょっと気になっていたのですが、タダケン (id:tadaken3)さんの以下記事に分かりやすく使い方が書いてあったのをきっかけに試して見ました。 結論から言うと、これ良いですね。Google Colaboratoryには以下の特徴(利点)があります。 ローカルPCに必要なのはブラウザ(Google Chrome)のみ クラウド上にPython環境がありPython2/3 両方使える 機械学習に必要なライブラリは、ある程度プリインストールされている(numpy, matplotlib, TensorFlow等) 必要なライブラリは !pip installでインストールできる 日本語フォントも(ちょっと工夫すれば)使える 無料で使える。なんとGPUも12時間分を無料で使える! これ死角無さすぎでは…
はじめにこんにちは、SAIG/MLOpsチームでアルバイトをしている板野です。 AzureのPrompt Flowをローカル環境で動かし、作成したフローをコードで管理する方法をご紹介します。 Prompt Flowとは、Azure Machine Learning上の機能で、Azure OpenAIで提供されているLLMを利用したアプリケーション開発を円滑にするためのツールです。 実際にLLMアプリケーションを開発する場合、「プロンプトを入力して終わり」ではなく、ベクトル検索など複数の要素を組み合わせることもあります。このため、Prompt Flowでは処理のフローをDAG(有向非巡回グラフ)で可視化することで、開発効率が大きく向上します。 Prompt FlowはPythonライブラリ(2023/09/27時点ではMITライセンス)として提供されており、Azureのコンソール画面だけでな
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? こんにちは。わいけいです。 今回の記事では、生成AI界隈ではかなり浸透している RAG について改めて解説していきます。 「低予算で言語モデルを使ったアプリを開発したい」というときに真っ先に選択肢に上がるRAGですが、私自身もRAGを使ったアプリケーションの実装を業務の中で何度も行ってきました。 今回はその知見をシェア出来れば幸いです。 RAG(Retrieval-Augmented Generation)とは まず、 そもそもRAGとは何ぞや? というところから見ていきましょう。 RAG(Retrieval-Augmented Gen
ABEJA でプロダクト開発を行っている平原です。 先日、バックエンドで使っているGo言語のお勉強しようと「go言語 100Tips ありがちなミスを把握し、実装を最適化する」を読んでいました。その中でinterfaceは(パッケージを公開する側ではなく)受け側で定義するべきという記述を見つけてPythonでも同じことできないかと調べていると(PythonではProtocolを使うとうまくいきそうです。)、どうやら型ヒント機能がかなりアップデートされていることに気づき慌てて再入門しました。(3.7, 3.8あたりで止まってました。。) この記事では、公式ドキュメントを見ながら適当にコードを書き散らし、どの機能はどこまで使えるのか試してみたことをまとめてみました。 docs.python.org 環境 Python: 3.12.1 エディタ: Visual Studio Code Pylan
ここを更新しました(公開日:2024年2月8日、更新日:2024年12月2日) 2024年12月2日のColab環境で、記事内の全てのコードが正常に動作することを検証しました。それに合わせてバージョンに関する記述をアップデートしました。 機械学習は、今や私たちの生活や仕事に不可欠なテクノロジーです。朝起きてスマートフォンでチェックするニュース、それはあなたの関心に基づいて機械学習によって選ばれています。オフィスに到着すると確認する今週の売上予測レポート、これもまた過去のデータを基に機械学習が予測したものです。 これだけ便利な機械学習を、自分でも使いこなせたら素晴らしいですよね。それを可能にするのが、この連載の目的です(図1)。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く