この記事は「ファインディエンジニア #1 Advent Calendar 2025」の24日目の記事です。 沢山のアドベントカレンダー記事が執筆されていますので、年末のお供に是非読んでみてください。 adventar.org はじめに ソフトウェアエンジニアの土屋(@shunsock)です。私の所属するデータソリューションチームでは、ファインディ全体のデータ活用を推進するためのデータ基盤を構築しています。 今回、我々はデータ基盤のRDSとBigQueryのテーブル同期システム (EL Pipeline) のリプレースを行い、DuckDBを本番導入しました。本稿では、活用に至った経緯と実際に組みこむにあたる課題、および成果を紹介します。 はじめに ファインディにおけるテーブル同期システムの立ち位置 リプレイスの背景 補足 技術選定 Datastream DuckDB Datastream,
この記事は Ubie Advent Calendar 2025 17日目の記事です。 最近Googleが File Search API を公開しました。使い方はとても簡単で、ファイルをアップロードするだけでGeminiから参照してRAGを実現できるようになります。これまでRAGは避けては通れないけど考えることが多くて面倒だったところが、一気に解消しそうです。ただ、自分としてはRAGにあまり手を出してこなかったのでRAGの構築がどれくらい泥臭いのかを知らないなと思いました。そこで、これを機にローカルで動くRAG環境を基礎的な部分から構築してみたので、そこで得た気づきなどを共有しようと思います。 作ってみたもの 実装した主な機能は以下の通りです。RAGというと何らかの vector store や全文検索エンジンを利用するのが正攻法だと思いますが、今回は分析への利用のしやすさやその拡張性、お
I recently tried to light the tinder for what I hoped would be a revolt — the Single Node Rebellion — but, of course, it sputtered out immediately. Truth be told, it was one of the most popular articles I’ve written about in some time, purely based on the stats. The fact that I even sold t-shirts, tells me I have born a few acolytes into this troubled Lake House world. Without rehashing the entire
『DuckDB実践入門』が出版されます 2025-08-19 私が翻訳した『DuckDB in Action』の訳書『DuckDB実践入門 PCで使える高速で快適なデータ分析用DB―基本からエコシステム活用まで』が出版される運びとなりました。 レビューに参加してくださった皆様 @snoozer05 @kei_s @ktou @hmsk @tmaeda 、編集を担当いただきました石橋克隆様、お力添えくださいましたすべての皆様に感謝します。 DuckDB実践入門 PCで使える高速で快適なデータ分析用DB―基本からエコシステム活用まで (impress top gear) | Mark Needham, Michael Hunger, Michael Simons |本 | 通販 | Amazon DuckDB実践入門 PCで使える高速で快適なデータ分析用DB―基本からエコシステム活用まで -
2025 年 9 月 24 日 (水) に行われる Akamai Cloud Day 2025 Japan というイベントに登壇します。話す内容は Akamai Cloud へ以降してコストを削減した話を中心に現時点での Akamai Cloud の不満などを忖度せずに話をするので興味がある方は参加してみてください。忖度せずに話します。 なんとなくの目次Akamai Cloud への移行移行して 1 年経過可視化外形監視で Fluent bit と VictoriaMetrics と Tailscale と Grafana を使っている話商用提供している自社 Erlang/OTP で書かれた分散システムの運用Raft と Plumtree の話Placement Groups とか VLAN とか VPC とかの話オブジェクトストレージと DuckDB / DuckDB-Wasm でコスト
リアルタイム配信の世界は、リアルタイムかつ 1 秒単位で沢山の種類、そして大量の統計情報が欲しい。ということで、ブラウザで軽量で大量のグラフを表示したいし、リアルタイムに描画したい。さらにすぐに何万という数値になる。 という課題を色々実現したかったので、Claude Code の力を借りて uPlot を利用して、リアルタイムな統計情報をグラフにする仕組みを作った。 uPlot は Grafana に採用されている超軽量なグラフ作成ツールで、かなり細かいカスタマイズができ、React にもサクサクっと組み込める。 上のグラフは chrome://webrtc-internals で利用されているグラフを意識した。 chrome://webrtc-internals で取得できるグラフ、1 映像でこれ。React コンポーネント化したので、好き放題にグラフが作れるようになった。グラフを作の本
ドーモ、読者のミナ=サン、LayerX Fintech事業部(三井物産デジタル・アセットマネジメント(MDM)に出向)で、@ken5scalです。 久しぶりのAmazon SecurityLakeとログ系のブログです。セキュリティにおいても、紀元前よりサーバー、ネットワーク機器、アプリケーションなどから出力されるログを一元的に収集し、監視や分析を行うことで、インシデントの早期発見や対応が可能になることはよく知られています。その代表的なソリューションが、そう、皆様よくご存じのSIEMです。 当社では、従来のSIEM(DataDog SIEM)に加え、データエンジニアリング的なアプローチにチャレンジ、より強力なデータ基盤を用いた検知エンジンを目指しデータレイクハウスであるAWS SecurityLakeを採用しました。 こういった従来のSIEMにおける課題や経緯については、下記のブログをご参照
3行まとめ はじめに Claude Codeのログ保存機能とその特徴 ログ分析の活用例 音声入力の課題と英語プロンプトの活用 DuckDBを用いた分析アプローチ スキーマ情報の重要性とログ分析の活用 ログの長期保存設定 まとめ 3行まとめ Claude Codeの会話ログはJSONL形式で保存されており、DuckDBを使って日次の利用状況や音声入力の課題などを分析できる 英語プロンプトの学習効率化やエラーパターンの特定など、自分の仕事の仕方を改善するための実践的な活用方法がある JSONLファイルのスキーマ情報を整理することで、Claude Codeがクエリを書く際の精度が向上する はじめに Claude Codeは非常に強力なツールで、これ自体は別のブログで書く予定ですが、もはやこれなしでコードを書けないほど便利に使っています。今回は、そのClaude Codeとの会話ログを分析すること
The Apache® Parquet™ Format Apache Parquet is a popular, free, open-source, column-oriented data storage format. Whereas database systems typically load data from formats such as CSV and JSON into database tables before analyzing them, Parquet is designed to be efficiently queried directly. Parquet considers that users often only want to read some of the data, not all of it. To accommodate this, P
TL;DR: The DuckDB team and MotherDuck are excited to announce the release of a local UI for DuckDB shipped as part of the ui extension. The DuckDB project was built to make it simple to leverage modern database technology. DuckDB can be used from many popular languages and runs on a wide variety of platforms. The included Command Line Interface (CLI) provides a convenient way to interactively run
DuckDB の FTS (Full Text Search) 拡張と Lindera を利用する事で、日本語全文検索を実現できますが、DuckDB-Wasm と Lindera-Wasm を利用する事でブラウザで日本語全文検索を実現できます。Wasm なので完全オフラインで、利用できます。 さらに、クライアントのリソースということもあり一文字ずつ入力された値に対して Lindera-Wasm で形態素解析して、SQL を実行することでインスタント検索も実現できます。 DuckDB-Wasm (FTS 拡張) + Lindera-Wasm技術的には特に難しいことはしておらず、DuckDB-Wasm の FTS 拡張に Lindera-Wasm で形態素解析した結果を引数として渡して実行しているだけです。 デモサイトを用意しておきました、もし良ければ試してみてください。 DuckDB-Wa
Today, we’re releasing Instant SQL, a new way to write SQL that updates your result set as you type to expedite query building and debugging – all with zero-latency, no run button required. Instant SQL is now available in MotherDuck and the DuckDB Local UI. We built Instant SQL for a simple reason: writing SQL is still too tedious and slow. Not because of the language itself, but because the way w
DuckDB を利用してベクトル検索と日本語全文検索の両方を同時に利用できます。さらにこれらの結果をマージして Reranking を行うことでハイブリッド検索をサクサクっと実現する事ができます。 Rerankerどうやらベクトル検索した結果と日本語全文検索した結果をマージして、クエリーとマージ結果を再度ランキング付けする仕組みのようです。 ここでは参考にした記事を共有する程度にしておきます。 日本語最高性能のRerankerをリリース / そもそも Reranker とは? - A Day in the Lifeリランキング モデルによる RAG の日本語検索精度の向上 - NVIDIA 技術ブログ今回は Reranker に hotchpotch/japanese-reranker-cross-encoder-large-v1 を利用しました。 以下は参考コードです。 [projec
DuckDB-VSS と PLaMo-Embedding-1B を利用することで、ベクトル検索を実現できますが、DuckDB-FTS (Full-Text Search) と形態素解析ライブラリである Lindera を組み合わせて日本語全文検索を実現できます。 DuckDB-FTS + LinderaDuckDB の全文検索拡張は日本語には対応していないないのですが、スペース区切りでトークン化することで、日本語の全文検索を利用する事が出来ます。トークン化には Meilisearch にも利用されている信頼と安心の Lindera を利用することにしました。 今回この参考コードを Lindera の作者であり検索の専門家でもある Minoru OSUKA 氏にレビューいただきました。本当にありがとうございます。 以下は参考コードです。 [project] name = "duckdb-ft
Installation Documentation Getting Started Connect Data Import JSON Files Multiple Files Parquet Files Partitioning Appender INSERT Statements Client APIs C++ CLI Dart Go Java (JDBC) Julia Node.js (Deprecated) Node.js (Neo) ODBC Python R Rust Swift Wasm SQL Query Syntax Data Types Expressions Functions Constraints Indexes Meta Queries DuckDB's SQL Dialect Samples Configuration Extensions Overview
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く