sqldf for pandas

sqldf for pandas
PyCon JP 2015
Ryoji Ishii
@airtoxin

自己紹介
• 石井遼司
• 株式会社ALBERT
• twitter/github/soundcloud→airtoxin
• Python/JavaScript/Scala?

pandas使っていますか？

グルーピング
data.groupby(func, axis=0).mean()
df.groupby('g').boxplot()

グルーピング
自分で用意した集約関数では…？
data.groupby(func, axis=0).mean()
df.groupby('g').boxplot()

<pandas.core.groupby.DataFrameGroupBy object at 0x10e4684d0>

DataFrameの結合
http://pandas.pydata.org/pandas-docs/stable/merging.html

airtoxin / pysqldf
forked from yhat/pandasql

pysqldf
yhat/pandasqlが既にDataFrameにSQL発行でき
るライブラリを公開していたが、メンテされてい
なかった。
pandasqlをベースに、クエリ発行が出来るデータ
形式を増やしたり、UDFを使えるようにしたり。
SQLite3の構文をサポート。

How to use
from pysqldf import SQLDF, load_iris
sqldf = SQLDF(globals())
iris = load_iris()
sqldf.execute("select * from iris;")

union
buyer = sqldf.execute("""
select name, sex, age
from buyer1
union all
from buyer2;
""")

join
purchaser_log = sqldf.execute("""
select *
from buyer as b
inner join
purchase_log as p
on b.name = p.buyer;
""")

UDF
表中の値1つを受け取り、値1つを返す
関数を定義する。
SQLDFのコンストラクタに辞書形式で
関数を渡す。→定義した関数が辞書の
keyで使えるようになる。

UDF
def is_royal_customer(name):
if name == "alice":
return True
else:
return False
sqldf = SQLDF(globals(), udfs={
"is_royal_customer": is_royal_customer
})

sqldf.execute("""
select
*,
is_royal_customer(name) as royal
from (
from buyer1
union all
from buyer2
)
""")
UDF

UDF(aggregate)
集約クラスか関数を作成。
集約クラスはsqlite3のドキュメントを参照。 
関数はカラムの値のリストを受け取り、値1
つを返すようにする。
UDFと同じようにSQLDFのコンストラクタに
関数またはクラスを渡すと使えるようになる。

UDF(aggregate)
def is_royal_bought(royals):
if 1 in royals:
return True
else:
return False
sqldf = SQLDF(globals(), udafs={
"is_royal_bought": is_royal_bought
})

UDF(aggregate)
sqldf.execute("""
select
item,
sum(quantity),
is_royal_bought(royal)
from purchaser_log
group by item
""")

purchaser_log = sqldf.execute("""
select *
from (
select *, is_royal_customer(name) as royal
from (
from buyer1
union all
from buyer2
)
) as b
inner join
purchase_log as p
on b.name = p.buyer;
""")

sqldf.execute("""
select
name,
item,
sum(quantity) as cnt
from purchaser_log
group by name, item
""")

sqldf.execute("""
select
name,
item,
from purchaser_log
group by name, item
""").pivot("name", "item", "cnt")

sqldf.execute("""
select
name,
item,
from purchaser_log
group by name, item
""").pivot("name", "item", "cnt").fillna(0)

import seaborn as sns
sns.heatmap(pivot, annot=True, linewidths=0.5)

みんなつかってくれ！

sqldf for pandas

Recommended

More Related Content

What's hot (20)

Viewers also liked (20)

Recently uploaded (8)

sqldf for pandas