Jupyter から Hive を使うのに PyHive + ipython-sql が便利だった。 PyHive PyHive は Hive の Thrift クライアントを DB-API 2.0 (PEP 249) 準拠の API でラップするライブラリだ。DB-API は Python でデータベースにアクセスするための標準的なインターフェースで、Perl の DBI や Java の JDBC に相当する。 PyHive と pandas.read_sql があれば、とりあえず SQL の結果を pandas に読み込むことはできるようになる。 ipython-sql 世の中には「SQL を書くのは最初だけで、pandas に読み込んでからが本番」という仕事をしている人もいるんだろうけど、私の場合は SQL 上でいろいろすることのほうが多いので ipython-sql も使っている

