SlideShare a Scribd company logo
インフラデータ活用に向けた
NTT コミュニケーションズ
の取り組み
2018.10.16
技術開発部 Data Science TU / Cutting Edge SU
経営企画部次世代PF推進室
亀井聡
DataWorks Summit Tokyo 2018@赤坂インターシティカンファレンス
概要
 自己紹介,弊社の事業ドメインの紹介
 データサイエンスチームの立ち上げ
 インフラデータの活用に向けて
 今後の課題
自己紹介,弊社の事業ドメインの紹介
自己紹介
 亀井聡
 NTT コミュニケーションズ 株式会社
 技術開発部 Cutting Edge SU, Data Science TU
 経営企画部 次世代PF推進室 兼務
 〜2012.06 NTT サービスインテグレーション基盤研究所
 ネットワーク品質計測・トラフィック制御技術の研究に従事
 2012.07〜 NTT コミュニケーションズ 技術開発部
 インターネット可視化
 Data Science チーム・解析基盤の立ち上げ
 解析基盤の商用化に向けた検討
NTTコミュニケーションズの紹介と
事業ドメイン
 営業拠点: 40+ Countries/Regions, 110+ Locations
 SI, Managed Service, Security (WideAngle/MSS)
 ネットワークサービス: 190+ Countries/Regions
 Global Internet Transit(GIN), OCN, MobileOne, Enterprise VPN(UNO)
 データセンタ: 20+ Countries/Regions
 Nexcenter
 クラウドサービス: 15+ Countries/Regions
 CloudN, Enterprise Cloud (ECL)
NTTコミュニケーションにおける
データ解析の主要な目的
インターネットの変化を捉
えた意志決定
•主要通信の運び手がキャリ
アからITジャイアントに.
•サービス開発,設備投資を
適切に行うことが困難に.
•どこに回線を増設するか,
データセンタを配置するか.
Infrastructure Operation
Company として
•自動化やコスト削減.品質
向上等きめ細かなサポート.
•自営インフラの効率化.
•アウトソースされたエンタ
プライズNW・エッジNWの
運用効率化.付加価値生成.
新たなサービスを産み出す
•CDN / DDoS / SeCaaS w/
VxF基盤 / Data解析基盤
•領域・組織横断で連携した
意志決定を容易に,データ
ドリブンで実施する.
•解析基盤そのものの外販
6
データサイエンスチームの立ち上げ
データサイエンスチームの立ち上げ
 研究所でトラフィック解析業務→コムに異動して実トラフィックを対象に
 最初のテーマは Internet の可視化
 計測環境の立ち上げや社内データ調整の日々
 調整に際しては比較的高度な知識(技術だけじゃなく)が要求される
 人が足りない,優秀なインフラエンジニアは奪い合い
 データベースやマイニング,マーケティング部隊を統合
 社外に向けてコンサルティングを売っていくチームを方針転換
 まずは社内データ活用に舵を切って,うまくいったら外販する方針に
苦難(?)の歴史 1/4
 手動分析と職人芸のチーム(excel, spss, perl, …)
 個別案件(営業支援案件がほとんど)を個人のスキルで解決
 人によってツールも得意分野も異なり,異動とともに終了
 DB技術(かつてはHadoopも)の検討経験者もいた
 が,基盤としての検証がほとんどで活用経験が少ない.
 基盤の立ち上げ
 メモリをたくさん積んだマシンを用意してRに一度寄せる
 処理コードを git(lab) に載せて再現できるように(Reproducible Analytics)
初期アーキテクチャ
 ESXi
 docker(0.9ぐらいの頃)
 gitlab / rstudio
 Jenkins + Rmd でレポート
苦難(?)の歴史 2/4
 中心的なデータ
 Internet 計測データ
 Xflow データ
 tweet や web access データ
 オンメモリ処理だけじゃ苦しくなってきた
 データ取得組織からデータ授受すればいいと思っていたが,意外とやってると
ころなかった
 データ収集から可視化までひととおり動く環境を作って見せる必要が発生
 Elasticsearch を使ってみることにした
 Kibana が幹部陣に見せるには好評
 サービス側でいろいろいじれる
Elasticsearch 採用時のアーキテクチャ
 CoreOS
 docker
 rabbitmq / Elasticsearch-Kibana / logstash
 rstudio で解析
苦難(?)の歴史 3/4
 Kibana のダッシュボードが属人的に高度化
 Elasticsearch の大規模運用が意外とたいへん
 Elasticsearch/Lucene クエリが独特
 もう少し「固い」基盤を使いたい
 Hadoop 採用に至る
 container 上で動くもの,クラウドにも持っていけるもの,の観点で HDP 採用
 CoreOS
 Docker w/ swarm
 Ambari / Hadoop (HDP) / Kafka / Elasticsearch-Kibana
 presto
 redash / metabase
 rstudio / jupyterhub
 gitlab / gitlab-ci
Python
TensorFlow
Chainer
hivemall
Kibana
Presto
EMC Isilon
HDFS
Elasticsearch
R Markdown
/
Shiny
Hive
Connector
in Presto
Queue
File
Hive
Hadoop
ES-
Hadoop
MySQL/Postgr
eSQL
RDB
Connector
metabase
R
(Jenkins)
RPresto
Jupyter
Ambari
Spark
or
RPresto
es-hadoop
Logstash
Spark-Streaming
Storm
kafka-connect-es
elastic
Package
PyHive
PyHive
kafka-connect-hdfs
Kafka
(Confluent)
kafka-connect-amqp
filebeat
kafka-connector in Presto
NFS
Que/Store Analysis VisualizationData Shipment
苦難(?)の歴史 4/4
 ???「商用基盤にしようか」私「え?」
 商用レベルの運用を検討することに
 HDP/HDF ラインセンス購入
 データパイプライン(logstash や kafka の流量監視,HA化等)の検討開始
 Spark (Structured) Streaming にして HDP/HDF に組み込む案
 k8s の High Availability, Self Healing 機能による自律性の獲得
NTT Communications CONFIDENTIAL
[Document ID] [Distribution number]
L2/L3SW
L2/L3SW
Isilon
(NFS/HDFS Storage)
Isilon
(NFS/HDFS Storage)
yokozuna
幕張DC 25台
大手町DC 4台
Testbed Network
kubem
amb01 〜 03
kafka01 〜 07
tesla01 〜 04core01 〜 03
note01 〜 03
coredev01 〜 07
Internet
Cloud
Compute
Engine
Cloud
Storage
Container
Engine
Cloud
Dataproc
Cloud
Pub/Sub
On-premise
multi bare metals
Internet
Install
Option 1
Option 2
Option 3
User
インフラデータの活用に向けて
インターネットの計測の取り組み
 traceroute 等のアクティブ測定を用いたもの
 経路情報(BGP)データセットを用いたもの
 特定組織を通過するトラフィックをパッシブ計測したもの.
↓
 アクティブ測定では網羅的な評価が困難.
 経路情報データセットでは測定点から離れるほど不正確に.
 パッシブデータは取得可能な組織が限られる.
 日本国内を対象とした分析データがほとんど存在しない.
20
◼ ISP wars
• 国内主要トランジット事業者7社と契約し、各ASに経路広告を実施
◼ 各ASのcustomer ASとして、多様な分析が可能
• マルチホーム環境でのトランジットの引きの強さの調査
✓ 広告経路を利用した下りtrafficの調査
• peer経路も含めた各ASの隣接関係の調査
✓ customer ASのみに公開される情報の利用
21
IIJ KDDI GIN OCN Pacnet
-> Telstra
Softbank
/ODN
full
full full full
full
full
計測基盤
フルルート
測定用広告経路
トランジット比較環境
• インターネット上の様々なコンテンツに対する利用者の体感品質を測定する
• さまざまな回線を、パートナー会社のスタッフ宅等に設置
• 2013年11月から台数、測定エリア、回線、システムを更改しながら測定中
• 現在国内300箇所.Probe x ISP は 500.日々の計測数は20万程度.
internet
各ISP
一般家庭
プログラム配布
データ収集
データ分析・
可視化
NTTコム with パートナー会社
測定サイト①
他社回線
測定サイト②
・・・
測定端末の配布・回収測定に関する問い合わせ、
状況・契約確認等々
データ測定
回線契約・設
置・支払い
端末設定・状況確認・謝礼支払い等々
+NTTコムビル
でも測定
空いている
ポートを利用
OpenBlocks
101(W) x 142.1(D) x 41(H) ゴム足含まず
測定機器と
測定ソフト
22
インターネット計測システム
OCN+他社ISP(10以上)
フレッツ光+他社回線
Internet
測定サイト①
測定サイト②
Measure
Cloud n(Public Cloud)
Collector1 – 6
(fluentd)
Controller1-2 (Python)
db1(MySQL)
Queue1 – 3
(Kafka)
……
Collect
Wrangling
Language
Storage(NFS+HDFS)
@Makuhari, Otemachi
Core01-XX
@Makuhari, Otemachi
Wget LTSV
Ping Raw Log
Probe Master
@hive
Elasticsearch
Probe
Datamart
@hive
Wget Raw Log
Ping LTSV
Queue1 – 3
(Kafka)
Probe Attribute
@MySQL
SQL-Based OSS BI
Analyze
Ingest
Spark Streaming
Gitlab CI
Fluentd
…
rsync
Python
HiveQL
R
R
23
LB
Kibana
Control
Transfer
全体構成
計測状況
品質計測結果
 スループットと遅延でグラフ上にプロット.
 ひとつの点がひとつの計測器によるひとつ
のISPの計測結果を表わす.
 遅延が小さいほどスループットは高い傾向
はあるが,ばらつきは大きい.
x軸:平均遅延
y軸:最悪スループット
大きさ:データ数
•150M×300台/day(raw) 30TB
•500MB/day(変換後json/ltsv) 10TB
Windows Update での CDN 利用状況
from Akamai Cache
from Level3
from LimeLight
from Microsoft
from Akamai Transit
Windows10
▽
from Other
マルチCDNから自前化?
インターネットの計測
 インターネットは成長を続けている
 変化の中でうまく波に乗れたか,乗り遅れたかで明暗がわかれることも
 ハイパージャイアントのデータ寡占化が進む中,何かできないか?
インフラ運用で得られる主なデータ
計測系データ
•Flow / DPI / Capture
•どこからどこへ通信がされているか.
•サンプリング・識別後データ・生データ.
•汎用性はあるが全体で取ると量が膨大.装置負荷も高い.
•Application Log / Syslog
•装置ログ・サーバログ.
•粒度がバラバラ.非構造化.
•SNMP/MIB/Telemetry
•装置が持つ統計値
•汎用性は高いが,装置の接続構造がわからないと扱いが困難.
•Active Measurement / Probe
•実際にパケットを投げてみた結果
•ブラックボックステスト.他社設備も含めた結果が得られる.
•測定計画が自明ではない.
教師系データ
•網構成情報
•近年は論理構成がダイナミックに変化することも多く,必ずしも事前に与
えられない.
•故障・障害情報
•サービスによって粒度がバラバラ.
•場合によっては時期によって異なる場合も.
•インフラの組み換えも頻繁に行うため,学習データとしての単純な利用は
困難.
28
運用高度化の
取り組み
運用者のふるまい
• 障害に気付く
• チケット・アラート / ユーザ反応
• 障害箇所を探す
• データによる切り分け / 追加での計測
• 原因を探る
• 装置ログ / 追加での計測
• アクション
• 交換・再起動
• 接続先への連絡
複数ドメインやレイヤをまたぐことが多い
• ひとつひとつ解いても使い物になりにくい.
• データが足りない
• なにか起きた時に追加データを取る必要.
• 教師データが足りない
• 構成情報や障害情報が不十分.
障害時のWebアクセスの可視化
周期性を持つデータの異常検知
元データ 周期成分分解 + 異常検知
周期成分
周期成分を取り除いたデータに対して確率を求める
運用の高度化
 可視化するだけでも意味がある領域は結構ある
 高度なデータサイエンス手法の適用前にまずはデータを扱えるように
 インフラじゃないデータとの突合により得られるものも多い
 必ずしも運用目的とは限らない.ウェブアクセスとネットワーク品質,とか.
 自分達の強みでお客さまに貢献できるところを探している.
今後の課題
NTTコミュニケーションにおける
データ解析の主要な目的
インターネットの変化を捉
えた意志決定
•主要通信の運び手がキャリ
アからITジャイアントに.
•サービス開発,設備投資を
適切に行うことが困難に.
•どこに回線を増設するか,
データセンタを配置するか.
Infrastructure Operation
Company として
•自動化やコスト削減.品質
向上等きめ細かなサポート.
•自営インフラの効率化.
•アウトソースされたエンタ
プライズNW・エッジNWの
運用効率化.付加価値生成.
新たなサービスを産み出す
•CDN / DDoS / SeCaaS w/
VxF基盤 / Data解析基盤
•領域・組織横断で連携した
意志決定を容易に,データ
ドリブンで実施する.
•解析基盤そのものの外販
34
今後の課題
 データサイエンスチームとしての課題
 基盤人材不足→外注を併用
 アナリストはいるがコンサルタントが足りない→ドメイン知識を磨く
 R/SQL は書けるが CI/Stream のようなシステムコードが苦手→頑張る?
 社内での活用から社外での活用に向けて
 強みを発揮できるところで暗黙知を形式知に
 運用分野等,社内できっちり使って社外展開を
 KPIを見ながらサービスを改良できる意志決定に

More Related Content

PDF
Snowflake SnowPro Certification Exam Cheat Sheet
PDF
Snowflake SnowPro Core Cert CheatSheet.pdf
PDF
JDBC Source Connector: What could go wrong? with Francesco Tisiot | Kafka Sum...
PDF
Adaptive Query Execution: Speeding Up Spark SQL at Runtime
PDF
10分でわかる Cilium と XDP / BPF
PDF
Improving SparkSQL Performance by 30%: How We Optimize Parquet Pushdown and P...
PDF
Optimizing Delta/Parquet Data Lakes for Apache Spark
PPTX
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
Snowflake SnowPro Certification Exam Cheat Sheet
Snowflake SnowPro Core Cert CheatSheet.pdf
JDBC Source Connector: What could go wrong? with Francesco Tisiot | Kafka Sum...
Adaptive Query Execution: Speeding Up Spark SQL at Runtime
10分でわかる Cilium と XDP / BPF
Improving SparkSQL Performance by 30%: How We Optimize Parquet Pushdown and P...
Optimizing Delta/Parquet Data Lakes for Apache Spark
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)

What's hot (20)

PDF
Spark Streaming + Amazon Kinesis
PPTX
Broadcom PCIe & CXL Switches OCP Final.pptx
PPTX
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
PDF
OCI 購入モデルの整理と Universal Credit 最新情報(2021年2月17日版)
PPTX
A critique of ansi sql isolation levels 解説公開用
PDF
The Rise of ZStandard: Apache Spark/Parquet/ORC/Avro
PDF
次世代データ基盤としてのSnowflakeの可能性 SnowDay 20211208
PPTX
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
PDF
Apache Kafka & Kafka Connectを に使ったデータ連携パターン(改めETLの実装)
PPTX
脱RESTful API設計の提案
PPTX
Apache Helix presentation at SOCC 2012
PDF
Benchmark MinHash+LSH algorithm on Spark
PDF
Scaling and Modernizing Data Platform with Databricks
PDF
Modernizing the Analytics and Data Science Lifecycle for the Scalable Enterpr...
PPTX
Dataflow with Apache NiFi - Apache NiFi Meetup - 2016 Hadoop Summit - San Jose
PPTX
Spark rdd vs data frame vs dataset
PDF
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
PDF
Hyperspace for Delta Lake
PPTX
OpenMPI入門
PPTX
AWSでGPUも安く大量に使い倒せ
Spark Streaming + Amazon Kinesis
Broadcom PCIe & CXL Switches OCP Final.pptx
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
OCI 購入モデルの整理と Universal Credit 最新情報(2021年2月17日版)
A critique of ansi sql isolation levels 解説公開用
The Rise of ZStandard: Apache Spark/Parquet/ORC/Avro
次世代データ基盤としてのSnowflakeの可能性 SnowDay 20211208
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
Apache Kafka & Kafka Connectを に使ったデータ連携パターン(改めETLの実装)
脱RESTful API設計の提案
Apache Helix presentation at SOCC 2012
Benchmark MinHash+LSH algorithm on Spark
Scaling and Modernizing Data Platform with Databricks
Modernizing the Analytics and Data Science Lifecycle for the Scalable Enterpr...
Dataflow with Apache NiFi - Apache NiFi Meetup - 2016 Hadoop Summit - San Jose
Spark rdd vs data frame vs dataset
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Hyperspace for Delta Lake
OpenMPI入門
AWSでGPUも安く大量に使い倒せ
Ad

Similar to NTT Communications' Initiatives to Utilize Infrastructure Data (20)

PPTX
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
PDF
Storm×couchbase serverで作るリアルタイム解析基盤
PPTX
ビッグデータ活用支援フォーラム
PPTX
Spring Cloud Data Flow で構成される IIJ IoTサービス
PDF
SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)
PDF
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
PDF
AITCクラウド部会 2014年度 これまでの振り返りとこれから
PDF
情報爆発シンポジウム infoplosion
PDF
20140608 interlop keynote
PDF
「Data Infrastructure at Scale 」#yjdsw4
PDF
Global Top 5 を目指す NTT DATA の確かで意外な技術力
PDF
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
PPTX
WebDB Forum 2012 基調講演資料
PDF
New Digital World - NEC
PPTX
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
PDF
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
PDF
Cm re growth-devio-mtup11-sapporo-004
PDF
Lightning Talks: Connecting with the Best Technology for Places in the Network
PPTX
大規模インフラで考える インフラチームの未来
PDF
データが覗いたOpenStack Summit Vancouver
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Storm×couchbase serverで作るリアルタイム解析基盤
ビッグデータ活用支援フォーラム
Spring Cloud Data Flow で構成される IIJ IoTサービス
SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
AITCクラウド部会 2014年度 これまでの振り返りとこれから
情報爆発シンポジウム infoplosion
20140608 interlop keynote
「Data Infrastructure at Scale 」#yjdsw4
Global Top 5 を目指す NTT DATA の確かで意外な技術力
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
WebDB Forum 2012 基調講演資料
New Digital World - NEC
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
Cm re growth-devio-mtup11-sapporo-004
Lightning Talks: Connecting with the Best Technology for Places in the Network
大規模インフラで考える インフラチームの未来
データが覗いたOpenStack Summit Vancouver
Ad

More from DataWorks Summit (20)

PPTX
Data Science Crash Course
PPTX
Floating on a RAFT: HBase Durability with Apache Ratis
PPTX
Tracking Crime as It Occurs with Apache Phoenix, Apache HBase and Apache NiFi
PDF
HBase Tales From the Trenches - Short stories about most common HBase operati...
PPTX
Optimizing Geospatial Operations with Server-side Programming in HBase and Ac...
PPTX
Managing the Dewey Decimal System
PPTX
Practical NoSQL: Accumulo's dirlist Example
PPTX
HBase Global Indexing to support large-scale data ingestion at Uber
PPTX
Scaling Cloud-Scale Translytics Workloads with Omid and Phoenix
PPTX
Building the High Speed Cybersecurity Data Pipeline Using Apache NiFi
PPTX
Supporting Apache HBase : Troubleshooting and Supportability Improvements
PPTX
Security Framework for Multitenant Architecture
PDF
Presto: Optimizing Performance of SQL-on-Anything Engine
PPTX
Introducing MlFlow: An Open Source Platform for the Machine Learning Lifecycl...
PPTX
Extending Twitter's Data Platform to Google Cloud
PPTX
Event-Driven Messaging and Actions using Apache Flink and Apache NiFi
PPTX
Securing Data in Hybrid on-premise and Cloud Environments using Apache Ranger
PPTX
Big Data Meets NVM: Accelerating Big Data Processing with Non-Volatile Memory...
PDF
Computer Vision: Coming to a Store Near You
PPTX
Big Data Genomics: Clustering Billions of DNA Sequences with Apache Spark
Data Science Crash Course
Floating on a RAFT: HBase Durability with Apache Ratis
Tracking Crime as It Occurs with Apache Phoenix, Apache HBase and Apache NiFi
HBase Tales From the Trenches - Short stories about most common HBase operati...
Optimizing Geospatial Operations with Server-side Programming in HBase and Ac...
Managing the Dewey Decimal System
Practical NoSQL: Accumulo's dirlist Example
HBase Global Indexing to support large-scale data ingestion at Uber
Scaling Cloud-Scale Translytics Workloads with Omid and Phoenix
Building the High Speed Cybersecurity Data Pipeline Using Apache NiFi
Supporting Apache HBase : Troubleshooting and Supportability Improvements
Security Framework for Multitenant Architecture
Presto: Optimizing Performance of SQL-on-Anything Engine
Introducing MlFlow: An Open Source Platform for the Machine Learning Lifecycl...
Extending Twitter's Data Platform to Google Cloud
Event-Driven Messaging and Actions using Apache Flink and Apache NiFi
Securing Data in Hybrid on-premise and Cloud Environments using Apache Ranger
Big Data Meets NVM: Accelerating Big Data Processing with Non-Volatile Memory...
Computer Vision: Coming to a Store Near You
Big Data Genomics: Clustering Billions of DNA Sequences with Apache Spark

NTT Communications' Initiatives to Utilize Infrastructure Data