SlideShare a Scribd company logo
Вычислительный кластер БГУИР
Кафедра ЭВМ
Лаборатория высокопроизводительных
вычислений
Вычислительный кластер БГУИР
Аппаратная платформа
Система в сборе:
● Стойка Rack 10 Units
● Кластер вычислительных
узлов
● Источник бесперебойного
питания
Вычислительный кластер БГУИР
Характеристики кластера
Тип узла Количество Характеристики узла
Вычислительный 7
Blade: GPU SuperBlade SBI-7127RG
2 х CPU Intel Xeon E5-2650
32 Gb RAM
2x Tesla M2075 6 Gb RAM
InfiniBand 4x QDR (40Gbps)
Network 2x Gigabit Ethernet
Управляющий 1
Blade: GPU SuperBlade SBI-7127RG
2 х CPU Intel Xeon E5606
24 Gb RAM
2x SSD 80Gb
4x HDD 300Gb
InfiniBand 4x QDR (40Gbps)
Network 2x Gigabit Ethernet
Вычислительный кластер БГУИР
Характеристики платформы
1. Intel® Xeon® processor E5-2600
family; QPI up to 8.0 GT/s
2. Intel® C602 Chipset
3. Up to 256GB RDIMM or 64GB UDIMM;
8x DIMM slots
4. Intel® i350 Dual port Gigabit Ethernet
5. 4x QDR (40Gb) InfiniBand or 10GbE
mezzanine HCA
6. IPMI 2.0, KVM over IP, Virtual Media
7. 1x SATA DOM up to 64GB
8. Integrated Matrox G200eW Graphics
Вычислительный кластер БГУИР
CPU Intel Xeon E5-2650
Характеристика Значение
Семейство Intel Xeon E5-2600
Микроархитектура Sandy Bridge
Запуск в продажу Март 2012
Количество ядер 8
Поток на ядро 2
Часто базовая 2000 МГц
Частота турбо 2800 МГц (1 или 2 ядра)
2700 МГц (3 ядра)
2500 МГц (4, 5 или 6 ядер)
2400 МГц (7 или 8 ядер)
Кэш L3 20 Мбайт
Память 4 канала DDR 3
Инструкции AVX, SSE1-4, EM64T, AES и др.
Пиковая производительность
(double)
~150 Gflops
Вычислительный кластер БГУИР
GPU Nvidia Tesla M2075
Характеристика Значение
Микроархитектура Fermi
Запуск в продажу 2011
Количество ядер 448
Частота ядер 1215 МГц
Память 6 Гбайт
Пропускная способность
памяти
144 Гбайт/с
Пиковая производи-
тельность (double)
~500 Gflops
На каждом узле содержится 2 карты: итого 14 карт Tesla
14шт. x 448ядер x 32нити => 200704 и это параллельно выполняющихся потоков, не
считая возможностей псевдопараллельного выполнения каждой картой до 65535 потоков!
Вычислительный кластер БГУИР
High performance computing (HPC)
Первое
Первое блюдо (в частности суп) – по некоторым соображениям является очень
полезным составляющим обеда. В нашем контексте полезность заключается в
максимальной утилизации имеющихся ресурсов.
Вычислительный кластер БГУИР
HPC-кластер
HPC архитектура предполагает превосходство времени вычислений над
временем доступа к данным. Поэтому отсутствие ЖД на вычислительных узлах
оправдано и широко распространено.
Вычислительный кластер БГУИР
Программное обеспечение – обновлено
● ОС Alt Linux 7.0
● TORQUE — менеджер распределенных
ресурсов для вычислительных кластеров
● Компилятор gcc
● OpenMP
● OpenMPI
● OpenCL
● Nvidia CUDA Toolkit
OpenSUSE 13.2
(SLES 11.4)
Обновление
версии
Обновление
версии
Обновление
версии
Обновление
версии
Обновление
версии
Обновление
версии
Вычислительный кластер БГУИР
Уровни параллелизма
Программы уровня 0
● OpenMP + MPI + CUDA
● Максимальная загрузка
всей вычислительной
мощности
Вычислительный кластер БГУИР
Уровни параллелизма
Программы уровня 1
● Использование мощности
CPU или GPU всех узлов
● OpenMP + MPI
● CUDA
● Эффективность
применения: 60%
Вычислительный кластер БГУИР
Уровни параллелизма
Программы уровня 2
● Использование только CPU
● Эффективность
применения: 10 – 15%
Вычислительный кластер БГУИР
Решаемые задачи
●
Исследования погодных и климатических явлений
●
Биоинформатика
●
Вычислительная гидродинамика
● Автоматизированное проектирование и рендеринг
●
Deep learnong
● Автоматизация проектирования электронных
устройств (EDA)
● Компьютерное зрение, обработка изображений и
видео
●
Исследование материалов
●
Медицинская визуализация
● Молекулярная динамика
●
Численный анализ
● Физика
● Квантовая химия
●
Структурная механика
●
Визуализация и стыковка
Вычислительный кластер БГУИР
Так же можно принять участие...
...на безвозмездной основе в распределенных вычислениях по следующим
темам:
● Астрофизика (Albert@home, Asteroids@home, Cosmology@Home,
Einstein@Home)
● Физика (ATLAS@Home)
● Искусство (BURP, Electric Sheep)
● Биохимия (CAS@home)
● Изучение климата (Climate Prediction)
● Математика (Collatz Conjecture)
● Медицина и биология (DENIS@Home)
● Анализ данных и машинное обучение (DistributedDataMining)
● Криптография (Distributed.net)
● Изучение рака (DreamLab)
● Молекулярная биология (Folding@home)
… и множество других
Полный список:
https://en.wikipedia.org/wiki/List_of_distributed_computing_projects
Вычислительный кластер БГУИР
Infrastructure-as-a-Service (IaaS)
Platform-as-a-Service (PaaS)
Второе
Второе – как например жареная картошечка с котлетой – вещь не
самая полезная, но без нее тоже неуютно.
Инфраструктура как услуга (IaaS, англ.
Infrastructure-as-a-Service)
предоставляется как возможность
использования облачной
инфраструктуры для самостоятельного
управления ресурсами обработки,
хранения, сетями и другими
фундаментальными вычислительными
ресурсами
Платформа как услуга (PaaS, англ.
Platform-as-a-Service) — модель,
когда потребителю предоставляется
возможность использования
облачной инфраструктуры для
размещения базового программного
обеспечения для последующего
размещения на нём новых или
существующих приложений
Вычислительный кластер БГУИР
OpenStack
OpenStack — комплекс проектов
свободного программного обеспечения,
который может быть использован для
создания инфраструктурных облачных
сервисов и облачных хранилищ.
Вычислительный кластер БГУИР
Реализация на кластере
Вычислительный кластер БГУИР
Text
Вычислительный кластер БГУИР
BigData
Десерт.
В нашем случае – это тортик.
Вещь приятная на вкус и цвет.
Вычислительный кластер БГУИР
LHPChadoop на кластере БГУИР
Вычислительный кластер БГУИР
HDFS
HDFS (Hadoop Distributed File System) — файловая система, предназначенная для хранения файлов
больших размеров, поблочно распределённых между узлами вычислительного кластера, создана
основываясь на концепции GoogleFS
Вычислительный кластер БГУИР
HDFS и LHPChadoop кластер
Монтирование GlusterFS к
каждой машине, поверх
которых собрана HDFS
Вычислительный кластер БГУИР
Hadoop MapReduce
Основе Hadoop вместе с HDFS находится парадигма MapReduce
MapReduce – это модель распределенной обработки данных,
предложенная компанией Google для обработки больших объёмов
данных на компьютерных кластерах.
Вычислительный кластер БГУИР
YARN
Yet Another Resource Negotiator
YARN — «ещё один ресурсный посредник» — модуль, отвечающий за
управление ресурсами кластеров и планирование заданий.
YARN может быть рассмотрен как кластерная операционная система в том смысле,
что ведает интерфейсом между аппаратными ресурсами кластера и широким
классом приложений
Вычислительный кластер БГУИР
Hive
Apache Hive – это инфраструктура хранения данных построенная поверх Hadoop
(т. е. HDFS+MapReduce) для предоставления возможностей сбора, выборки и
анализа информации.
HiveQL – SQL-подобный интерфейс доступа к данным хранящимся на HDFS
Вычислительный кластер БГУИР
Pig
● Pig Latin
● User Defined Functions on Java,
Python, JavaScript, Ruby or Groovy
● lazy evaluation
● extract, transform, load (ETL)
● is able to store data at any point during
a pipeline
● declares execution plans
● supports pipeline splits, thus allowing
workflows to proceed along DAGs
instead of strictly sequential pipelines
Вычислительный кластер БГУИР
Mahout
● Distributed Row Matrix API with R and Matlab
like operators
● Similarity Analysis
● Collaborative Filtering
● Classification
● Clustering
● Dimensionality Reduction note
● Frequent itemset mining
● etc.
Проект Mahout призван удовлетворить требования разработчиков и дата
сайнтистов в выполнении над БигДата машинного обучения. Обработка
основывается на парадигме MapReduce, хотя поддерживают и другие мдели.
Вычислительный кластер БГУИР
Giraph
Giraph предназначен для обработки графов используя
парадигму MapReduce.
Facebook: анализ триллиона ребер графа используя
200 машин за 4 минуты
Вычислительный кластер БГУИР
HBase
● HBase features compression
● in-memory operation
● Bloom filters on a per-column basis
● Replication across the data center
● Atomic and strongly consistent row-level operations
● Near real time lookups
● cells no larger than 10 MB
● 1 and 3 column families per table
● Time based versions
HBase — NoSQL распределённая база данных, является аналогом
Google BigTable. Работает поверх распределенной файловой
системы HDFS и обеспечивает BigTable-подобные возможности для
Hadoop.
Вычислительный кластер БГУИР
Kafka
Apache Kafka — распределённый программный брокер сообщений.
● Масштабируемость
● Репликация
● Высокая пропускная
способность источников
и подписчиков
● Объединение
подписчиков в группы
● Временное хранение
для последующей
пакетной обработки
данных
Вычислительный кластер БГУИР
Storm
Fast
● Fast
● Scalable
● Fault-tolerant
● Reliable
● Easy to operate
Apache Storm – распределенная near real-time система обработки поточных
данных.
Преимущественно MISD архитектура (конвейерная обработка).
Вычислительный кластер БГУИР
Типичное применение
Вычислительный кластер БГУИР
Spark – speed
Logistic regression in Hadoop and Spark
● Программный каркас с открытым исходным кодом для реализации
распределённой обработки неструктурированных и
слабоструктурированных данных.
● Использует специализированные примитивы для рекурентной обработки в
оперативной памяти
● Выполнение программ до 100 раз быстрее чем в Hadoop MapReduce в
памяти или до 10 раз с использованием диска
Вычислительный кластер БГУИР
Spark – Ease of Use
Word count in Spark's Python API
● Поддерживаются Java, Scala, Python, R.
● Возможность интерактивной обработки с использованием коммандных
оболочек языков Scala, Python или R.
Вычислительный кластер БГУИР
Spark – Speed
Streaming, SQL, Graph processing and machine
learning
Расширяется стеком библиотек включая SQL and DataFrames, MLlib for machine
learning, GraphX, and Spark Streaming.
Вычислительный кластер БГУИР
Spark – speed
Access diverse data sources including
HDFS, Cassandra, Hbase, S3, Hive,
Tachyon, and any Hadoop data source
Вычислительный кластер БГУИР
Вишенка на торте
Вычислительный кластер БГУИР
Zeppelin
Браузерное приложение
позволяющее в виде небольших
записных книжек интерактивно
выполнять анализ и визуализацию
данных используя
производительность подсистем
Hadoop и Spark.
Поддерживается написание
скриптов подготовки, обработки и
визуализации данных на Scala,
Hive, SparkSQL, Linux Shell,
Вычислительный кластер БГУИР
Zeppelin
Вычислительный кластер БГУИР
Архитектура проекта анализа трафика
кафедра ЭВМ
|grep http,GET,POST,CONNECT...
Получение трафика с
маршрутизатора
Фильтрация пакетов
Передача в брокер
Kafka
Поточная обработка
Сопряжение с
данными из ресурсов
университета
Постоянное
хранилище данных о
трафике,
расписаниях, списках
групп
Механизм
представления
данных
пользователю
Вычислительный кластер БГУИР
Что касается BigData в целом
Вычислительный кластер БГУИР
Но мы-то знаем..!
Вычислительный кластер БГУИР
Возможности
1. Развитие инфраструктуры кластера в направлении BigData
2. Изучение технологий BigData: Data Computing, Data Sciense
3. Накопление и анализ опыта участия в различных проектах в
виде данных

More Related Content

PDF
Нереляционный SQL
Andrei Nikolaenko
 
PPTX
Технологии хранения для больших проектов / Сергей Платонов (RAIDIX)
Ontico
 
PPT
Пути увеличения эффективности реализации алгоритмов машинного обучения
Andrew Babiy
 
PPT
SAMag2007 Conference: PostgreSQL 8.3 presentation
Nikolay Samokhvalov
 
PDF
Лекция 2. Основы Hadoop
Technopark
 
PPTX
DataCore case studies
korn_aaf
 
PDF
Обработка спйсмоданных: возможности оптимизации ИТ-инфраструктуры
Vsevolod Shabad
 
PDF
Hadoop presentation
Vlad Orlov
 
Нереляционный SQL
Andrei Nikolaenko
 
Технологии хранения для больших проектов / Сергей Платонов (RAIDIX)
Ontico
 
Пути увеличения эффективности реализации алгоритмов машинного обучения
Andrew Babiy
 
SAMag2007 Conference: PostgreSQL 8.3 presentation
Nikolay Samokhvalov
 
Лекция 2. Основы Hadoop
Technopark
 
DataCore case studies
korn_aaf
 
Обработка спйсмоданных: возможности оптимизации ИТ-инфраструктуры
Vsevolod Shabad
 
Hadoop presentation
Vlad Orlov
 

What's hot (20)

PPTX
Чем заняться вечером, если я знаю сколько будет ++i + ++i / Андрей Бородин (Y...
Ontico
 
PDF
Возможности повышения производительности вычислительных кластеров
Vsevolod Shabad
 
ODP
Scaling PostgreSQL
Дмитрий Васильев
 
PDF
Использование очередей асинхронных сообщений с PostgreSQL (Илья Космодемьянский)
Ontico
 
PDF
Лекция 3. Распределённая файловая система HDFS
Technopark
 
PDF
Беспроблемная эксплуатация PostgreSQL
Дмитрий Васильев
 
PDF
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
IBS
 
PDF
PostgreSQL on sas/ssd/nvme/nvdimm
Дмитрий Васильев
 
PDF
Программно-технические комплексы для работы с геолого-геофизическими данными
Vsevolod Shabad
 
PDF
HPCSolutions (c)2018
Vladimir Konovalov
 
PDF
Storage Bitblaze
Евгений Тепляков
 
PPSX
Технико-коммерческое предложение "База знаний"
RKVector
 
PDF
Использование Hadoop в Badoo, Валерий Старынин (Badoo)
Ontico
 
PDF
Uniting Data JavaOne2013
Dmitri Shiryaev
 
PDF
HPC file systems (160761)
Vsevolod Shabad
 
PDF
Гидродинамическое моделирование: возможности оптимизации ИТ-инфраструктуры
Vsevolod Shabad
 
PDF
Rapid Deployment of Hadoop Development Environments
Andrei Nikolaenko
 
PDF
Программирование на медиапроцессорах Philips Nexperia
MSU GML VideoGroup
 
PDF
Инфраструктура хранения для KADME Whereoil
Vsevolod Shabad
 
Чем заняться вечером, если я знаю сколько будет ++i + ++i / Андрей Бородин (Y...
Ontico
 
Возможности повышения производительности вычислительных кластеров
Vsevolod Shabad
 
Использование очередей асинхронных сообщений с PostgreSQL (Илья Космодемьянский)
Ontico
 
Лекция 3. Распределённая файловая система HDFS
Technopark
 
Беспроблемная эксплуатация PostgreSQL
Дмитрий Васильев
 
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
IBS
 
PostgreSQL on sas/ssd/nvme/nvdimm
Дмитрий Васильев
 
Программно-технические комплексы для работы с геолого-геофизическими данными
Vsevolod Shabad
 
HPCSolutions (c)2018
Vladimir Konovalov
 
Технико-коммерческое предложение "База знаний"
RKVector
 
Использование Hadoop в Badoo, Валерий Старынин (Badoo)
Ontico
 
Uniting Data JavaOne2013
Dmitri Shiryaev
 
HPC file systems (160761)
Vsevolod Shabad
 
Гидродинамическое моделирование: возможности оптимизации ИТ-инфраструктуры
Vsevolod Shabad
 
Rapid Deployment of Hadoop Development Environments
Andrei Nikolaenko
 
Программирование на медиапроцессорах Philips Nexperia
MSU GML VideoGroup
 
Инфраструктура хранения для KADME Whereoil
Vsevolod Shabad
 
Ad

Similar to Кластер БГУИР: расширенные возможности (20)

PPTX
СХД DEPO Storage 4600 для консолидации данных в современной IT-инфраструктуре
DEPO Computers
 
PDF
GCP для работы с большими данными
HOWWEDOIT
 
PDF
Презентация HPE
BairRadnaev
 
PDF
Работа с Big Data
MATLAB
 
PDF
HPE: гиперконвергентная ИТ-инфраструктура «все-в-одном»
КРОК
 
PDF
Корпоративный Linux: осваиваем с нуля Red Hat Enterprise Linux
SkillFactory
 
PPTX
Высокопроизводительные вычисления на платформе Dell
Dell_Russia
 
PPTX
Hpc 2.26.03.2013.
Boris Kizko
 
PDF
Ibm megatrade шиндак xiv v3.0
Nick Turunov
 
PDF
Параллельные и распределенные вычисления
MATLAB
 
PDF
Fors и big data appliance
CleverDATA
 
PDF
IForum 2016: Никита Семенов. Серьезный подход к серьезным проектам
SECL
 
PPTX
Сервисы Azure для научных исследований
Microsoft
 
PPT
навигатор новые решения в новых условиях
Nick Turunov
 
PDF
СКАЛА-Р. Российская конвергентная вычислительная платформа
DEPO Computers
 
PPT
Cuda, OpenCL
Boris Kizko
 
PPT
С. Перроте (Q Logic) Ускорение работы приложений
Expolink
 
PDF
HPC HUB - Virtual Supercomputer on Demand
Vilgelm Bitner
 
СХД DEPO Storage 4600 для консолидации данных в современной IT-инфраструктуре
DEPO Computers
 
GCP для работы с большими данными
HOWWEDOIT
 
Презентация HPE
BairRadnaev
 
Работа с Big Data
MATLAB
 
HPE: гиперконвергентная ИТ-инфраструктура «все-в-одном»
КРОК
 
Корпоративный Linux: осваиваем с нуля Red Hat Enterprise Linux
SkillFactory
 
Высокопроизводительные вычисления на платформе Dell
Dell_Russia
 
Hpc 2.26.03.2013.
Boris Kizko
 
Ibm megatrade шиндак xiv v3.0
Nick Turunov
 
Параллельные и распределенные вычисления
MATLAB
 
Fors и big data appliance
CleverDATA
 
IForum 2016: Никита Семенов. Серьезный подход к серьезным проектам
SECL
 
Сервисы Azure для научных исследований
Microsoft
 
навигатор новые решения в новых условиях
Nick Turunov
 
СКАЛА-Р. Российская конвергентная вычислительная платформа
DEPO Computers
 
Cuda, OpenCL
Boris Kizko
 
С. Перроте (Q Logic) Ускорение работы приложений
Expolink
 
HPC HUB - Virtual Supercomputer on Demand
Vilgelm Bitner
 
Ad

Кластер БГУИР: расширенные возможности

  • 1. Вычислительный кластер БГУИР Кафедра ЭВМ Лаборатория высокопроизводительных вычислений
  • 2. Вычислительный кластер БГУИР Аппаратная платформа Система в сборе: ● Стойка Rack 10 Units ● Кластер вычислительных узлов ● Источник бесперебойного питания
  • 3. Вычислительный кластер БГУИР Характеристики кластера Тип узла Количество Характеристики узла Вычислительный 7 Blade: GPU SuperBlade SBI-7127RG 2 х CPU Intel Xeon E5-2650 32 Gb RAM 2x Tesla M2075 6 Gb RAM InfiniBand 4x QDR (40Gbps) Network 2x Gigabit Ethernet Управляющий 1 Blade: GPU SuperBlade SBI-7127RG 2 х CPU Intel Xeon E5606 24 Gb RAM 2x SSD 80Gb 4x HDD 300Gb InfiniBand 4x QDR (40Gbps) Network 2x Gigabit Ethernet
  • 4. Вычислительный кластер БГУИР Характеристики платформы 1. Intel® Xeon® processor E5-2600 family; QPI up to 8.0 GT/s 2. Intel® C602 Chipset 3. Up to 256GB RDIMM or 64GB UDIMM; 8x DIMM slots 4. Intel® i350 Dual port Gigabit Ethernet 5. 4x QDR (40Gb) InfiniBand or 10GbE mezzanine HCA 6. IPMI 2.0, KVM over IP, Virtual Media 7. 1x SATA DOM up to 64GB 8. Integrated Matrox G200eW Graphics
  • 5. Вычислительный кластер БГУИР CPU Intel Xeon E5-2650 Характеристика Значение Семейство Intel Xeon E5-2600 Микроархитектура Sandy Bridge Запуск в продажу Март 2012 Количество ядер 8 Поток на ядро 2 Часто базовая 2000 МГц Частота турбо 2800 МГц (1 или 2 ядра) 2700 МГц (3 ядра) 2500 МГц (4, 5 или 6 ядер) 2400 МГц (7 или 8 ядер) Кэш L3 20 Мбайт Память 4 канала DDR 3 Инструкции AVX, SSE1-4, EM64T, AES и др. Пиковая производительность (double) ~150 Gflops
  • 6. Вычислительный кластер БГУИР GPU Nvidia Tesla M2075 Характеристика Значение Микроархитектура Fermi Запуск в продажу 2011 Количество ядер 448 Частота ядер 1215 МГц Память 6 Гбайт Пропускная способность памяти 144 Гбайт/с Пиковая производи- тельность (double) ~500 Gflops На каждом узле содержится 2 карты: итого 14 карт Tesla 14шт. x 448ядер x 32нити => 200704 и это параллельно выполняющихся потоков, не считая возможностей псевдопараллельного выполнения каждой картой до 65535 потоков!
  • 7. Вычислительный кластер БГУИР High performance computing (HPC) Первое Первое блюдо (в частности суп) – по некоторым соображениям является очень полезным составляющим обеда. В нашем контексте полезность заключается в максимальной утилизации имеющихся ресурсов.
  • 8. Вычислительный кластер БГУИР HPC-кластер HPC архитектура предполагает превосходство времени вычислений над временем доступа к данным. Поэтому отсутствие ЖД на вычислительных узлах оправдано и широко распространено.
  • 9. Вычислительный кластер БГУИР Программное обеспечение – обновлено ● ОС Alt Linux 7.0 ● TORQUE — менеджер распределенных ресурсов для вычислительных кластеров ● Компилятор gcc ● OpenMP ● OpenMPI ● OpenCL ● Nvidia CUDA Toolkit OpenSUSE 13.2 (SLES 11.4) Обновление версии Обновление версии Обновление версии Обновление версии Обновление версии Обновление версии
  • 10. Вычислительный кластер БГУИР Уровни параллелизма Программы уровня 0 ● OpenMP + MPI + CUDA ● Максимальная загрузка всей вычислительной мощности
  • 11. Вычислительный кластер БГУИР Уровни параллелизма Программы уровня 1 ● Использование мощности CPU или GPU всех узлов ● OpenMP + MPI ● CUDA ● Эффективность применения: 60%
  • 12. Вычислительный кластер БГУИР Уровни параллелизма Программы уровня 2 ● Использование только CPU ● Эффективность применения: 10 – 15%
  • 13. Вычислительный кластер БГУИР Решаемые задачи ● Исследования погодных и климатических явлений ● Биоинформатика ● Вычислительная гидродинамика ● Автоматизированное проектирование и рендеринг ● Deep learnong ● Автоматизация проектирования электронных устройств (EDA) ● Компьютерное зрение, обработка изображений и видео ● Исследование материалов ● Медицинская визуализация ● Молекулярная динамика ● Численный анализ ● Физика ● Квантовая химия ● Структурная механика ● Визуализация и стыковка
  • 14. Вычислительный кластер БГУИР Так же можно принять участие... ...на безвозмездной основе в распределенных вычислениях по следующим темам: ● Астрофизика (Albert@home, Asteroids@home, Cosmology@Home, Einstein@Home) ● Физика (ATLAS@Home) ● Искусство (BURP, Electric Sheep) ● Биохимия (CAS@home) ● Изучение климата (Climate Prediction) ● Математика (Collatz Conjecture) ● Медицина и биология (DENIS@Home) ● Анализ данных и машинное обучение (DistributedDataMining) ● Криптография (Distributed.net) ● Изучение рака (DreamLab) ● Молекулярная биология (Folding@home) … и множество других Полный список: https://en.wikipedia.org/wiki/List_of_distributed_computing_projects
  • 15. Вычислительный кластер БГУИР Infrastructure-as-a-Service (IaaS) Platform-as-a-Service (PaaS) Второе Второе – как например жареная картошечка с котлетой – вещь не самая полезная, но без нее тоже неуютно. Инфраструктура как услуга (IaaS, англ. Infrastructure-as-a-Service) предоставляется как возможность использования облачной инфраструктуры для самостоятельного управления ресурсами обработки, хранения, сетями и другими фундаментальными вычислительными ресурсами Платформа как услуга (PaaS, англ. Platform-as-a-Service) — модель, когда потребителю предоставляется возможность использования облачной инфраструктуры для размещения базового программного обеспечения для последующего размещения на нём новых или существующих приложений
  • 16. Вычислительный кластер БГУИР OpenStack OpenStack — комплекс проектов свободного программного обеспечения, который может быть использован для создания инфраструктурных облачных сервисов и облачных хранилищ.
  • 19. Вычислительный кластер БГУИР BigData Десерт. В нашем случае – это тортик. Вещь приятная на вкус и цвет.
  • 21. Вычислительный кластер БГУИР HDFS HDFS (Hadoop Distributed File System) — файловая система, предназначенная для хранения файлов больших размеров, поблочно распределённых между узлами вычислительного кластера, создана основываясь на концепции GoogleFS
  • 22. Вычислительный кластер БГУИР HDFS и LHPChadoop кластер Монтирование GlusterFS к каждой машине, поверх которых собрана HDFS
  • 23. Вычислительный кластер БГУИР Hadoop MapReduce Основе Hadoop вместе с HDFS находится парадигма MapReduce MapReduce – это модель распределенной обработки данных, предложенная компанией Google для обработки больших объёмов данных на компьютерных кластерах.
  • 24. Вычислительный кластер БГУИР YARN Yet Another Resource Negotiator YARN — «ещё один ресурсный посредник» — модуль, отвечающий за управление ресурсами кластеров и планирование заданий. YARN может быть рассмотрен как кластерная операционная система в том смысле, что ведает интерфейсом между аппаратными ресурсами кластера и широким классом приложений
  • 25. Вычислительный кластер БГУИР Hive Apache Hive – это инфраструктура хранения данных построенная поверх Hadoop (т. е. HDFS+MapReduce) для предоставления возможностей сбора, выборки и анализа информации. HiveQL – SQL-подобный интерфейс доступа к данным хранящимся на HDFS
  • 26. Вычислительный кластер БГУИР Pig ● Pig Latin ● User Defined Functions on Java, Python, JavaScript, Ruby or Groovy ● lazy evaluation ● extract, transform, load (ETL) ● is able to store data at any point during a pipeline ● declares execution plans ● supports pipeline splits, thus allowing workflows to proceed along DAGs instead of strictly sequential pipelines
  • 27. Вычислительный кластер БГУИР Mahout ● Distributed Row Matrix API with R and Matlab like operators ● Similarity Analysis ● Collaborative Filtering ● Classification ● Clustering ● Dimensionality Reduction note ● Frequent itemset mining ● etc. Проект Mahout призван удовлетворить требования разработчиков и дата сайнтистов в выполнении над БигДата машинного обучения. Обработка основывается на парадигме MapReduce, хотя поддерживают и другие мдели.
  • 28. Вычислительный кластер БГУИР Giraph Giraph предназначен для обработки графов используя парадигму MapReduce. Facebook: анализ триллиона ребер графа используя 200 машин за 4 минуты
  • 29. Вычислительный кластер БГУИР HBase ● HBase features compression ● in-memory operation ● Bloom filters on a per-column basis ● Replication across the data center ● Atomic and strongly consistent row-level operations ● Near real time lookups ● cells no larger than 10 MB ● 1 and 3 column families per table ● Time based versions HBase — NoSQL распределённая база данных, является аналогом Google BigTable. Работает поверх распределенной файловой системы HDFS и обеспечивает BigTable-подобные возможности для Hadoop.
  • 30. Вычислительный кластер БГУИР Kafka Apache Kafka — распределённый программный брокер сообщений. ● Масштабируемость ● Репликация ● Высокая пропускная способность источников и подписчиков ● Объединение подписчиков в группы ● Временное хранение для последующей пакетной обработки данных
  • 31. Вычислительный кластер БГУИР Storm Fast ● Fast ● Scalable ● Fault-tolerant ● Reliable ● Easy to operate Apache Storm – распределенная near real-time система обработки поточных данных. Преимущественно MISD архитектура (конвейерная обработка).
  • 33. Вычислительный кластер БГУИР Spark – speed Logistic regression in Hadoop and Spark ● Программный каркас с открытым исходным кодом для реализации распределённой обработки неструктурированных и слабоструктурированных данных. ● Использует специализированные примитивы для рекурентной обработки в оперативной памяти ● Выполнение программ до 100 раз быстрее чем в Hadoop MapReduce в памяти или до 10 раз с использованием диска
  • 34. Вычислительный кластер БГУИР Spark – Ease of Use Word count in Spark's Python API ● Поддерживаются Java, Scala, Python, R. ● Возможность интерактивной обработки с использованием коммандных оболочек языков Scala, Python или R.
  • 35. Вычислительный кластер БГУИР Spark – Speed Streaming, SQL, Graph processing and machine learning Расширяется стеком библиотек включая SQL and DataFrames, MLlib for machine learning, GraphX, and Spark Streaming.
  • 36. Вычислительный кластер БГУИР Spark – speed Access diverse data sources including HDFS, Cassandra, Hbase, S3, Hive, Tachyon, and any Hadoop data source
  • 38. Вычислительный кластер БГУИР Zeppelin Браузерное приложение позволяющее в виде небольших записных книжек интерактивно выполнять анализ и визуализацию данных используя производительность подсистем Hadoop и Spark. Поддерживается написание скриптов подготовки, обработки и визуализации данных на Scala, Hive, SparkSQL, Linux Shell,
  • 40. Вычислительный кластер БГУИР Архитектура проекта анализа трафика кафедра ЭВМ |grep http,GET,POST,CONNECT... Получение трафика с маршрутизатора Фильтрация пакетов Передача в брокер Kafka Поточная обработка Сопряжение с данными из ресурсов университета Постоянное хранилище данных о трафике, расписаниях, списках групп Механизм представления данных пользователю
  • 41. Вычислительный кластер БГУИР Что касается BigData в целом
  • 43. Вычислительный кластер БГУИР Возможности 1. Развитие инфраструктуры кластера в направлении BigData 2. Изучение технологий BigData: Data Computing, Data Sciense 3. Накопление и анализ опыта участия в различных проектах в виде данных

Editor's Notes

  • #2: В данной презентации я хочу подвести не только некоторые итоги работы лаборатории от ее создания до текущего момента, но и вызвать заинтересованность присутствующих здесь коллег к более активному использованию вычислительного кластера в реализации ваших проектов. – первый год: изучение архитектуры и технологий, встречи с представителями организаций, которых могли заинтересовать наши возможности, выяснение и представлений об использовании кластера, и требующихся для этого решений. – второй год: первая половина – изучение технологий BigData и способов использования в предиктивной аналитике; : вторая половина – переустановка ПО и внедрение новых возможностей.
  • #3: Общий вид кластера. По моему субъективному мнению – психологически возможный пункт разочарования потенциально заинтересованных организаций, если их предварительно не подготовить к тому что он не является большим и содержит всего 7 вычислительных модулей (зато каких!). Чаще всего косятся на серверную стойку в надежде услышать, что это тоже часть кластера. Это чисто психологический момент, т.к. у многих небезосновательно сформирован стереотип, что кластер, а тем более суперкомпьютер должен стоять в огромных шкафах на площадях уходящих за горизонт. Поэтому, прежде чем вести кого-либо в кластерную, стоит предварительно предупредить, что на вид это более чем скромная тумбочка.
  • #4: Здесь отдельно стоит отметить отсутствие жестких дисков на вычислительных узлах, что с точки зрения HPC архитектуры не является проблемой, т.к. обычно количество данных не существенно и передача по сети вполне приемлема тем более что...
  • #5: Платформа содержит контроллер Infiniband 40Gbit, при использовании протокола IPv4 (т.н. IPoverIB) скорость снижается до 10Gbit. В прочем, как показали тесты на алгоритме K-means параллельный доступ к данным на ЖД по сети гораздо эффективнее вычитывания данных узлом содержащим ЖД с последующей рассылкой.
  • #7: На каждом узле содержится 2 карты: итого 14 карт Tesla 14 x 448 x 32 => 200704 и это параллельно выполняющихся потоков, не считая возможностей псевдопараллельного выполнения каждой картой до 65535 потоков!
  • #8: Первое блюдо (в частности суп) – по некоторым соображениям является очень полезным составляющим обеда. В нашем контексте полезность заключается в максимальной утилизации имеющихся ресурсов.
  • #9: Первое блюдо (в частности суп) – по некоторым соображениям является очень полезным составляющим обеда. В нашем контексте полезность заключается в максимальной утилизации имеющихся ресурсов.
  • #10: Основной момент на который стоит обратить внимание – это изменение ОС на всем кластере, т. к. многие производители специализированного ПО создают свои продукты ориентируясь на ограниченное количество основных дистрибутивов в число которых AltLinux не входит. А OpenSUSE является бесплатной версией SLES. Перечислить назначение каждого продукта
  • #14: На протяжении более года на кластере периодически выполняются расчеты научными коллективами кафедры «Микро-нано элетроники» по исследованию молекулярных структур. Так же аспиранты Татура М.М. используют разработанную ими имитационную модель в качестве вычислительного ядра для интеллектуальной системы ОСТИС кафедры ИИТ. На кафедре Физики выполняются расчеты по моделированию гравитационных волн, однако пока не удалось добиться стабильной работы вычисляющего модуля системы Mathematica В 2014г. Проходила встреча с одним из участников проекта LIGO, в надежде задействовать кластер в поиске гравитационных волн, анализируя данные с детекторов
  • #15: Можно принять участие …. Трудоемкость написания софта!!!!
  • #16: Второе – как например жареная картошечка с котлетой – вещь не самая полезная, но без нее тоже как-то не то. Так и в ситуации с кластером. Руководству очень хотелось чего-то “облачного” в частности вычислений, и я не вполне уверен, что конкретно их интересовало, и было-ли осознание – для чего. Хотя по сути то что было описано в предыдущем пункте меню соответствует облачному понятию Программное обеспечение как услуга (SaaS, англ. Software-as-a-Service), тем не менее мною было принято решение расшририть доступные возможности. Поэтому имеется инфраструктура IaaS и PaaS.
  • #17: Инфраструктура как услуга (IaaS, англ. Infrastructure-as-a-Service) предоставляется как возможность использования облачной инфраструктуры для самостоятельного управления ресурсами обработки, хранения, сетями и другими фундаментальными вычислительными ресурсами, например, потребитель может устанавливать и запускать произвольное программное обеспечение, которое может включать в себя операционные системы, платформенное и прикладное программное обеспечение. Платформа как услуга (PaaS, англ. Platform-as-a-Service) — модель, когда потребителю предоставляется возможность использования облачной инфраструктуры для размещения базового программного обеспечения для последующего размещения на нём новых или существующих приложений Amazon e2, Microsoft Azure, ElasticHosts...
  • #18: GlusterFS для пространства хранения образов, метаданных, дисков сущностей...
  • #19: Доступ к IaaS сервису осуществляется через веб интерфейс, где ползователь может настраивать параметы инфраструктуры в заданных администратором пределах. Так же можно получить доступ к рабочему столу машины или командной строке. Доступ к PaaS посредством удаленного дотупа по ssh(и т.п) или RemoteDesktop/TeamVewer
  • #20: Ну и десерт – в данном случае – это тортик. Вещь приятная на вкус и цвет. Тут стоит поговорить подробнее... И начать, как и в большинстве тортиков с яйца, как главного компонента.
  • #21: В 2011 году Yahoo выделила подразделение, занимавшееся разработкой и использованием Hadoop, в самостоятельную компанию — Hortonworks. Какраз дистрибутив от Hortonworks и установлен на нашем кластере. На слайде представлен веб интерфейс администратора сервиса Ambari, с помощью которого легко настраивать и переносить сервисы на различные машины, отслеживать состояния всей инфраструктуры кластера и отдельных узлов. Слева список установленных сервисов. О некоторых из них чуть подробнее...
  • #22: Первый и во многом основополагающий элемент кластера BigData – это файловая система. Принципиальное отличие HPC от BigData кластеров состоит в том, что в последнем случае часто время на доступ к данным сопоставимо со временем обработки. Поэтому такие кластеры строятся по принципу максимально близкого хранения данных к узлам обработчикам... Максимальная децентрализация хранения данных необходима также для масштабирования кластеров до масштабов континентов и в целом планеты, а так же восстановления при сбоях оборудования. Поэтому, основываясь на концепции GoogleFS, была создана HDFS (Hadoop Distributed File System) — файловая система, предназначенная для хранения файлов больших размеров, поблочно распределённых между узлами вычислительного кластера. Все блоки в HDFS (кроме последнего блока файла) имеют одинаковый размер, и каждый блок может быть размещён на нескольких узлах, размер блока и коэффициент репликации (количество узлов, на которых должен быть размещён каждый блок) определяются в настройках на уровне файла. Благодаря репликации обеспечивается устойчивость распределённой системы к отказам отдельных узлов. Файлы в HDFS могут быть записаны лишь однажды (модификация не поддерживается), а запись в файл в одно время может вести только один процесс. Организация файлов в пространстве имён — традиционная иерархическая: есть корневой каталог, поддерживается вложение каталогов, в одном каталоге могут располагаться и файлы, и другие каталоги.
  • #23: HDFS является неотъемлемой частью проекта, однако, Hadoop поддерживает работу и с другими распределёнными файловыми системами без использования HDFS, поддержка Amazon S3 и CloudStore[en] реализована в основном дистрибутиве. С другой стороны, HDFS может использоваться не только для запуска MapReduce-заданий, но и как распределённая файловая система общего назначения, в частности, поверх неё реализована распределённая NoSQL-СУБД HBase, в её среде работает масштабируемая система машинного обучения Apache Mahout. Схема организации HDFS и вцелом кластера Hadoop, для нашего бездискового кластера представлена на слайде... - Административный сервер, и сервер сервисов; - GlusterFS и объединение фс; - точки монтирования; - HDFS поверх точек монтирования; - Ethernet и Infiniband.
  • #25: YARN (англ. Yet Another Resource Negotiator — «ещё один ресурсный посредник») — модуль, появившийся с версией 2.0 (2013), отвечающий за управление ресурсами кластеров и планирование заданий. Если в предыдущих выпусках эта функция была интегрирована в модуль MapReduce, где была реализована единым компонентом (JobTracker), то в YARN функционирует логически самостоятельный демон — планировщик ресурсов (ResourceManager), абстрагирующий все вычислительные ресурсы кластера и управляющий их предоставлением приложениям распределённой обработки. Работать под управлением YARN могут как MapReduce-программы, так и любые другие распределённые приложения, поддерживающие соответствующие программные интерфейсы; YARN обеспечивает возможность параллельного выполнения нескольких различных задач в рамках кластера и их изоляцию. YARN может быть рассмотрен как кластерная операционная система в том смысле, что ведает интерфейсом между аппаратными ресурсами кластера и широким классом приложений, использующих его мощности для выполнения вычислительной обработки.
  • #26: Apache Hive – это инфраструктура хранения данных построенная поверх Hadoop (т. е. HDFS+MapReduce) для предоставления возможностей сбора, выборки и анализа информации. Вначале разрабатывался Facebook, теперь же количество участвующих компаний возросло. Среди них Netflix, Amazon, которая внедрила его в свой сервис Amazon Elastic MapReduce на Amazon Web Services. Предоставляет SQL-подобный интерфейс доступа к данным хранящимся на HDFS называемый HiveQL, прозрачно преобразует запросы в задачи MapReduce или некоторые другие варианты. Метаданные при этом хранятся в отдельной базе. Поддерживает Bitmap index данных.
  • #27: Pig – платформа высокого уровня, для создания задач MapReduce в кластере Hadoop. Разработан в Yahoo 2006г. Использует сткриптовый язык под названием Pig Latin, который позволяет абстрагироваться от Java MapReduce используя синтаксис похожий на SQL. Функционал может быть расширен путем вызова пользовательских функций на Java, Python, JavaScript, Ruby or Groov. Поддерживает: Ленивые вычисления; extract, transform, load (ETL) – извлечение, преобразование, загрузка; сохранение данных на любом этапе конвейера обработки; План выполнения запроса; выполнять обработку в виде направленного ациклического графа.
  • #28: Проект Mahout призван удовлетворить требования разработчиков и дата сайнтистов в выполнении над БигДата машинного обучения. Обработка основывается на парадигме MapReduce, хотя поддерживают и другие мдели. Mahout: Распределенная Basic Linear Algebra; Анализ подобия; Collaborative filtering – система рекомендации с учетом поведенческой модели пользователя; снижение размерности; Frequent itemset mining – ассоциативный поиск.
  • #29: Giraph предназначен для обработки графов используя парадигму MapReduce. Giraph: Facebook использовал G с некоторыми оптимизациями для анализа триллиона ребер используя 200 машин за 4 минуты
  • #30: HBase — NoSQL распределённая база данных с открытым исходным кодом; написана на Java; является аналогом Google BigTable. Работает поверх распределенной файловой системы HDFS и обеспечивает BigTable-подобные возможности для Hadoop, то есть обеспечивает отказоустойчивый способ хранения больших объёмов разреженных данных. Facebook использует её для своей платформы сообщений. Позволяет выполнять компрессию данных, Выполняет операции в памяти, поддержка Фильтра Блума, Репликация данных, Атомарность и строгая консистентность операций, близкий к реалтайм поиск CAP – consistency, availability, partition tolerance
  • #31: Apache Kafka — распределённый программный брокер сообщений. Изначально разработан компанией LinkedIn спроектирован изначально как распределённая система, которую легко масштабировать, поддерживает репликацию данных в кластере. поддерживает высокую пропускную способность как со стороны источников, так и для систем-подписчиков, поддерживает объединение подписчиков в группы, обеспечивает возможность временного хранения данных для последующей пакетной обработки.
  • #32: Apache Storm – распределенная real-time система обработки больших объемов «быстрых» данных. Разрабатывался изначально Twitter Можно охарактеризовать как преимущественно MISD архитектуру, т. е. Конвейерный обработчик большого потока данных. Fast – обработка одного миллиона 100 байтных сообщений в сек. В бенчмарк-тестах Scalable – масштабирование обработки в пределах кластера Fault-tolerant – автоматический перезапуск упавших обработчиков, в т.ч. перенос на другой узел Reliable – гарантирует, что каждый юнит данных будет обработан однажды или всего один раз. Easy to operate – прост в настройке и использовании
  • #34: Программный каркас с открытым исходным кодом для реализации распределённой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop. В отличие от классического обработчика из ядра Hadoop, реализующего двухуровневую концепцию MapReduce с дисковым хранилищем, использует специализированные примитивы для рекурентной обработки в оперативной памяти, благодаря чему позволяет получать значительный выигрыш в скорости работы для некоторых классов задач, в частности, возможность многократного доступа к загруженным в память пользовательским данным делает библиотеку привлекательной для алгоритмов машинного обучения. Выполнение программ до 100 раз быстрее чем в Hadoop MapReduce в памяти или до 10 раз с использованием диска
  • #35: Поддерживаются Java, Scala, Python, R. Реализуются более 80 высокоуровневых операций, среди которых так же нашли све мето Map и Reduce, для создания параллельных приложений. Очень удобно выполнять обрабоку интерактивно из интерактивных коммандных оболочек языков Scala, Python или R.
  • #36: Расширяется стеком библиотек включая SQL and DataFrames, MLlib for machine learning, GraphX, and Spark Streaming. Позволяет комбинировать эти библиотеки в одном приложении. Про Spark Streaming стоит добавить, что как и Storm, можно реализовывать MISD приложения, однако более эффективен для SIMD
  • #37: Программный каркас с открытым исходным кодом для реализации распределённой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop. В отличие от классического обработчика из ядра Hadoop, реализующего двухуровневую концепцию MapReduce с дисковым хранилищем, использует специализированные примитивы для рекурентной обработки в оперативной памяти, благодаря чему позволяет получать значительный выигрыш в скорости работы для некоторых классов задач, в частности, возможность многократного доступа к загруженным в память пользовательским данным делает библиотеку привлекательной для алгоритмов машинного обучения. Выполнение программ до 100 раз быстрее чем в Hadoop MapReduce в памяти или до 10 раз с использованием диска
  • #39: Z – Броузерное приложение позволяющее в виде небольших записных книжек интерактивно выполнять анализ и визуализацию данных используя производительность подсистем Hadoop и Spark. Множество готовых записных книжек содержат примеры применения. Поддерживается написание скриптов подготовки, обработки и визуализации данных на Scala, Hive, SparkSQL, Linux Shell, iPython. Соответсвенно и поддержка множества источников данных от локальных файлов на диске, HDFS, NFS до облачных хранилищ S3, Twitter и т.д.
  • #42: Это не самый полный список ПО и систем так или иначе реализующих BD. Это значит что данная тема вызывает все больший интерес у корпоративных потребителей. Хотя они часто не очень ориентируются в их необходимости и примененние, но это «модно, стильно, молодежно» Есть еще один слайд во многом характеризующий картину
  • #43: Эта тема вызывает много энтузиазма Дан Эрейли СберБанк России HP
  • #44: “Кого уж нет, а те далече”. Это о наших сотрудниках. Вполне естественно, когда с уходящим сотрудником уходит и его опыт. Я же предлагаю собирать опыт. Ведь одно из применений BigData – это накопление и использование опыта. Под этим я имею ввиду опытные данные дипломных проектов, диссертаций, научных проектов и и т.д. В том числе и какие-то промежуточные данные, как например выделенные из сырых данных признаки, по которым потом идет аналитика. Ведь не редка ситуация когда у студента стоит задача анализа, а он вынужден заниматься изобретением велосипеда, вычлиняя отдельные признаки. Тут есть еще один аспект: возможность давать задания по расширению или уточнению наменклатуры признаков, или получение похожих или лучших результатов в стравнении с существующими опциями. Это ведь общемировая университетская практи – создание своих баз данных, которые потом хорошо продаются.