SlideShare a Scribd company logo
allegro.tech + Data Science Warsaw
8 marca 2016
Ile informacji jest w danych ?
Paweł Klimczewski
pawel.klimczewski@softstat.pl
Ile informacji jest w danych ?
• Uczenie bez nadzoru – problemy klasyfikacji wynikające z
nieobiektywnego skalowania zmiennych
• Julia Language – imponujące środowisko dla Big Data, proste jak
Matlab i szybkie jak C. Za darmo!
• Rozwiązywanie problemów nierozwiązywalnych – metody
genetyczne w poszukiwaniu prawdy
• Wielkie niebezpieczeństwa, jak bardzo komputery nie potrafią
liczyć i jak poważne błędy generują
• Praktyczne możliwość i optymalizacji przekazu, e-mailing, display,
automatyczny dobór kontentu
Informacja (łac. informatio – przedstawienie, wizerunek; informare –
kształtować, przedstawiać)
Jakie informacje ? O czym ?
Na rynku mediów dane zawierają
informację o ludziach !
(najczęściej)
Ile informacji jest w danych ? 2
• Baza danych jako opis przestrzeni zdarzeń
• Miary podobieństwa w ujęciu geometrycznym
– Nie znamy rzeczywistych skal mierzonych zmiennych
– Nie znamy rzeczywistych funkcji pomiędzy zmiennymi
• Skala ilorazowa daje możliwość budowania przestrzeni
• Zmienne nominalne/porządkowe -> zmienne 0/1
• Alfa Cronbacha
Arytmetyka vs algebra liniowa
C=(D'*D)/n.-(E(D,1)'*E(D,1))
Algebra liniowa
Algebra liniowa – dział algebry zajmujący się
badaniem przestrzeni liniowych oraz ich
homomorfizmów, tj. przekształceń liniowych.
Algebra liniowa skupia się głównie na badaniu
przestrzeni skończenie wymiarowych nad ciałami
lub ogólniej, pierścieniami. Do algebry liniowej
można zaliczyć także teorię form kwadratowych,
macierzy, przekształceń półtora- i wieloliniowych.
Dziedzina ta wyrosła w sposób naturalny na
gruncie badania układów równań liniowych.
pl.wikipedia.org
Uczenie bez nadzoru
• Uczenie maszynowe, które zakłada brak obecności ludzkiego
nadzoru nad tworzeniem funkcji odwzorowującej wejście systemu
na jego wyjście. pl.wikipedia.org
• Miary podobieństwa, przestrzenie euklidesowe i inne
• Anomalie w przestrzeni zdarzeń jako atrakcyjne cele
• Problemy klasyfikacji wynikające z nieobiektywnego skalowania
zmiennych
1. Liniowe skalowanie zależności nieliniowych, np. „dochody”
2. Braki danych jako 0
3. Błędy maszynowe
Metody genetyczne. Czy raczej brak
metody ?
• Założenie 1: Znamy kryterium
• Robiąc bardzo dużo różnych losowych kombinacji
odrzucamy najgorsze rozwiązania
• Selekcja jako metoda na wzór hipotezy doboru
naturalnego zakładającego ślepą zmianę puli
genów(cech)
• Nigdy nie wiemy czy poruszamy się w pobliżu
maksimum lokalnego czy prawdziwego
Julia Language
Julia Language 2
Julia Language 3
Julia Language 4
Wielkie niebezpieczeństwa:
przykład błędów numerycznych
• x^4 - 4*x^3 + 6*x^2 - 4*x + 1
https://sage.icse.us.edu.pl/home/pub/205/
Silnik rekomendacji - idea
• Na podstawie wcześniejszych zachowań
użytkowników znaleźć model predykcyjny dla
dowolnej kampanii
• Silnik reaguje (uczy się ) reakcji pierwszych
odbiorców nowej kampanii przypisując
pozostałym prawdopodobieństwa sukcesu
• Od tego momentu (po nauczeniu) kampanie
kierujemy do adresatów w kolejności jaką
nakazuje ranking prowdopodobieństw
Schemat
Historia
zachowań
Silnik
Kampania
testowa/pilotażowa
Np. 1 % celowej
REAKCJA
Tablica prawdopodobieństw
(RANKING UŻYTKOWNIKÓW)
System może pracować
w pętli sprzężenia
zwrotnego .
Nadchodzące wyniki
mogą stale, dynamicznie
doskonalić model.
Praktyczne możliwość optymalizacji
Wyniki kolejnych
iteracji/modeli
Wysłane
Otwarte,
Kliknięte,
Itp.
Proces uczenia na losowej próbce
Kampania tradycyjna
Kampania optymalizowana
Kliknięcia
Wysłanych
!
? ? ?
Wynik uczenia nie
przesądza o ostatecznym
sukcesie ale go bardzo
przybliża.
Wysłanych
CTR
Kampania tradycyjna
Kampania optymalizowana
Arbitralna decyzja odcięcia
O firmie
Doświadczenie i precyzja to podstawa sukcesu
• SOFT STAT to całe moje wszechstronne doświadczenie. Od ponad 20 lat z
powodzeniem zajmuję się profesjonalnie największymi w Polsce i na
świecie badaniami rynku, w tym szczególnie badaniami mediów.
Przygotowuję również oprogramowanie statystyczne i raportujące oraz
aplikacje optymalizujące złożone zadania na dużych zbiorach danych.
Paweł Klimczewski
+ 48 503 505 257
19

More Related Content

PDF
Azure - Duże zbiory w chmurze
PDF
Metody logiczne w analizie danych
PDF
As simple as Apache Spark
PDF
DOCX
Trash Talk
PPT
Fotos histologia.laser 1470 ppt
Azure - Duże zbiory w chmurze
Metody logiczne w analizie danych
As simple as Apache Spark
Trash Talk
Fotos histologia.laser 1470 ppt

Viewers also liked (17)

PDF
Gost r 53506 2009
PPT
Area reduction in superficial venous insuffiency treatment
PPTX
Que datos realmente le interesan y son esenciales para el cirujano vascular.
PDF
Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!
PDF
Data science w ubezpieczeniach
PPTX
معرفی گروه شرکت‌های عصر ارتباطات مشرق زمین
PDF
Rozwiązywanie problemów optymalizacyjnych
PPTX
Asre ertebatate mashregh zamin
PDF
PPTX
ARTRITIS – ENCEFALITIS CAPRINA
DOC
Inspection Activity
PDF
Wizualne budowanie aplikacji na Sparku przy pomocy narzędzia Seahorse
PDF
Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...
PDF
To się w ram ie nie zmieści
PDF
CRISP-DM Agile Approach to Data Mining Projects
PPTX
ENFERMEDADES VESICULARES
PDF
Otwarte Miasta
Gost r 53506 2009
Area reduction in superficial venous insuffiency treatment
Que datos realmente le interesan y son esenciales para el cirujano vascular.
Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!
Data science w ubezpieczeniach
معرفی گروه شرکت‌های عصر ارتباطات مشرق زمین
Rozwiązywanie problemów optymalizacyjnych
Asre ertebatate mashregh zamin
ARTRITIS – ENCEFALITIS CAPRINA
Inspection Activity
Wizualne budowanie aplikacji na Sparku przy pomocy narzędzia Seahorse
Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...
To się w ram ie nie zmieści
CRISP-DM Agile Approach to Data Mining Projects
ENFERMEDADES VESICULARES
Otwarte Miasta
Ad

Similar to Ile informacji jest w danych? (8)

PDF
Data science - o co chodzi?
PDF
To co powinniście wiedzieć o Machine Learning
PPTX
Kryminalistyczne apskety wykorzystania technologii data mining w walce z cybe...
PDF
Machine learning and Big Data (lecture in Polish)
PPT
Blok II_Podgrupa II_prezentacja_syntetyczna
PPTX
Social media marketing w bibliotece (cyfrowej)
PPT
Sektor3.0 Bariery: Jak sobie radzić z brakiem kompetencji?
PPT
Blok II_PodgrupaII_prezentacja_syntetyczna
Data science - o co chodzi?
To co powinniście wiedzieć o Machine Learning
Kryminalistyczne apskety wykorzystania technologii data mining w walce z cybe...
Machine learning and Big Data (lecture in Polish)
Blok II_Podgrupa II_prezentacja_syntetyczna
Social media marketing w bibliotece (cyfrowej)
Sektor3.0 Bariery: Jak sobie radzić z brakiem kompetencji?
Blok II_PodgrupaII_prezentacja_syntetyczna
Ad

More from Data Science Warsaw (10)

PDF
Online content popularity prediction
PDF
Analiza języka naturalnego
PDF
How to build your own google
PDF
Data Science Warsaw
PDF
Big Data, Wearable, sztuczna inteligencja i ekonomia współpracy
PDF
Ask Data Anything
PDF
Oracle Big Data Discovery - ludzka twarz Hadoop'a
PDF
Data Exchange - the missing link in the big data value chain
PDF
Małe dane, duży wpływ - Dominik Batorski ICM
PDF
Data science warsaw inaugural meetup
Online content popularity prediction
Analiza języka naturalnego
How to build your own google
Data Science Warsaw
Big Data, Wearable, sztuczna inteligencja i ekonomia współpracy
Ask Data Anything
Oracle Big Data Discovery - ludzka twarz Hadoop'a
Data Exchange - the missing link in the big data value chain
Małe dane, duży wpływ - Dominik Batorski ICM
Data science warsaw inaugural meetup

Ile informacji jest w danych?

  • 1. allegro.tech + Data Science Warsaw 8 marca 2016 Ile informacji jest w danych ? Paweł Klimczewski [email protected]
  • 2. Ile informacji jest w danych ? • Uczenie bez nadzoru – problemy klasyfikacji wynikające z nieobiektywnego skalowania zmiennych • Julia Language – imponujące środowisko dla Big Data, proste jak Matlab i szybkie jak C. Za darmo! • Rozwiązywanie problemów nierozwiązywalnych – metody genetyczne w poszukiwaniu prawdy • Wielkie niebezpieczeństwa, jak bardzo komputery nie potrafią liczyć i jak poważne błędy generują • Praktyczne możliwość i optymalizacji przekazu, e-mailing, display, automatyczny dobór kontentu Informacja (łac. informatio – przedstawienie, wizerunek; informare – kształtować, przedstawiać)
  • 3. Jakie informacje ? O czym ? Na rynku mediów dane zawierają informację o ludziach ! (najczęściej)
  • 4. Ile informacji jest w danych ? 2 • Baza danych jako opis przestrzeni zdarzeń • Miary podobieństwa w ujęciu geometrycznym – Nie znamy rzeczywistych skal mierzonych zmiennych – Nie znamy rzeczywistych funkcji pomiędzy zmiennymi • Skala ilorazowa daje możliwość budowania przestrzeni • Zmienne nominalne/porządkowe -> zmienne 0/1 • Alfa Cronbacha
  • 5. Arytmetyka vs algebra liniowa C=(D'*D)/n.-(E(D,1)'*E(D,1))
  • 6. Algebra liniowa Algebra liniowa – dział algebry zajmujący się badaniem przestrzeni liniowych oraz ich homomorfizmów, tj. przekształceń liniowych. Algebra liniowa skupia się głównie na badaniu przestrzeni skończenie wymiarowych nad ciałami lub ogólniej, pierścieniami. Do algebry liniowej można zaliczyć także teorię form kwadratowych, macierzy, przekształceń półtora- i wieloliniowych. Dziedzina ta wyrosła w sposób naturalny na gruncie badania układów równań liniowych. pl.wikipedia.org
  • 7. Uczenie bez nadzoru • Uczenie maszynowe, które zakłada brak obecności ludzkiego nadzoru nad tworzeniem funkcji odwzorowującej wejście systemu na jego wyjście. pl.wikipedia.org • Miary podobieństwa, przestrzenie euklidesowe i inne • Anomalie w przestrzeni zdarzeń jako atrakcyjne cele • Problemy klasyfikacji wynikające z nieobiektywnego skalowania zmiennych 1. Liniowe skalowanie zależności nieliniowych, np. „dochody” 2. Braki danych jako 0 3. Błędy maszynowe
  • 8. Metody genetyczne. Czy raczej brak metody ? • Założenie 1: Znamy kryterium • Robiąc bardzo dużo różnych losowych kombinacji odrzucamy najgorsze rozwiązania • Selekcja jako metoda na wzór hipotezy doboru naturalnego zakładającego ślepą zmianę puli genów(cech) • Nigdy nie wiemy czy poruszamy się w pobliżu maksimum lokalnego czy prawdziwego
  • 13. Wielkie niebezpieczeństwa: przykład błędów numerycznych • x^4 - 4*x^3 + 6*x^2 - 4*x + 1 https://sage.icse.us.edu.pl/home/pub/205/
  • 14. Silnik rekomendacji - idea • Na podstawie wcześniejszych zachowań użytkowników znaleźć model predykcyjny dla dowolnej kampanii • Silnik reaguje (uczy się ) reakcji pierwszych odbiorców nowej kampanii przypisując pozostałym prawdopodobieństwa sukcesu • Od tego momentu (po nauczeniu) kampanie kierujemy do adresatów w kolejności jaką nakazuje ranking prowdopodobieństw
  • 15. Schemat Historia zachowań Silnik Kampania testowa/pilotażowa Np. 1 % celowej REAKCJA Tablica prawdopodobieństw (RANKING UŻYTKOWNIKÓW) System może pracować w pętli sprzężenia zwrotnego . Nadchodzące wyniki mogą stale, dynamicznie doskonalić model.
  • 16. Praktyczne możliwość optymalizacji Wyniki kolejnych iteracji/modeli Wysłane Otwarte, Kliknięte, Itp.
  • 17. Proces uczenia na losowej próbce Kampania tradycyjna Kampania optymalizowana Kliknięcia Wysłanych ! ? ? ? Wynik uczenia nie przesądza o ostatecznym sukcesie ale go bardzo przybliża.
  • 19. O firmie Doświadczenie i precyzja to podstawa sukcesu • SOFT STAT to całe moje wszechstronne doświadczenie. Od ponad 20 lat z powodzeniem zajmuję się profesjonalnie największymi w Polsce i na świecie badaniami rynku, w tym szczególnie badaniami mediów. Przygotowuję również oprogramowanie statystyczne i raportujące oraz aplikacje optymalizujące złożone zadania na dużych zbiorach danych. Paweł Klimczewski + 48 503 505 257 19