See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/338983519
Analisis Sentimen Maskapai Citilink Pada Twitter Dengan Metode Naïve Bayes
Article · October 2019
DOI: 10.33884/jif.v7i02.1329
CITATIONS READS
0 32
1 author:
Lukman Junaedi
Universitas Narotama
9 PUBLICATIONS 1 CITATION
SEE PROFILE
All content following this page was uploaded by Lukman Junaedi on 02 February 2020.
The user has requested enhancement of the downloaded file.
Analisis Sentimen Maskapai Citilink Pada Twitter Dengan Metode Naïve Bayes
Moh.Yasid a , Lukman Junaedi b
a
Program Studi Teknik Informatika Universitas Narotama, Jl. Arief Rachman Hakim No.51, Surabaya, 60117, Indonesia
b
Akademi Sistem Informasi, Universitas Narotama, Jl. Arief Rachman Hakim No.51, Surabaya, 60117, Indonesia
INFORMASI ARTIKEL A B S T R A C T
The use of airline transportation is no longer a new thing for the community, ranging
Sejarah Artikel:
from business people, families going on vacation, even to the reach of the middle class.
Diterima Redaksi: 16 Agustus 2019
This transportation is really needed by the community to be able to travel long distances
Revisi Akhir: 09 September 2019
with a relatively shorter period of time. One of them is Citilink, Citilink is a subsidiary
Diterbitkan Online: 30 September 2019
airline of the Garuda Indonesia company with ticket prices that can be reached by the
middle class and below. Assessment of Citilink airlines can be seen through any promos
KATA KUNCI that are most promoted to the public. The good and bad services of Citilink Airlines as
an evaluation for people who want to use these services, can also be seen from the tweet
Analisis of the people on Twitter social media. Therefore many researchers use social media as
Sentimen a place to collect data. This research aims to classify or group positive or negative
Maskapai sentiments of the community towards Citilink airline services in order to provide
Citilink information about public satisfaction with Citilink Indonesia airline services, with a
Naïve Bayes dataset of 2000 tweets resulting in accuracy reaching 0.778, with a processing time of
two minutes twenty three seconds.
KORESPONDENSI
No HP: +6281334052655
E-mail: [email protected]
atau komentar di media sosial twitter tersebut dapat dipakai pula
1. PENDAHULUAN sebagai data penelitian analisis sentimen untuk mngelopokan
atau mengklasifikasi sentimen positif atau negatif.[1]
Berkembangnya industri jasa penerbangan yang semakin Analisis sentimen adalah suatu proses pengolahan kata
meningkat di Indonesia pada setiap tahunnya telah menjadi untuk mengelompokan atau mengklasifikasi pendapat,
perhatian masyarakat luas. Maskapai penerbangan yakni suatu penilaian, seseorang terkait kreasi, organisasi, atau aktivitas
perusahaan atau sarana transportasi di butuhkan banyak tertentu.[2] Penelitian kali ini menggunakan Naïve Bayes
masyarakat agar dapat bepergian jauh dengan jangka waktu bertujuan melakukan klasifikasi atau pengelompokan sentimen
yang relatif lebih singkat. Salah satunya adalah Citilink, citilink positif atau negatif masyarakat terhadap layanan maskapai
merupakan maskapai penerbangan anak dari perusahaan Garuda penerbangan Citilink berbahasa Indonesia agar bisa memberikan
Indonesia dengan harga tiket yang dapat dijangkau manyarakat informasi tentang kepuasan masyarakat terhadap layanan jasa
menengah kebawah. Penilain terhadap maskapai penerbangan maskapai penerbangan Citilink Indonesia.
Citilink bisa di lihat melalui promo-promo apa saja yang paling
banyak di promosikan kepada masyarakat, namun banyak juga
masyarakat memberikan penilaian melalui pendapat atau 2. TINJAUAN PUSTAKA
komentar yang dikemukakan di media sosial Twitter. Twitter
merupakan satu dari banyak medial sosial yang diminati banyak Analisis sentimen atau opinion mining yakni proses
masyarakat. Pendapat tersebut berupa tweet yang nantinya bisa memahami, mengekstrak dan mengolah data tekstual untuk
tersebar di timeline Twitter. memperoleh informasi yang terdapat dalam suatu kalimat
Banyaknya pengguna Twitter memberikan pengaruh pendapat atau opini.[3], [4]. Analisis sentimen dilakukan untuk
besar bagi masyarakat dalam memberikan penilaian berupa melihat pendapat atau kecendrungan opini terhadap suatu
pendapat atau komentar terhadap jasa maskapai penerbangan masalah atau objek oleh seseorang, apakah cenderung punya
Citilink karena perkembangan pengguna Twitter yang semakin pemikiran atau beropini positif atau negatif.
meningkat setiap tahunnya. Hal ini di kemukakan oleh Dick
Costolo, CEO Twitter, ketika melaksanakan kunjungan di Data mining adalah suatu proses untuk mengolah data
Indonesia dengan jumlah pengguna sudah mencapai 50 juta di mentah menjadi informasi yang bermanfaat. Saat ini data mining
Indonesia, menurut situs tekno.kompas.com (2015). Pendapat dipakai hampir pada semua aspek yang melibatkan data-data
Moh.Yasid Analisis Sentimen Makapai Citilink
JURNAL I LMIAH INFORMATIKA - VOL. 07 NO. 02 (2019) | ISSN (Print) 2337-8379 | ISSN (Online) 2615-1049
digital.[5] Hal ini yang kemudian menimbulkan kekhawatiran
terkait keamanan dan etika di dalam pelaksanaannya, karena Naive Bayes (Naive Bayes Classifier) adalah algoritma
istilah data mining sendiri dapat di artikan penggalian data, dan yang sangat efektif dalam permasalahan klasifikasi atau
sering juga dikaitkan dengan penggalian data terkait perilaku penggolongan. Algroitma ini bekerja berdasarkan probabilitas
manusia. Berikut sedikit gamabaran tentang tahapan pada data yang sudah ada untuk menentukan probabilitas yang akan
mining. datang. Meskipun dataset yang digunakan ada jutaan jumlahnya,
Naive Bayes adalah pendekatan yang dianjurkan untuk
digunakan. Untuk memahami lebih jauh tentang Naive Bayes
maka perlu terlebih dahulu memahami dalil Bayes. Dalil Bayes
dinamakan sesuai dengan nama penemunya Rev. Thomas
Bayes. [10] Algoritma ini bekerja berdasarkan probabilitas
bersyarat, yaitu probabilitas yang menjelaskan tentang sesuatu
akan terjadi berdasarkan peristiwa yang telah terjadi
sebelumnya.
Bayes merupakan teknik prediksi berbasis probabilistik
sederhana yang berdasar pada penerapan teorema Bayes dengan
asumsi independensi (ketidak tergantungan) yang kuat atau
naïf.[11]
Metode Bayesian classification digunakan menganalisis
dalam membantu tercapainya pengambilan keputusan terbaik
suatu permasalahan dari sejumlah alternatif. Kaitan antara Naïve
Bayes dengan klasifikasi, korelasi hipotesis, dan bukti dengan
klasifikasi adalah hipotesis dalam teorema Bayes merupakan
label kelas yang menjadi target pemetaan dalam klasifikasi,
sedangkan bukti merupakan fitur fitur yang menjadi masukan
dalam model klasifikasi.[6]
Gambar 1. Tahapan Data Mining
Data Mining yakni tahapan yang memakai ilmu
3. METODOLOGI
matematika, ilmu statistika serta kecerdasan buatan atau
machine learning untuk melakukan ekstrasi data serta
melakukan pengidentifikasian terhadap informasi yang
terkandung dalam data yang diolah. Dalam data mining terdapat
beberapa istilah yang biasa digunakan seperti KDD (Knowledge
discovery in data base), analisa bentuk data atau (Data
Analysis), ekstraksi pemahaman (Knowledge Extraction),
Kecerdasan bisnis (Business Intellegence), data archeology,
data dregging.[6]
Text Mining adalah salah satu proses yang bisa dipakai
untuk mengerjakan klasifikasi dokumen yang berusaha untuk
menemukan bentuk yang menarik dari sekumpulan data yang
terkumpul.[7]
Text mining merupakan bagian dari data mining dimana
proses yang dilakukan utamanya adalah mengerjakan ekstraksi
pengetahuan dan informasi dari pola-pola yang terdapat dalam
sekumpulan dokumen teks memakai alat analisis tertentu. [8]
Text Mining yakni analisis kata, data diperoleh dari dokumen
yang bermaksud untuk mencari kata yang dapat mengantikan
dari dokumen kata-kata yang lain.[5], [9].
Twitter adalah salah satu layanan media sosial yang cukup
terkenal dan memungkinkan para penggunanya untuk menulis
Gambar 2. Diagram Alur Penelitian
status yang sering dinamakan kicauan atau tweet. Media sosial
Twitter digunakan untuk mengungkapkan berbagai pendapat Diatas adalah tahapan-tahapan untuk menggambarkan
atau opini akan suatu produk, layanan atau hal lainnya. proses klasifikasi dari awal sampai akhir dengan menggunakan
Twitter diciptakan oleh Jack Dorsey di tahun 2006 dan metode Neive Bayes. Keluaran dari penelitian ini merupakan
pertama meluncur di dunia maya saat Juli 2006 dengan alamat data klasifikasi berupa pendapat positif atau negatif dan
http://www.Twitter.com yang masih digunakan hingga saat ini. besarnya akurasi yang akan diperoleh dari metode Naïve bayes.
Pengguna dapat menulis pesan berdasarkan topik dengan Penelitia diawali dari proses memasukkan (input) data tweet
menggunakan tanda #(hashtag). Sedangkan untuk menyebutkan hasil crawling. Dokumen hasil crawling akan diklasifikasi
atau membalas pesan dari pengguna lain bisa menggunakan manual dengan memberikan identitas (label) positif atau negatif
tanda @. pada dataset, dan evaluasi sebagai tahap akhir.
Moh.Yasid Analisis Sentimen Makapai Citilink 83
JURNAL I LMIAH INFORMATIKA - VOL. 07 NO. 02 (2019) | ISSN (Print) 2337-8379 | ISSN (Online) 2615-1049
Case Folding
Tahap case folding merupakan proses penyamaan
4. HASIL DAN PEMBAHASAN
huruf pada dokumen tweet dengan mengubah huruf kapital jadi
huruf kecil, supaya merenggangkan kata berlebih-lebihan
Pengumpulan Dataset dikerenakan perbedadaan huruf, dan akan menghasilkan
Data didapatkan dari hasil proses Crawling data tweet. dokumen tweet baru. Berikut contoh tweet yang dihasilkan dari
Crawling merupakan proses pengumpulan data dari media sosial tahap case folding bisa dilihat pada tabel 2.
twitter dengan melakukan pencarian melalui suatu kata kunci
(keywords) tertentu. Pada proses crawling ini menggunakan Table 2.Tahap Case Folding
library twitter scrapper dengan kata kunci @citilink, citilink. Input Output
Data akan diklasifikasi secara manual dengan memberikan label @Citilink #Terima kasih @citilink #terima kasih
positif atau negatif. Klasifikasi label positif dan negatif pada Citilink atas pelayanan citilink atas pelayanan prima
dataset dilakukan secara manual dengan bantuan kata-kata besar prima merubah last min merubah last min tiket mudik
(big og words) sebagai kamus, yang akan dijadikan input pada tiket mudik kt krn wafatnya kt krn wafatnya ayah kami td
penelitian ini. Berikut contoh dokumen input terdapat pada ayah kami td mlm.Semoga mlm.Semoga makin sukses
tabel1. makin sukses
Table 1. Contoh Dokumen Input
Opini Tweet Cleansing
Positive @Citilink #Terima kasih Citilink Tahap cleansing adalah proses yang bertujuan untuk
atas pelayanan prima merubah last menghilangkan tweet dari kata yang kurang dibutukan seperti
min tiket mudik kt krn wafatnya simbol HTML, kata kunci, hastags(#), username, email dan
ayah kami td mlm.Semoga makin simbol (!@#%<>[]=;:”,’&^$*+_-/?), yang akan menghasilkan
sukses dokumen tweet baru. Berikut contoh dokumen tweet yang
menjadi keluaran dari tahap cleansing bisa dilihat pada tabel 3.
Negative @Citilink pramugari tidak ramah,
hanya berdiri saja tidak membantu Table 3. Tahap Cleansing
penumpang Input Output
@Citilink #Terima kasih terima kasih Citilink atas
Citilink atas pelayanan pelayanan prima merubah
prima merubah last min last min tiket mudik kt krn
tiket mudik kt krn wafatnya wafatnya ayah kami td
ayah kami td mlm.Semoga mlm.Semoga makin sukses
makin sukses,’.
Convert Negation
Proses convert negation bertujuan untuk transformasi
kata negasi yang tergabung dalam tweet. Kata tersebut akan
mengganti arti suatu sentimen pada tweet tersebut, kata negasi
akan tergabung dengan kata setelahnya. Contoh kata negasi
’tidak’, banyak lagi kata negasi yang akan menghasilkan
dokumen tweet baru. . Berikut contoh tweet yang dihasilkan dari
tahap convert negation terdapat pada tabel 4.
Table 4. Tahap Convert Negation
Input Output
citilink pramugari tidak citilink pramugari
ramah, hanya berdiri saja tidakramah, hanya berdiri
tidak membantu saja tidak membantu
Gambar 3. Tahapan Prepocessing penumpang penumpang
Diatas adalah gambaran alur tahap-tahap dari proses
preprocessing. Berikut penjelasan pada setiap tahap-tahap diatas
: Stopword Removal
Stopword Removal, yakni teknik yang bertujuan
untuk menghapus kata didalam dokumen dataset, kata tersebut
seperti “di”, “ke”, “dari”, “yang”, “sedang”, “ini”, karena
84 Moh.Yasid Analisis Sentimen Makapai Citilink
JURNAL I LMIAH INFORMATIKA - VOL. 07 NO. 02 (2019) | ISSN (Print) 2337-8379 | ISSN (Online) 2615-1049
dianggap tidak memberikan deskripsi sesuatu dalam bahasa Evaluasi
Indonesi. Tapi pada teks klasifikasi kata semacam “tidak”,
Evaluasi bertujuan untuk mengecek kebenaran hasil
“bukan”, “tanpa” kurang penting sehingga kata tersebut tidak
klasifikasi dengan menghitung berapa angka yang diperoleh.
ikut dibuang. Berikut contoh hasil tahap stopword removal
Acuan yang dipakai untuk tahap evaluasi yakni perhitungan
terdapat pada tabel 5.
tabel matriks klasifikasi (confussion matrix). Berikut tabel
perhitungan confussion matrix bisa dilihat pada tabel 7.
Table 5. Tahap Stopword Removal
Input Output
citilink terima kasih Citilink terima kasih Table 7. Confussion Matrix
True Class
Citilink atas pelayanan pelayanan prima merubah
Positive Negative
prima merubah last min last min tiket mudik kt
tiket mudik kt krn wafatnya wafatnya ayah kami mlm Positif TP(True FP(False
ayah kami td mlm.Semoga Semoga sukses Positif) Positive)
Kelas
makin sukses Terprediksi Negatif FN(False TN(True
Negative) Negative)
Klasifikasi Naïve Bayes Dari dokumen tweet sebanyak 2000 yang telah
Pada penelitian klasifikasi dengan metode Naïve Bayes disebutkan diatas, menghasilkan perhitugan confussion matrix
diperlukan nilai (bobot) pada setiap kata dalam dokumen dataset sebagi berikut.
yang akan diproses. Nilai (bobot) diperoleh dengan menghitung
peluang (probabilitas) positif atau negatif terhadap kata dalam
setiap dokumen dataset.
Penghitungan peluang (probabilitas) positif bertujuan
untuk menghitung nilai (bobot ) pada tiap kata dalam dokumen
dataset. Data yang diperlukan dalam penghitungan ini berupa
banyaknya kata berkategori positif, kemunculan tiap kata dalam
dokumen yang berkategori positif, dan total keseluruhan kata.
Nilai tersebut nantinya akan dipakai pada klasifikasi naïve Gambar 4. Penghiungan Confussion Matrix
bayes, akan berpengaruh dalam menentukan besarnya akurasi
Dari hasil perhitungan confussion matrix diatas, dimana
yang menjadi parameter kebenaran pada penelitian ini.
data tweet sudah terklasifikasi, akan dihitung untuk melihat
Penghitungan peluang (probabilitas) negatif bertujuan
akurasi yang akan didapat sebagai acuan dari kebenaran
untuk menghitung nilai (bobot ) pada tiap kata dalam dokumen
klasifikasi pada penelitian ini. Berikut hasil perhitungan
dataset. Data yang diperlukan dalam penghitungan ini berupa
confussion matrix terdapat pada gambar 3.
banyaknya kata berkategori negatif, kemunculan tiap kata dalam
dokumen yang berkategori negatif, dan total keseluruhan kata.
Nilai tersebut nantinya akan dipakai pada klasifikasi naïve bayes
akan berpengaruh dalam menentukan besarnya akurasi yang
menjadi parameter kebenaran pada penelitian ini.
Klasifikasi sentimen dengan naïve bayes dilakukan
dengan cara membandingkan nilai (bobot) kata pada dokumen
dalam dataset. Bila nilai (bobot) kata peluang (probabilitas)
yang berkategori positif lebih banyak maka hasil sentimennya
positif, bila nilai (bobot) kata peluang (probabilitas) yang
berkategori negatif maka hasil sentimennya negatif Semua
dokumen dataset akan diklasifikasi bila ditemukan nilai (bobot)
pada tiap kata di dokumen dataset, dan data tidak terklasifikasi Gambar 5. Hasil Evaluasi
bila tidak ditemukan nilai (bobot) pada tiap kata di dokumen
dataset. Evaluasi dipakai sebagai parameter dari kebenaran
Dari hasil pengujian dataset dengan jumlah 2000 tweet, dalam penelitian ini, dengan akurasi perhitungan dari tabel
terdapat 1661 dokumen tweet terklasifikasi, dan 339 tweet tidak confusion matrix (matriks klasifikasi). Untuk menghitung
terklasifikasi, seperti pada tabel 6 berikut: akurasi, precision, recall. Akurasi yang didapat mencapai 0.778
dengan waktu proses dua menit dua puluh tiga detik. Nilai
Table 6. Data Klasifikasi akurasi adalah tingkat keberhasilan klasifikasi dari semua data.
Precision adalah data actual positif yang diprediksi benar.
Dokumen Tweet Classified Unclassified Recall untuk mengukur keberhasilan klasifikasi yang diprediksi
dengan benar.
2000 1661 339
Moh.Yasid Analisis Sentimen Makapai Citilink 85
JURNAL I LMIAH INFORMATIKA - VOL. 07 NO. 02 (2019) | ISSN (Print) 2337-8379 | ISSN (Online) 2615-1049
5. KESIMPULAN DAN SARAN [11] R. W. Pratiwi and Y. S. Nugroho, “Prediksi Rating
Film Menggunakan Metode Naïve Bayes,” J. Tek.
Elektro, vol. 8, no. 2, pp. 60–63, 2016.
Setelah dilaksanakannya penelitian dengan tahap-tahap
dapat disimpulkan bahwa klasifikasi dokumen tweet berbahasa
Indonesia menggunakan metode Naïve Bayes untuk melihat
penilaian masyarakat terhadap layanan maskapai penerbangan
Citilink Indonesia melalui media sosial twitter dengan dataset
BIODATA PENULIS
sebanyak 2000 tweet menghasilkan akurasi yang mencapai
0,778, waktu proses dua menit dua puluh tiga detik dengan kode
pemograman PHP. Dan juga menambahkan kosa kata bahasa Moh.Yasid
Inggris yang sering digunakan masyarakat dalam memberikan Mahasiswa Program Studi Teknik
Informatika, Fakultas Ilmu Komputer,
opini mengenai maskapai penerbangan pada kamus, seperti
universitas Narotama Surabaya
delay, flight, boarding, landing, reschedule, onschedule, cancel,
thanks. Email :
[email protected] untuk peneliti selanjutnya penulis menyarankan untuk
menambahkan tahap seleksi fitur seperti contoh: seleksi fitur
Information Gain,atau yang lainnya, menambahkan semua kosa
kata bahasa Inggris karena dimungkinkan warga Negara asing
juga memakan layanan maskapai penerbangan yang diharapkan
akan meperbaiki nilai akurasi. Lukman Junaedi
Dosen di Departemen Sistem Informasi,
Fakultas Teknologi Informasi dan
Komunikasi, Universitas Narotama,
DAFTAR PUSTAKA
Surabaya, Indonesia. Ia memperoleh gelar
masternya M.Kom. dari Institut Teknologi
[1] S. Ernawati and R. Wati, “Penerapan Algoritma K-
Sepuluh Nopember (ITS), Surabaya
Nearest Neighbors Pada Analisis Sentimen Review
Agen Travel,” J. Khatulistiwa Inform., vol. VI, no. 1, Indonesia pada 2012.
2018. Email :
[email protected][2] “Text Mining Dan Sentimen Analisis Twitter Pada
Gerakan Lgbt,” Intuisi J. Psikol. Ilm., vol. 9, no. 1, pp.
18–25, 2017.
[3] V. Effendy, “ANALISIS SENTIMEN BERBAHASA
INDONESIA DENGAN PENDEKATAN LEXICON
BASED ( STUDI KASUS : SOLUSI PENGELOLAAN
SAMPAH ) Jurnal Ilmiah Komputer dan Informatika (
KOMPUTA ),” vol. 4, no. 1, 2015.
[4] I. Zulfa and E. Winarko, “Sentimen Analisis Tweet
Berbahasa Indonesia Dengan Deep Belief Network,”
IJCCS (Indonesian J. Comput. Cybern. Syst., vol. 11,
no. 2, p. 187, 2017.
[5] W. Gata, “Akurasi Text Mining Menggunakan
Algoritma K-Nearest Neighbour pada Data Content
Berita SMS,” vol. 6, pp. 1–13, 2017.
[6] D. Wahyudi, A. H. Mirza, and P. H. Merrieayu,
“IMPLEMENTASI DATA MINING DENGAN
NAIVE BAYES CLASSIFIER UNTUK
MENDUKUNG STRATEGI PROMOSI ( Studi kasus
Universitas Bina Darma Palembang ),” pp. 1–10.
[7] N. MOH, “Klasifikasi Dokumen Komentar Pada Situs
Youtube Menggunakan Algoritma K-Nearest Neighbor
(K-Nn),” Univ. Dian Nuswantoro, no. 5, 2016.
[8] R. Delima, U. Kristen, D. Wacana, A. Rachmat, U.
Kristen, and D. Wacana, “Implementasi Metode K-
Nearest Neighbor dengan Decision Rule untuk
Klasifikasi Subtopik Berita IMPLEMENTASI
METODE K-NEAREST NEIGHBOR DENGAN
DECISION RULE UNTUK KLASIFIKASI per topik-
topik berita sehingga membuat pencarian berita
dipermudah . Bagi Pembuata,” no. June, 2014.
[9] K. Teks and B. Indonesia, “Pemanfaatan Teknik
Supervised Untuk Klasifikasi Teks Bahasa,” no. May,
2016.
[10] A. Rachmat C and Y. Lukito, “Klasifikasi Sentimen
Komentar Politik dari Facebook Page Menggunakan
Naive Bayes,” J. Inform. dan Sist. Inf. Univ. Ciputra,
vol. 02, no. 02, pp. 26–34, 2016.
86 Moh.Yasid Analisis Sentimen Makapai Citilink
View publication stats