Pembahasan Data Mining (Chapter 3)

Algoritma C4.5

1. Pengertian Algoritma C.45

Algoritma data mining C4.5 merupakan salah satu algoritma yang digunakan untuk melakukan klasifikasi atau segmentasi atau pengelompokan dan bersifat prediktif. Klasifikasi merupakan salah satu proses pada data mining yang bertujuan untuk menemukan pola yang berharga dari data yang berukuran relatif besar hingga sangat besar. Algortima C4.5 sendiri merupakan pengembangan dari algortima ID3.

2. Entropy, Information Gain & Gain Ratio

Pemilihan atribut yang baik adalah atribut yang memungkinkan untuk mendapatkan decision tree yang paling kecil ukurannya. Atau atribut yang bisa memisahkan obyek menurut kelasnya. Secara heuristik atribut yang dipilih adalah atribut yang menghasilkan simpul yang paling ”purest” (paling bersih). Ukuran purity dinyatakan dengan tingkat impurity, dan untuk menghitungnya, dapat dilakukan dengan menggunakan konsep Entropy, Entropy menyatakan impurity suatu kumpulan objek.

Formula mencari entropi sebagai berikut :

formula entropi

Keterangan :
• S adalah himpunan (dataset) kasus
• k adalah banyaknya partisi S
• p_j adalah probabilitas yang di dapat dari Sum(Ya) dibagi Total Kasus.

Information gain adalah kriteria yang paling populer untuk pemilihan atribut. Algoritma C4.5 adalah pengembangan dari algoritma ID3. Oleh karena pengembangan tersebut algoritma C4.5 mempunyai prinsip dasar kerja yang sama dengan algoritma ID3. Hanya saja dalam algoritma C4.5 pemilihan atribut dilakukan dengan menggunakan Gain Ratio dengan rumus :

gain ratio

Dimana:
a = atribut.
gain(a) = information gain pada atribut a
Split(a) = split information pada atribut a

Atribut dengan nilai Gain Ratio tertinggi dipilih sebagai atribut test untuk simpul. Dengan gain adalah information gain. Pendekatan ini menerapkan normalisasi pada information gain dengan menggunakan apa yang disebut sebagai split information. SplitInfo menyatakan entropy atau informasi potensial dengan rumus :

split-info

Dimana:
S = ruang (data) sample yang digunakan untuk training.
A = atribut.
S_i = jumlah sample untuk atribut i

dimana Xi menyatakan sub himpunan ke-i pada sampel X.

information gain

Dimana:
S = ruang (data) sample yang digunakan untuk training.
A = atribut.
|S_i| = jumlah sample untuk nilai V.
|S| = jumlah seluruh sample data.Entropi(S_i) = entropy untuk sample-sample yang memiliki nilai i

Alasan penggunaan gain ratio(a) pada C4.5 (bukan gain(a)) sebagai kriteria pada pemilihan atribut adalah gain ternyata bias terhadap atribut yagn memiliki banyak nilai unik.

sumber : https://informatikalogi.com/algoritma-c4-5/