Menghitung Bobot Term Menggunakan TF-IDF
Semester ini, saya sedang mengerjakan Tugas Akhir. Masalah yang diangkat mengenai metode apa yang tepat untuk pengklasifikasian blog. Rumit memang.. terlebih lagi sebelum dilakukan proses klasifikasi, dokumen blog perlu dipreproses dulu. Preproses terdiri dari beberapa tahap, diantaranya Stemming, Stopwords, dan Pembobotan TF-IDF.
Stemming dilakukan untuk menemukan kata dasar dari sebuah term. Misal, membaca – dibaca – membacakan memiliki kata dasar yang sama, yaitu baca.
Stopwords, merupakan proses menghilangkan kata sambung maupun kata yang dianggap tidak penting bagi dokumen. Diantaranya ‘atau’, ‘untuk’, ‘karena’.
Berikutnya adalah pembobotan term menggunakan TF-IDF (Term Frequency-Inverse Document Frequency) yaitu sebuah metoda untuk menghitung bobot term pada dokumen berdasarkan jumlah kemunculan suatu term dan keberadaannya pada dokumen lain.
Adapun metoda tersebut didefinisikan sebagai berikut :


Contoh :
Terdapat 5 dokumen.
Diketahui term “sepatu” terdapat pada dokumen pertama sebanyak 5 kali. Pada dokumen kedua hingga ketiga tidak ditemukan. Pada dokumen keempat sebanyak 5 kali. Pada dokumen kelima sebanyak 4 kali.
Maka nilai bobot term “sepatu” pada dokumen kelima adalah
TF = 1+log(1+log(4))=1.204
IDF = log 1+5/3=0.301
TF IDF term “sepatu” = 1.204 x 0.301 = 0.362
Jadi, nilai term akan semakin kecil jika kemunculan term pada dokumen lain juga banyak. Dan dari nilai inilah kita akan mengetahui pengaruh term pada dokumen. Semakin kecil nilai term, maka kepentingannya pada dokumen pun semakin kecil (tidak dibutuhkan).





gambarnya jgn di capture ya…
kelihatannya kurang bagus..hehehe..
setelah bobot di hitung??
pake algo apa klasifikasinya?
halo pochi!!
harus di capture. biar jelas..
stelah bobot dihitung, dibuat vector space modelnya.
algoritma yg digunakan.. masih rahasia. :p
Sampai lupa x.x
Apa skripsi kamu sampai pada implementasi crawler bots?
halo d.I,
skripsi saya ngga sampai ke implementasi crawler bots.. lagipula algoritma yg digunakan adalah Naive Bayes, jd penghitungan TF-IDF di atas juga tidak digunakan di skripsi.
Halo, saya juga sedang ngerjain skripsi ttg IR…
mau tanya,,,
hasil perhitungan bobot TF-IDF term “sepatu” yg bernilai 1.204 x 0.301 = 0.362 itu, mksudnya
bobot term “sepatu” terhadap semua dokumen,
atau bobot term “sepatu” di dokumen 4 ?
nilai 0,362 adalah nilai bobot “sepatu” terhadap semua dokumen