Text mining adalah satu langkah dari analisis teks yang dilakukan secara otomatis oleh komputer untuk menggali informasi yang berkualitas dari suatu rangkaian teks yang terangkum dalam sebuah dokumen (Han & Kamber, 2006). Text mining (penggalian teks) merupakan penggalian teks data yang bersifat tekstual. Text mining juga merupakan bidang yang sedang berkembang dan berpotensi besar bagi dunia bisnis. Text mining bekerja menggunakan data numerik (Sungkono, 2007).
Pada tahun 1996, Dow Chemical Company memulai proses text mining dengan mengakses ratusan ribu dokumen dari berbagai sumber, termasuk internet. Tujuan mereka adalah mendapatkan pengetahuan dan pola-pola informasi yang tidak dapat ditemukan menggunakan perangkat basis data atau mesin pencarian konvensional. Dow kemudian mampu mencari pelanggan-pelanggan baru, teknologi baru, dan mitra bisnis baru melalui text mining. Dow juga mampu mengidentifikasi tren pasar yang tidak dapat dideteksi oleh cara-cara lain (Sungkono, 2007).
Data yang diolah berupa data input yang bersifat terstruktur sembarang. Data terstruktur sembarang, tersebut tidak dapat langsung diolah, oleh karena itu diperlukannya suatu proses pengolahan. Tahap proses pengolahan data inputan yaitu melewati tahap preprocessing.
Tahap preprocessing adalah proses pengubahan bentuk data yang terstruktur sembarang menjadi data yang terstruktur sesuai kebutuhan untuk proses dalam text mining (Imbar, Ayub, & Rehatta, 2014). Data teks akan di proses menjadi data numerik agar dapat dilakukan proses lebih lanjut. Pemrosesan data teks menjadi data numerik dikenal dengan preprocessing. Tahap preprocessing terdiri dari lima tahapan menurut (Michael, 2004) terdiri dari tokenizing, filtering, steaming, tagging, dan anayizing adalah sebagai berikut :
1. Tokenizing
Tokenizing merupakan proses di mana dilakukan pemotongan string masukan berdasarkan tiap kata yang terdapat pada kalimat. Setiap huruf akan diubah menjadi huruf kecil, semua tanda baca, tanda huruf, karakter selain huruf alfabet akan dihapuskan.
2. Filtering
Tahap filtering merupakan tahap lanjutan setelah dilakukannya tahap tokenizing. Pada proses filtering dilakukan penghilangan kata tidak penting dari hasil proses tokenizing. Kata akan dicek apakah termasuk di dalam stoplist (kata tidak penting) atau tidak. Stoplist adalah daftar kata yang sering digunakan dan tidak menjelaskan isi dari dokumen, atau dapat disebut dengan istilah stopword. Jika termasuk dalam stoplist maka kata akan di hapus, jika termasuk dalam wordlist (kata penting) maka akan di simpan. Contoh stopwords adalah “yang”, “dan”, “di”, “dari” dan seterusnya.
3. Steaming
Proses steaming merupakan tahap mencari root kata dari kata tiap hasil filtering. Pada steaming bahasa Indonesia digunakan meliputi penghilangan suffix, prefix, infix dan konfix.
Penjelasan diatas merupakan arti dari text mining. Semoga ilmu yang saya bagikan dapat bermanfaat bagi teman-teman semuanya. Terimakasih telah meneyempatkan waktu membaca blog saya. Jika teman-teman ingin share tulisan saya jangan lupa cantumkan link saya.
Comments
Post a Comment