Skip to main content

Apa Itu Text Mining ?

Text mining adalah satu langkah dari analisis teks yang dilakukan secara otomatis oleh komputer untuk menggali informasi yang berkualitas dari suatu rangkaian teks yang terangkum dalam sebuah dokumen (Han & Kamber, 2006).  Text mining (penggalian teks) merupakan penggalian teks data yang bersifat tekstual. Text mining juga merupakan bidang yang sedang berkembang dan berpotensi besar bagi dunia bisnis. Text mining bekerja menggunakan data numerik (Sungkono, 2007).


Pada tahun 1996, Dow Chemical Company memulai proses text mining dengan mengakses ratusan ribu dokumen dari berbagai sumber, termasuk internet. Tujuan mereka adalah mendapatkan pengetahuan dan pola-pola informasi yang tidak dapat ditemukan menggunakan perangkat basis data atau mesin pencarian konvensional. Dow  kemudian mampu mencari pelanggan-pelanggan baru, teknologi baru, dan mitra bisnis baru melalui text mining. Dow juga mampu mengidentifikasi tren pasar yang tidak dapat dideteksi oleh cara-cara lain (Sungkono, 2007).

Data yang diolah berupa data input yang bersifat terstruktur sembarang. Data terstruktur sembarang, tersebut tidak dapat langsung diolah, oleh karena itu diperlukannya suatu proses pengolahan. Tahap proses pengolahan data inputan yaitu melewati tahap preprocessing.

Tahap preprocessing adalah proses pengubahan bentuk data yang terstruktur sembarang menjadi data yang terstruktur sesuai kebutuhan untuk proses dalam text mining (Imbar, Ayub, & Rehatta, 2014). Data teks akan di proses menjadi data numerik agar dapat dilakukan proses lebih lanjut. Pemrosesan data teks menjadi data numerik dikenal dengan preprocessing. Tahap preprocessing terdiri dari lima tahapan menurut (Michael, 2004) terdiri dari tokenizing, filtering, steaming, tagging, dan anayizing adalah sebagai berikut :

1. Tokenizing

Tokenizing merupakan proses di mana dilakukan pemotongan string masukan berdasarkan tiap kata yang terdapat pada kalimat. Setiap huruf akan diubah menjadi huruf kecil, semua tanda baca, tanda huruf, karakter selain huruf alfabet akan dihapuskan.

2. Filtering

Tahap filtering merupakan tahap lanjutan setelah dilakukannya tahap tokenizing. Pada proses filtering dilakukan penghilangan kata tidak penting dari hasil proses tokenizing. Kata akan dicek apakah termasuk di dalam stoplist (kata tidak penting) atau tidak. Stoplist adalah daftar kata yang sering digunakan dan tidak menjelaskan isi dari dokumen, atau dapat disebut dengan istilah stopword. Jika termasuk dalam stoplist maka kata akan di hapus, jika termasuk dalam wordlist (kata penting) maka akan di simpan. Contoh stopwords adalah “yang”, “dan”, “di”, “dari” dan seterusnya.

3. Steaming

Proses steaming merupakan tahap mencari root kata dari kata tiap hasil filtering. Pada steaming bahasa Indonesia digunakan meliputi penghilangan suffix, prefix, infix dan konfix.


Penjelasan diatas merupakan arti dari text mining. Semoga ilmu yang saya bagikan dapat bermanfaat bagi teman-teman semuanya. Terimakasih telah meneyempatkan waktu membaca blog saya. Jika teman-teman ingin share tulisan saya jangan lupa cantumkan link saya.

Comments

Popular posts from this blog

Penetration Testing dengan Tools OWASP ZAP

OWASP Zed Attack Proxy (ZAP) adalah salah satu alat keamanan gratis paling populer di dunia dan dikelola secara aktif oleh tim sukarelawan internasional yang berdedikasi. OWASP ZAP dapat membantu Anda secara otomatis menemukan kerentanan keamanan dalam aplikasi web Anda saat Anda mengembangkan dan menguji aplikasi Anda. OWASP ZAP juga merupakan alat yang hebat untuk pentester berpengalaman untuk digunakan untuk pengujian keamanan manual atau audit suatu website.   Cara penggunaan aplikasi OWASP ZAP sangat mudah, berikut langkah langkah penggunaan aplikasi OWASP ZAP : 1.  Buka tampilan tools/ aplikasi OWASP ZAP 2.  Selanjutnya pilih “Yes, I want persist this session with name based on the current timestamp” -> lalu klik start 3.  Lalu pilih Automated Scan setelah itu sediakan url atau IP yang akan dilakukan pentest 4.  Masukkan alamat yang akan anda lakukan pentest, seperti gambar dibawah ini, lalu klik attack. 5.  Hasil pentest terlihat seperti gambar di...

Pengetahuan Dasar Cyber Security (Keamanan Sistem Informasi)

Haiii mina. Penulis mau update lagi nih. Ini soal Keamanan Sistem Komputer yang dibahas pada pertemuan pertama. Tapi sayangnya Penulis tidak dapat hadir dalam perkuliahan hari itu karena ada urusan dari kampus, eh sok sibuk. Hehehe.. Yuk kita kembali ke topik aja.          Keamanan Sistem Komputer merupakan sebuah upaya yang dilakukan untuk mengamankan kinerja,fungsi atau proses komputer. Keamanan komputer memberikan persyaratan terhadap komputer yang berbeda dari kebanyakan persyaratan sistem karena sering kali berbentuk pembatasan terhadap apa yang tidak boleh dilakukan komputer. Ini membuat keamanan komputer menjadi lebih menantang karena sudah cukup sulit untuk membuat program komputer melakukan segala apa yang sudah dirancang untuk dilakukan dengan benar. Persyaratan negatif juga sukar untuk dipenuhi dan membutuhkan pengujian mendalam untuk verifikasinya, yang tidak praktis bagi kebanyakan program komputer. Keamanan komputer memberikan strategi te...