Pemrosesan Teks dengan Rapidminer - Seri Perkuliahan Data Analytic & Data Mining #10
Vložit
- čas přidán 29. 11. 2021
- Halo teman-teman semua. Pada video ini, kita belajar mengenai teknik pemrosesan teks. Teks yang kita gunakan pada tutorial ini bersumber dari media sosial Twitter. Pemrosesan teks tersebut berguna untuk menganalisis informasi penting ataupun kata-kata yang paling sering muncul/ disebut. Untuk dapat melakukan pemrosesan teks, kalian harus menginstall terlebih dahulu sebuah ekstensi bernama "Text Processing" pada menu Extensions.
Tutorial instalasi extension tersebut dapat kalian tonton di sini: • Tutorial Instalasi Ext...
Link unduh dokumen stopword Bahasa Indonesia: www.kaggle.com/oswinrh/indone...
Alhamdulillah pernah ikut kuliah umum nya bapak dan sgt tertarik. Skg mata kuliah bigdata sgt terbantu dgn video2 bapak. Terima kasih pak
alhamdulillaah 🙂👍
Terimakasih pak atas kontennya karna telah membantu saya
sama2 mbak. terima kasih juga sudah mampir ke channel saya. sukses selalu :)
Terima kasih kak, penjelasannya mudah dipahami
Terima kasih kembali
Ijin download buat belajar ya pak,, mkasih banyak 🙏
Dengan senang hati 🙂
Membatu sekali dalam mengerjakan tugas yang diberikan Bu Saucha heheheh
hehehe... sip mas. lanjut 😁
Selamat pgi pak ingin bertanya pak, kalo stopwords menggunakan 2 bahasa (Bahasa Inggris dana Indonesia) bagaimana pak?
Mohon pencerahannya Terima Kasih
kamus kata stopwordsnya digabung dalam 1 file saja. Jadi 1 file itu berisi stopwords bahasa indonesia dan bahasa inggris.
Halo kak saya ingin bertanya , bagaimana cara convert file hasil crawling ke csv yang benar? Soalnya saat saya coba tadi hasilnya waktu dibuka di excel normal , tetapi saat saya buka di rapidminernya isi kolomnya menjadi tanda tanya ("? ") itu bagaimana ya solusinya terimakasih 🙏
oya, sepertinya saya belum sempat buat videonya :)
caranya mudah, gunakan saja operator "Write CSV", lalu nanti kita siapkan dulu filenya lewat panel parameter di kanan atas. Simbol "?" itu muncuk karena ada data yang kosong (missing value), tidak ada nilainya. Jika dibuka di excel, data tersebut biasanya kosong (tidak ada isinya).
Halo pak, izin bertanya, berhubung rapidminer bisa menggunakan modul yg ada di python saya mo tanya cara gimana kita menghubungkan modul sastrawi ke rapidminer untuk stemming data. Soalnya rapidminer gapunya modul otomatis untuk stemming Indonesia 🥲 makasih
Halo juga, kebetulan saya juga belum pernah memasukkan python ke rapidminer. Sementara ini saya melakukannya manual, data dari rapidminer sata masukkan ke python untuk distemming dengan sastrawi, lalu hasilnya saya kembalikan lagi ke rapidminer. Mohon maaf 😅🙏
Assalamu'alaikum izin bertanya pak, dataset saya sebelumnya 1500 tapi saat saya import write csv dirapid jadinya 1800 itu kira² masalahnya dimana pak?mohon bantuannya pak untuk tugas akhir saya🙏
Wa'alaikumussalaam. Halo, maaf baru bisa balas. Kemungkinan di excelnya terdapat data kosong sampai baris ke 1800, sehingga ketika dibaca oleh rapidminer dia berisi 1800 record (yang nilainya kosong)
@@KuliahInformatikap
maaf pak ijin bertanya, bagaimana cara download file yang telah di proses tersebut ya pak? karna saya sudah coba dengan write csv namun saat di download filenya hanya berisi hasil tokenizenya data textnya tidak terbaca. mohon advicenya pak
yang mau didownload file yang mana? file twit mentah atau apa? semuanya bisa pakai write csv asalkan write csv nya dikoneksikan dengan tepat
Assalamualaikum pak izin bertanya jika menggunakan metode klassifikasi SVM apakah pelabelannya diisi di semua data? dan bagaimana membagi persentase data latih dan data ujinya? semoga dibalas untuk keperluan tugas akhir, terimakasih 🙏
Pada prinsipnya, apapun metode klasifikasinya, jika ingin membangun model yang optimal maka semua data harus dilabeli agar bisa diukur performanya. Persentase pembagian data latih dan uji tidaka ada aturan baku, yang jelas porsi data latih lebih besar dari data uji. Bisa pakai skema 70:30 atau 80:20.
Assalamualikum wr.wb
mohon maaf mengganggu waktunya, boleh minta tolong pak? apakah boleh minta mentahan file crweling sirkuit mandalika, soalnya data saya hilang , dan ketika melakukan crwling untuk waktu tertentu tidak tampil
Wa'alaikumussalaam. Coba cek di sini: tinyurl.com/2p93nwrk
salam pak apakah dari awal atribut ID tidak ikut disimpan sehingga tidak gunakan select atribute? terimakasih
nitip
Halo, maaf baru bisa balas komennya. Pada beberapa data di video, atribut ID sudah saya hapus manual dengan excel. Secara default, memang rapidminer selalu mengikutsertakan atribut ID pada data twitternya.
Pak Extension di RM saya khusus yg filtering cuma ada by dictionary.. tdk ada yg by lenght.. itu gmna yah pak ?
Coba disearch saja, ketik "filter by length", atau ketik saja "length", seharusnya ada. Atau kalau masih belum berhasil, coba install dulu ekstensi "Text Processing". Saya sudah sediakan video tutorial instalasinya, bisa disearch saja di channel 🙏
Pak, izin bertanya kalau menghapus hastag di rapidminer gimana ya? Apa pake replace juga?
Betul, pakai replace juga. Ada juga di video
Dari data read csv yang kotor tadi untuk melihat data setelah dibersihkan dimana ya ?
Dari video tersebut, pada operator 'Nominal to Text', tarik koneksi dari konektor 'exa' hubungkan ke 'res' di ujung kanan, lalu jalankan prosesnya (F11).
Gunawan here mantap pak👍👍👍
ditonton dulu sampe abis gun, abis tu praktek :)
@@KuliahInformatika siap pak
Pak cara save data menjadi csv dalam bentuk nama dan komentar bagaimana ya pak? bukan dalam bentuk data hasil tf-idf, soalnya waktu saya save dalam bentuk csv yang tersave adalah data tf-idf bukan data dalam bentuk nama dan komentar. mohon bantuannya pak, terima kasih.
Dari video tersebut, pada operator Nominal to Text, hubungkan konektor 'exa' ke operator 'Write CSV'. Klik dua kali operator Write CSV, tentukan lokasi dan nama data yang mau disimpan. Setelah selesai, klik Run (F11)
assalamualaikum pak, izin bertanya jika ingin memfilter emoticon bagaimana ya pak?terimakasih
Setahu saya, di rapidminer dia otomatis memfilter emoticon (emoticon sdh tidak masuk ke data twit)
Permisi pak, izin bertanya. Gimana cara menghilangkan emoticon yg ada di data kita ya pak? Memakai operator apa?
pakai saja operator replace, nanti pada bagian "what to replace", isikan saja simbol2 yang mau dihapus (karena biasanya emoticon itu pakai simbol2 yang ada di keyboar), contoh: [:)(#@]
Assalamu'alaikum warahmatullah pak ijin bertanya saya kan ga sengaja nge x in panel parameter nya sehinggal panel parameter nya hilang bagaimana ya cara agar memunculkan nya lagi
Wa'alaikumussalaam. Masuk menu VIEW, lalu klik Restore Default View
Pak di RapidMiner saya gak ada operator Extensions dan Deployment .. gimana caranya kasi muncul ?🥲🙏
Operator "Extension" memang tidak ada. Extension itu ada di menu di bagian atas Rapidminer, itu untuk menginstall extension atau tools tambahan ke dalam Rapidminer kita.
Assalamuaaikum pa mau tanya, klo pengambilan datanya di ulasan googel play untuk prosesnya apakah sama atau tidak ya? Terimakasih🙏
Wa'alaikumussalaam. Setahu saya, Rapidminer belum support untuk mengambil data dari google play. CMIIW
Boleh saya minta email nya untuk nanya nanya 😁
Assalamualaikum pak, terimakasih ilmunya saya sangat butuh untuk tugas akhir saya, jika saya ingin bertanya dan berkonsultasi boleh menghubungi lewat mana ya pak? terimakasih sebelumnya
wa'alaikumussalaam. alhamdulillaah, sama2 mbak. silakan kontak saya via email: muhammad.fachrie@staff.uty.ac.id
mau ambil dataset tweet mandalika nya di link mana ya pa? untuk prakteknya. terima kasih
Oh ada di deskripsi video yang ini pak: czcams.com/video/yn49YAJCAnw/video.html
Hallo pak, sebelumnya terima kasih atas vt yang telah bapak buat karena sangat membantu saya
Maaf pak saya mau bertanya, pas saya preprosessing text terus saya masukan tokenize pas dijalankan kok data saya tidak terbaca ya malah tidak ada sama sekali
Kira kira knp ya pak
sepertinya ada koneksi operator yang keliru. coba dicek sekali lagi, pastikan koneksi operator sudah sesuai seperti di video
izin tanya Pak, kalau data CSV yang diread ada error itu solve problemnya bagaimana ya Pak?
coba dibaca dulu warningnya apa. biasanya dia kasih informasi ttg apa errornya. kalau memang masih bermasalah, coba dicek datanya di Ms. Excel, dilihat kira2 bagian mana yang kurang rapi
@@KuliahInformatika ketika sudah diberitahu informasi erronya, saya bisa lgsg perbaiki di RapidMiner atau hanya bs di Ms Excel Pak?
@@ahlulwursitakumar8801 excel bisa, rapidminer bisa. tapi mending di excel biar lebih fleksibel
@@KuliahInformatika baik Pak terima kasih banyak, sehat selalu yaa Pak
Pak gimna caranya agar data repository itu berubah jadi read CSV?
Pakai operator write csv untuk menyimpan data di repository menjadi csv
Pak mau tanya tombol parametrs saya kesilang . bagaimana cara balikinnya ??
masuk menu VIEW, lalu pilih RESTORE DEFAULT VIEW
Mohn pk link stopword bahasa. Csv dshere dsini so sy blm ktemu
Oya bu, linknya sudah saya tambahkan di deskripsi video.
Link unduh dokumen stopword Bahasa Indonesia: www.kaggle.com/oswinrh/indonesian-stoplist
semoga bermanfaat 🙂
ini sama saja kan ya untuk dataset csv ataupun excel?
Ya, dua-duanya bisa. Kalau filenya excel, pakai operator "Read Excel", kalau filenya CSV pakai operator "Read CSV"
bang yang data ini kok gak ada yaaa? adanya yang data clean sirkuit mandalika boleh minta datasetnya untuk latihan
silakan: utyac-my.sharepoint.com/:x:/g/personal/muhammad_fachrie_staff_uty_ac_id/EchiMgodARVPtVi9SLSpbeMBLXHfm8aySHovBTMFEYkWRA?e=or1EQD
Jika sudah semua trus save nya gimana ya biar bisa di excel?
Pakai operator "Write Excel", nanti tentukan direktori dan nama file excelnya pada opetator tersebut
Selamat pagi pak ingin bertanya pak, kalo stemming dengan bahasa indonesia bagaimana caranya ya pak?
nah, ini sebenarnya belum support di operator bawaan Rapidminer mas. Saya belum ada video terkait itu. Sementara ini, stemming masih disupport kalo koding di Python memakai library Sastrawi
Mohon penjelasan kalau filter exampel nya eror gimana? 😢
Errornya seperti apa? Ada banyak kemungkinan soalnya
assalamu'alaikum izin bertanya terkait stemming bapak, bagaimana ya kalau di rapidminer ? Terima kasih
Wa'alaikumussalaam. Nah ini kelemahan rapidminer untuk saat ini. Rapidminer hanya support stemming untuk bahasa inggris dan bahasa2 asing lain seperti jerman dll. Jika ingin melakukan stemming di rapidminer, strateginya adalah membuat kode python sendiri yang menggunakan stemming dari library seperti sastrawi, lalu kode python tersebut diimport ke rapidminer. ada operatornya utk membaca kode python di rapidminer
@@KuliahInformatika izin pak, kalau saya ada data terkait kata dasar yang setelah dihilangkan imbuhannya bagaimana pak ? apa bisa diinput di operator stemming (dictionary) nya ? izin arahan pak
@@andreaspakpahan3271 Bisa.
pak izin bertanya, kali misakan mau mengahpus data yang ada emojinya gimana ya pak?
emoticon biasanya pakai simbol2. Untuk menghilangkannya bisa pakai operator "Replace", lalu karakter yang direplace bisa ditulis misalnya begini: [:()-=;'/|]
@@KuliahInformatika terima kasih pak atas informasinya, saya akan praktikan langsung. Semoga bapak bisa diberikan kesehatan dan dapat berbagi ilmu yang bermanfaat
Pak saya mau tanya kalau labeling itu stepnya sebelum text preprocessing atau setelahnya ya?
Lebih enak sebelum preprocessing, karena teksnya masih utuh, belum ada yang diubah/ dihapus. Tapi saran saya, lakukan penghapusan data yang duplikat dulu, baru lakukan labelling biar efisien.
@@KuliahInformatika terimakasih pak atas jawabannya,kalau untuk step urutannya itu bagaimana ya pak saya masih bingung setelah scrapping data dr playstore -> labeling -> text preprocessing -> klassifikasi,visualisasi & perhitungan perfomansi atau bagaimana ya pak urutannya?🙏
@@devi_pd ya itu sudah benar mbak
@@KuliahInformatika kalau untuk labeling datanya misalkan tidak termasuk positif / negatif itu bagaimana ya pak? Contohnya ulasan yg tidak jelas seperti "xzyy" gitu pak? Atau tidak usah diikutkan ulasan" yg seperti itu?
@@devi_pd bisa dihapus saja jika isinya tidak jelas. Sentimen yang tidak masuk pos/ neg, bisa dimasukkan ke label "netral"
Maaf izin bertanya pak 🙏
Cara melakukan case folding gimna ya pak 🙏
pakai operator Transform Cases, ada di menit 23:46
Terimakasih pak
maap pak apakah ada data csv mentahannya? saya mau pelajarin untuk datasetnya
Kalau tidak salah linknya sudah saya sediakan di deskripsi video ini. coba dicek ya
Assalamualaikum kak...
Ngambil data di Rapidmanner ini durasi waktunya brapa lama k'?
Wa'alaikumussalaam. Relatif sebentar. Sebagai gambaran, 500 data hanya butuh sekkitar 5 s.d. 10 detik. Saya juga pernah ambil 10.000 data sekaligus hanya dalam waktu kurang dari 1 menit. Tapi jika jumlah data yang diambil dala sekali pengambilan terlalu banyak, Twitter akan berhenti di tengah2 proses biasanya, karena ada batasan waktu dalam sekali pengambilan.
@@KuliahInformatika kemarin pake excel k' ambil datanya buat tugas kuliah, cuman kok datanya nggak ke ambil semua...kalau saya check" datanya, data yang bisa keambil itu cuman durasi 2 pekan k'
Pusing mikirin tugas, masa harus copas satu satu twit 😭😭😭
Ya, data twitter yang bisa kita ambil maksimal hingga 8 hari yang lalu. Jadi jika lebih dari itu, tidak bisa menggunakan operator yang ada di Rapidminer ini.
Bang cara labeling data harus manual bang?
Apakah ada cara otomatisnya?
labeling itu pada dasarnya memang manual, dan itu memang pekerjaan yang menguras waktu. meskipun ada strategi lanjutan yang bisa membantu mengotomatisasi proses labeling, misalnya menggunakan strategi semi-supervised learning.
Ijin download buat belajar ya pak,, mkasih banyak 🙏. jika boleh, bisakah bapak juga menyertakan file stem word untuk bahasa indonesia pak ?
Silakan. semoga bermanfaat. BTW, file stem word saya tidak punya. Biasanya jika kita sudah menggunakan library seperti Sastrawi, sudah terintegrasi algoritma untuk melakukan stemming.
Maaf pak ijin bertanya cara membuat dataset nya gimana ya?
dataset kita ambil dari histori/ kejadian/ transaksi yang pernah terjadi. Nilainya bukan dikarang2, tapi bedasarkan fakta. Setelah data terkumpul, kita tentukan satu kolom yang akan menjadi label
Hallo ingin bertanya, untuk ekspor hasilnya bagaimana ya?
ekspor datanya ya? cukup dengan menghubungkan koneksi ke operator "Write Excel" atau "Write CSV" (kedua operator tersebut dapat dicari di panel Operator)
@@KuliahInformatika menghubungkan nya di sub proses process document from data atau diluar?
@@dafaakbarfirmansyah4866 di luar, di bagian akhir
pak apakah ada link untuk stemming bhs indonesia??
Kalau stemming biasanya saya pakai di python, pake library sastrawi utk bahasa indonesia. Videonya belum ada kalau di saya 😁
Mau tanya, untuk menghapus emoticon itu bagaimana ya?
Kalau di rapidminer, emoticon sudah otomatis terfilter. Atau kalau mau memastikan lagi, replace saja simbol2 yang biasa dipakai untuk membuat emoticon, misalnya :, ), p, dst.
@@KuliahInformatika mau tanya lg pak
Mengapa setiap kali import file csv pasti berantakan? Misalnya data awal berjumlah 300 tetapi setelah diimport bisa menjadi 500. Itu bagaimana ya pak mengatasi nya?
@@dafaakbarfirmansyah4866 bukanya di excel ya? Kemungkinan ada baris2 yang sebetulnya kosong. Praktisnya, data mentahnya dirapikan dulu di Excel, baru setelah itu diproses di Rapidminer.
Inimodel apa bang prosesingnya,algoritma apa
in processing teks dasar saja mas, belum pakai algoritma tertentu seperti tf-idf. baru sebatas membersihkan data teksnya
Mohon maaf pak, boleh minta dataset mentahnya, buat skripsi 🙏
Coba cek di sini: tinyurl.com/2p93nwrk
Cara download csv hasil proses gimana ya pak?
Pakai operator "Write CSV". Nanti konektor "exa" dr operator sebelumnya dikoneksikan saja ke Write CSV. Atau cara paling polos, copy paste saja data dari rapidminer ke excel.
@@KuliahInformatika tapi awalnya tetap pakai read csv ya pak?. Iya saya pakai copy paste tapi datanya terlalu banyak. Terima kasih pak
Izin belajar pak
silakan. semoga bermanfaat :)
Maaf pak izin bertanya, stemming nya tidak ada ya pak?
seperti yang saya sampaikan di video, rapidminer belum support text processing bahasa indonesia, maka kita harus siapkan dictionary stemmingnya secara manual. nah ini butuh waktu dan tenaga, makanya di video ini saya tidak menggunakan stemming. Sebenarny saya berencana membuatkan video tutorial stemming bahasa indonesia di rapidminer, tapi belum sempat 🙂
@@KuliahInformatika apakah hasil acuracy nya tetap sama atau meningkat jika ditambahkan proses stemming lagi pak?
@@afriyantipanjaitan1303 pertanyaan yang sangat bagus mbak 🙂👍
Saya pribadi tidak yakin akurasinya akan meningkat signifikan, karena stemming akan bekerja dengan efektif jika bahasa yang digunakan itu baku. Nah, masalahnya, bahasa pengguna twitter itu kan sangat beragam, dan cenderung tidak pakai bahasa baku, banyak singkatan, bahasa slang, campuran bahasa daerah, dll. Itu menurut saya 🙂
@@KuliahInformatika baik, terima kasih pak.
Mau nanya lagi ni pak untuk pembagian datanya saya buat 80% data latih dan 20% data uji, Nahh untuk data uji sebanyak 20% ini sudah ada pelabelan atau belum pak?
Terima kasih pak.
@@afriyantipanjaitan1303 kalau ingin mengukur performanya, maka data uji harus dilabeli
Pa izin share Dataset Sirkuit Mandalika.csv 🙏
silakan: tinyurl.com/2p93nwrk
Assalamualaikum pak izin bertanya
Kog di tempat saya saat mau memasukan proces document to text di operators ga muncul ya pak🙏
Maksudnya mungkin "Process Document from Data" ya? Sudah install extension "Text Processing"?
@@KuliahInformatika ini barusan instal pak🙏
Pak mau tanya tombol parametrs saya kesilang . bagaimana cara balikinnya ??
masuk menu VIEW, lalu pilih RESTORE DEFAULT VIEW