Text Cleaning / Text Pre-Processing menggunakan Python

Sdílet
Vložit
  • čas přidán 29. 08. 2024
  • Tahap -Tahap dalam cleaning ini antara lain :
    1. Menghilangkan akun / tanda @ disertai dengan nama akun
    2. Menghilangkan angka, dan menghilangkan huruf RT disertai merubah ke lowcase dan juga hastag / tanda #
    3. Menghilangkan link / http di sertai dengan menghilangkan emoticon
    4. Proses stemming menggunakan PySastrawi dan menghilangkan duplikate tweet
    Tweet Sebelum Cleaning : drive.google.c...
    Tweet hasil Cleaning : drive.google.c...
    Script Python untuk Cleaning bisa didapat di : github.com/IKH...
    Jangan lupa untuk Subscribe dan Like videonya jika kalian suka, Terima Kasih
    video lainnya : • Kesalahan dalam meng-i...

Komentáře • 61

  • @sandrafitri4973
    @sandrafitri4973 Před 2 lety

    Sangatt berguna pak. Terimakasih bnyk

  • @mochhalimifirdausi7894

    makasi bang semoga bermanfaat

  • @eyliensyamsyum5165
    @eyliensyamsyum5165 Před 2 lety

    terimakasih sir, sangat membantu

    • @Sarikhin
      @Sarikhin  Před 2 lety

      Sama-sama 👍

    • @Game_Studio-w9p
      @Game_Studio-w9p Před měsícem

      ​@@Sarikhinbang, kalo mau buat kolom yg berisi data tulisan di ubah ke angka itu gimn? Misal: kolom A: "tv samsung smart tv lcd 55 inch" itu mau diubah ke angka 1 miasalnya itu gimn??

  • @exssemsame7469
    @exssemsame7469 Před rokem

    Makasih baang

  • @rizkisyafaat4892
    @rizkisyafaat4892 Před 2 lety

    ketika kasusnya seperti "makin rame dimari.orang bandung sudah tidak betah di rumah" kondisi ketika tanda titik diapit oleh kata tanpa spasi gimana ya kak

  • @syahrulhanas25
    @syahrulhanas25 Před 2 lety

    sangat bermanfaat bang..mau tanya untuk pengunaan stopword d video tersendiri gak bang?

  • @kemalidris6476
    @kemalidris6476 Před 2 lety

    maaf pak izin bertanya , jika ada error " expected string or bytes-like object " di bagian menghilangkan akun/tanda @ itu gimana ya? mohon solusinya terimakasih

  • @alifhiadhiyaherlia2188

    mau nanya kak, yng ditahap remove_pattern kan isinya input_txt dan pattern, nah saya ambil dari google play bukan tweet, untuk input _txt nya diganti jadi apa ya?

  • @affantsany5844
    @affantsany5844 Před 2 lety

    kalau mengatasi typo kata gimana bang ya? atau singkatan kata kayak "bgt" yg harusnya banget.

  • @nikomangrustini7553
    @nikomangrustini7553 Před rokem

    Cara import data penjualan yg jumlahnya ribuan dalam sebulan itu gmn ya kak? Mau import data dari th 2018-2022 data dari bln januari-desember.
    Sempet nyoba import data klo trus upload filenya manual bukaannya lama prosesnya ya kak? Kira2 cara nya gmn kak

  • @shasa5646
    @shasa5646 Před 3 lety +1

    last step saya malah muncul angka doang tidak ada tweet, knp ya ?

    • @Sarikhin
      @Sarikhin  Před 3 lety

      Last step yang bagian apa ya gan ?

  • @lemoniall6553
    @lemoniall6553 Před rokem

    Mas izin bertanya, apakah dalam text processing, stopword bisa kita modif?, Maksudnya ada kata yg kita biarkan. Kalau memang bisa apakah ada referensinya?. Terima kasih.

  • @Aditprayogo18
    @Aditprayogo18 Před 2 lety

    Terima kasih membantu sekali, kalau di dataset saya, resultnya masih ada hasil regex kayak gini xf xf xf xf xad sch xe xc xe xbb xe xbb xe xbb xf xf xa, ini gimana cara ngehilangin nya ya mas ? tak decode ascii juga sama aja.

  • @destriputriyani8916
    @destriputriyani8916 Před rokem

    Pas tweet_pf = load_data() error itu gimana ya bg?

  • @rahmahwulan5136
    @rahmahwulan5136 Před 3 lety

    Kalau ketemu kata slang atau singkatan gitu gimana ya? Apa ada library tersendiri atau kita bikin file kamus kata sendiri? Mohon pencerahannya

  • @_SholihatulFitri
    @_SholihatulFitri Před 2 lety

    Kak untuk melakukan proses ini library apa aja ya yang harus di install?

  • @yogawijaya8349
    @yogawijaya8349 Před 3 lety +1

    ijin bertanya, jdi saya sudah melakukan crawling data di twitter, trs masuk tahap cleaning, tapi di RT(retweet) ko ada b'RT ya itu kenapa ya? trs ngilanginnya gmna ? soalnya pas tahap cleaning retweet jdi mengganggu hasilnya. saya kurang paham mohon penjelasanya kang :)

  • @abhiramasaputra4899
    @abhiramasaputra4899 Před rokem

    kalo mau di lematisisasi/lematizer gimana ya mas caranya??

  • @elevenproject_
    @elevenproject_ Před 3 lety +1

    di bagian df['tweet_clean'] = df['remove_http'].apply(lambda x: clean_tweets(x)) , module yang digunakan apa ya kak, punya saya eror TypeError: descriptor 'lower' requires a 'str' object but received a 'unicode'

    • @Sarikhin
      @Sarikhin  Před 3 lety

      Coba gunakan encoding utf-8, kalo ngga coba ubah object nya pake builtin function str

    • @Sarikhin
      @Sarikhin  Před 3 lety

      Kalau mau bantuan bisa hubungin saya lewat ig

    • @elevenproject_
      @elevenproject_ Před 3 lety

      Siap terimakasih

  • @norsyafira8450
    @norsyafira8450 Před 3 lety

    Hi, kalau guna bahasa english sastrawi itu kena tukar apa yee?

  • @aldojuliandra6584
    @aldojuliandra6584 Před 4 lety +1

    Angka angka yang file yg sudah di cleaning itu apa? Trus cara ngilanginya gimana

    • @Sarikhin
      @Sarikhin  Před 4 lety

      Angka angka nya biasanya dari tweet hasil crawling dan cara ngilanginnya bisa pake syntax python yang sudah saya sediakan di descripsi

    • @aldojuliandra6584
      @aldojuliandra6584 Před 4 lety

      Bang boleh minta nomor wa saya ada yang mau saya tanya

    • @Sarikhin
      @Sarikhin  Před 4 lety

      Ke IG aja ya di @ikhintech

  • @adityawelly
    @adityawelly Před 4 lety

    Kalau cara mengubah emoticon menjadi teks gimana ya ka? Contohnya "aku laper :(" berubah jadi "aku laper sedih"

    • @Sarikhin
      @Sarikhin  Před 4 lety

      Kalau itu di syntax python nya yang harus di ubah

  • @yogawijaya8349
    @yogawijaya8349 Před 3 lety

    bang ini tahapan text preprocesingnya, ada stopword, stemming, sm case folding?

    • @Sarikhin
      @Sarikhin  Před 3 lety

      Iya bang

    • @iqbalkhairuddinseptiana9353
      @iqbalkhairuddinseptiana9353 Před 3 lety

      @@Sarikhin kalau casefolding nya itu dibagian mananya ya? yg sy temuin cuma tokenizing, stopword removal, sama stemming.

  • @muhammaddeva9793
    @muhammaddeva9793 Před 3 lety

    Mas ingin bertanya kenapa pas hapus RT disini tidak terhapus ya ?

  • @chatrinemanurung8483
    @chatrinemanurung8483 Před 3 lety +1

    Misi mas mau nanya. Untuk preprocessing Apk gimana ya

    • @Sarikhin
      @Sarikhin  Před 3 lety

      Maaf sis, bisa di perjelas lagi pertanyaan nya ?

  • @__xxdrn9125
    @__xxdrn9125 Před 2 lety

    link sama emotnya masih ada bangg:(

  • @sofiemutiaafifah9865
    @sofiemutiaafifah9865 Před 3 lety

    Cara menghapus enter dan tab dijadiin whitespace gimna yaa

    • @Sarikhin
      @Sarikhin  Před 3 lety

      coba pake split(“
      ”) untuk hapus enternya
      Lebih jelasnya lihat ini
      stackoverflow.com/questions/40705480/python-pandas-remove-everything-after-a-delimiter-in-a-string

  • @daffasetiawan3941
    @daffasetiawan3941 Před 3 lety

    mau tanya mas, untuk dataset tweet nya dapatnya gimana ?

    • @Sarikhin
      @Sarikhin  Před 3 lety

      Dari crawling ada di video saya lain nya untuk tutor nya

  • @tiaraprastiwi8403
    @tiaraprastiwi8403 Před 3 lety

    bang sastrawinya kok ngak ke baca ya ? solusinya plis

    • @zaqycans3804
      @zaqycans3804 Před 2 lety

      izin bantu jawab bang, instal dlu sastrawinya kak .., pip install PySastrawi

  • @qoryandaniprasasti3791

    ada yang bisa bantu gak ya, waktu remove user eror dengan keterangan : TypeError: expected string or bytes-like object dan kolom baru untuk remove_user ga muncul
    semoga ada yang bisa kasih solusi
    terimakasih