Curso de Procesamiento del Lenguaje Natural (NLP) | Tus propios Embeddings Word2Vec en Python | E14

Sdílet
Vložit
  • čas přidán 5. 08. 2023
  • Aprende paso a paso cómo cargar y preprocesar un documento de texto para luego entrenar un modelo Word2Vec utilizando la biblioteca Gensim en Python. Esta guía te llevará desde la carga del documento hasta la generación de vectores para palabras específicas. El preprocesamiento es esencial para obtener resultados de alta calidad, y aquí te mostramos cómo dividir un documento en frases, limpiar estas frases de puntuación y convertirlas en listas de palabras.
    link al codigo:
    drive.google.com/drive/folder...
    ¿Regalame un Café?:
    ko-fi.com/ivespino
    Curso de Python desde cero 2023:
    • Curso de Python Desde ...
    ✈ Unete a nuestra comunidad de Telegram: t.me/+F9c-RdxQYRk4YTdh
    💎Únete a nuestra comunidad de Discord: / discord
    📥Correo de Contacto: ivespinops@gmail.com
    1. *Carga del Documento:* Empieza por cargar tu documento de texto. Esta guía utiliza un archivo llamado 'Minecraft.txt' como ejemplo, pero puedes adaptarlo a tus necesidades.
    2. *Preprocesamiento de Datos:* Una vez cargado el documento, es fundamental prepararlo para el entrenamiento. Aprenderás a dividir el texto en frases y a limpiar estas frases para obtener listas de palabras sin puntuación y en minúsculas.
    3. *Entrenamiento del Modelo Word2Vec:* Con el texto debidamente preprocesado, te mostramos cómo entrenar un modelo Word2Vec con Gensim. Ajusta parámetros como el tamaño del vector, la ventana y el conteo mínimo de palabras según tus necesidades.
    4. *Obtención de Vectores para Palabras Específicas:* Una vez que tu modelo esté entrenado, puedes obtener vectores para palabras específicas. Por ejemplo, en este tutorial, generamos un vector para la palabra 'minecraft'.
    La representación vectorial de palabras a través de modelos como Word2Vec ha revolucionado el campo del procesamiento del lenguaje natural (NLP). Estos vectores capturan la semántica de las palabras y permiten que las máquinas comprendan el significado y las relaciones entre palabras en un texto. Al seguir esta guía, no solo aprenderás los fundamentos del entrenamiento de modelos Word2Vec, sino que también adquirirás habilidades prácticas que podrás aplicar en tus propios proyectos de NLP.
    También se toca brevemente el tema de dividir textos en fragmentos con la biblioteca `langchain.text_splitter`, que puede ser útil para trabajar con grandes volúmenes de datos que requieren ser divididos en fragmentos más manejables.
    ¡No esperes más! Sumérgete en este tutorial y descubre el poder de los modelos Word2Vec y cómo puedes aprovecharlo en tus propios proyectos. Ya sea que seas un principiante en el mundo del procesamiento del lenguaje natural o un experto buscando refinar tus habilidades, esta guía tiene algo valioso para ofrecerte. ¡Comienza tu viaje en el fascinante mundo de la representación vectorial de palabras hoy mismo!
  • Věda a technologie

Komentáře • 25

  • @arnaldojimenez4769
    @arnaldojimenez4769 Před měsícem +1

    Excelente trabajo!!

  • @sonidosdetranquilidad
    @sonidosdetranquilidad Před 8 měsíci +1

    Súper, por fin la respuesta "Reina" , muchas gracias por los videos, un saludo desde Colombia

    • @CodigoEspinoza
      @CodigoEspinoza  Před 8 měsíci

      Gracias a ti por comentar, saludos hasta colombia

  • @kirashinigam
    @kirashinigam Před 6 měsíci +1

    Broo, felicidades excelente video todo super claro

  • @ronalgranja9301
    @ronalgranja9301 Před 10 měsíci

    Saludos.

  • @henrydj4478
    @henrydj4478 Před 2 měsíci +1

    Genial aporte bro una pregunta como le hago para cargar varios emb o vectores en este mismo proyecto

    • @CodigoEspinoza
      @CodigoEspinoza  Před 2 měsíci

      Hola depende que tipo de proyecto estés haciendo, dame un poquito más de contexto pro favor

    • @henrydj4478
      @henrydj4478 Před měsícem

      @@CodigoEspinoza estoy intentando crear una mini ia para que me renombre los titulos de las entradas en mis web y que me genere una descripcion de ellas

  • @guillermocaballeromartel9110
    @guillermocaballeromartel9110 Před 10 měsíci +1

    Excelente video, se agradece. Para crear un modelo conversacional, ¿los pasos son similares?

  • @julianprincipe8270
    @julianprincipe8270 Před 2 měsíci +1

    Una pequeña pregunta, como puedo acceder al archivo de Minectraft.txt? por que sino no puedo seguir de manera practica el video, y si no, puedo usar cualquier dataset con texto?

    • @CodigoEspinoza
      @CodigoEspinoza  Před měsícem

      Yo saqué un articulo de minecraft desde wikipedia y lo copie y lo pegué en un archivo txt

  • @AxL-9
    @AxL-9 Před 10 měsíci +1

    Genial 👍 ¿En vez de usar palabras, se puede hacer con caracteres? 😁 De ser así cómo crees que sería el modelo?

    • @CodigoEspinoza
      @CodigoEspinoza  Před 10 měsíci

      Mmmm no le veo mucha funcionalidad, para q lo encestas en caracteres?, tendrías que en vez de hacer un split transformar el texto a listas list(texto)

    • @AxL-9
      @AxL-9 Před 10 měsíci +1

      No lo necesito 😃. Solo es una curiosidad porque ChatGPT, por ejemplo, puede escribir palabras que no existen si le pides y pienso que lo hace por caracteres o qué otro método crees que usa?

    • @CodigoEspinoza
      @CodigoEspinoza  Před 10 měsíci +1

      @@AxL-9 o sea pro caracteres no está entrenado pero puede usar combinaciones de palabras q conoce y sabe q juntas no existen por ejemplo

  • @nenebaez4145
    @nenebaez4145 Před 10 měsíci +1

    Tiene que ser en jupyter?

    • @CodigoEspinoza
      @CodigoEspinoza  Před 10 měsíci +1

      No, puedes hacerlo en cualquier IDE de Python, me sale más fácil explicarlo ahi

  • @nenebaez4145
    @nenebaez4145 Před 10 měsíci +1

    Buenas tardes señor, puede un principiante seguir el video

    • @CodigoEspinoza
      @CodigoEspinoza  Před 10 měsíci +1

      Recomiendo ver los videos anteriores del curso si no sabes nada, pero con un poco de conocimiento no deberías tener problemas