Curso de Procesamiento del Lenguaje Natural (NLP) | Tus propios Embeddings Word2Vec en Python | E14
Vložit
- čas přidán 5. 08. 2023
- Aprende paso a paso cómo cargar y preprocesar un documento de texto para luego entrenar un modelo Word2Vec utilizando la biblioteca Gensim en Python. Esta guía te llevará desde la carga del documento hasta la generación de vectores para palabras específicas. El preprocesamiento es esencial para obtener resultados de alta calidad, y aquí te mostramos cómo dividir un documento en frases, limpiar estas frases de puntuación y convertirlas en listas de palabras.
link al codigo:
drive.google.com/drive/folder...
¿Regalame un Café?:
ko-fi.com/ivespino
Curso de Python desde cero 2023:
• Curso de Python Desde ...
✈ Unete a nuestra comunidad de Telegram: t.me/+F9c-RdxQYRk4YTdh
💎Únete a nuestra comunidad de Discord: / discord
📥Correo de Contacto: ivespinops@gmail.com
1. *Carga del Documento:* Empieza por cargar tu documento de texto. Esta guía utiliza un archivo llamado 'Minecraft.txt' como ejemplo, pero puedes adaptarlo a tus necesidades.
2. *Preprocesamiento de Datos:* Una vez cargado el documento, es fundamental prepararlo para el entrenamiento. Aprenderás a dividir el texto en frases y a limpiar estas frases para obtener listas de palabras sin puntuación y en minúsculas.
3. *Entrenamiento del Modelo Word2Vec:* Con el texto debidamente preprocesado, te mostramos cómo entrenar un modelo Word2Vec con Gensim. Ajusta parámetros como el tamaño del vector, la ventana y el conteo mínimo de palabras según tus necesidades.
4. *Obtención de Vectores para Palabras Específicas:* Una vez que tu modelo esté entrenado, puedes obtener vectores para palabras específicas. Por ejemplo, en este tutorial, generamos un vector para la palabra 'minecraft'.
La representación vectorial de palabras a través de modelos como Word2Vec ha revolucionado el campo del procesamiento del lenguaje natural (NLP). Estos vectores capturan la semántica de las palabras y permiten que las máquinas comprendan el significado y las relaciones entre palabras en un texto. Al seguir esta guía, no solo aprenderás los fundamentos del entrenamiento de modelos Word2Vec, sino que también adquirirás habilidades prácticas que podrás aplicar en tus propios proyectos de NLP.
También se toca brevemente el tema de dividir textos en fragmentos con la biblioteca `langchain.text_splitter`, que puede ser útil para trabajar con grandes volúmenes de datos que requieren ser divididos en fragmentos más manejables.
¡No esperes más! Sumérgete en este tutorial y descubre el poder de los modelos Word2Vec y cómo puedes aprovecharlo en tus propios proyectos. Ya sea que seas un principiante en el mundo del procesamiento del lenguaje natural o un experto buscando refinar tus habilidades, esta guía tiene algo valioso para ofrecerte. ¡Comienza tu viaje en el fascinante mundo de la representación vectorial de palabras hoy mismo! - Věda a technologie
Excelente trabajo!!
Muchas gracias por el comentario :)
Súper, por fin la respuesta "Reina" , muchas gracias por los videos, un saludo desde Colombia
Gracias a ti por comentar, saludos hasta colombia
Broo, felicidades excelente video todo super claro
Muchas Gracias!
Saludos.
Gracias :)
Genial aporte bro una pregunta como le hago para cargar varios emb o vectores en este mismo proyecto
Hola depende que tipo de proyecto estés haciendo, dame un poquito más de contexto pro favor
@@CodigoEspinoza estoy intentando crear una mini ia para que me renombre los titulos de las entradas en mis web y que me genere una descripcion de ellas
Excelente video, se agradece. Para crear un modelo conversacional, ¿los pasos son similares?
Mmm o sea el inicio si, pero ya llegaremos ahí xD
@@CodigoEspinoza.... excelente 👌. A esperar entonces.
Una pequeña pregunta, como puedo acceder al archivo de Minectraft.txt? por que sino no puedo seguir de manera practica el video, y si no, puedo usar cualquier dataset con texto?
Yo saqué un articulo de minecraft desde wikipedia y lo copie y lo pegué en un archivo txt
Genial 👍 ¿En vez de usar palabras, se puede hacer con caracteres? 😁 De ser así cómo crees que sería el modelo?
Mmmm no le veo mucha funcionalidad, para q lo encestas en caracteres?, tendrías que en vez de hacer un split transformar el texto a listas list(texto)
No lo necesito 😃. Solo es una curiosidad porque ChatGPT, por ejemplo, puede escribir palabras que no existen si le pides y pienso que lo hace por caracteres o qué otro método crees que usa?
@@AxL-9 o sea pro caracteres no está entrenado pero puede usar combinaciones de palabras q conoce y sabe q juntas no existen por ejemplo
Tiene que ser en jupyter?
No, puedes hacerlo en cualquier IDE de Python, me sale más fácil explicarlo ahi
Buenas tardes señor, puede un principiante seguir el video
Recomiendo ver los videos anteriores del curso si no sabes nada, pero con un poco de conocimiento no deberías tener problemas