Usando Whisper, la IA gratuita y libre de OpenAI para transcribir audio

Sdílet
Vložit
  • čas přidán 6. 03. 2023
  • Whisper es un programa de código abierto (!!) que mediante inteligencia artificial es capaz de tomar un archivo de audio (o de vídeo, si es capaz de extraerlo por su cuenta) y transformarlo a texto, interpretando lo que se dice y con una tasa de precisión que, aunque no es del 100%, es bastante buena.
    Whisper está hecho por OpenAI, pero por una vez el proceso es fácil de instalar y hasta un simio con manos como yo ha sido capaz de instalar Whisper en su PC, equipado con una NVIDIA bastante modesta y transcribir vídeo con una 1660.
    Algunas de las cosas a favor de Whisper son la capacidad de reconocer voz en múltiples idiomas, e incluso de traducir. Esto lo puede hacer bien gracias a las 680.000 horas de entrenamiento supervisado que ha recibido y que le convierten en una herramienta muy potente que nos va a permitir hacer cosas interesantes.
    Comparativa entre CZcams Captions y Whisper: gist.github.com/danirod/434a2...
    🔔 ¡Suscríbete ya! czcams.com/users/makigas?sub_confi...
    ➕ Más tutoriales en: www.makigas.es
    ⭐ Programa de miembros: youtube.com/@makigas/join
    📝 Foros de la comunidad: foro.makigas.es
    💬 Servidor de Discord: discord.makigas.es
  • Věda a technologie

Komentáře • 89

  • @makigas
    @makigas  Před měsícem

    Buenas, voy a pausar los comentarios de este vídeo porque no tengo tiempo de vigilar esto. Si no entiendes este vídeo, es que este vídeo no es para ti.

  • @Lunatuculito
    @Lunatuculito Před rokem +28

    El video está buenísimo, explica claramente las cosas... el problema es que cuando sos un neófito de la tecnología con tu primer computadora personal en la vida no entendés nada (o sea, yo xD). Deberías buscar el modo de hacer este tipo de videos, donde enseñas herramientas útiles para gestionar trabajos de oficina, como este de transcribir audios a texto para gente que trabaja con guiones, periodistas, etc., mucho más accesibles al público común u.u Porfa

  • @trashplayz3004
    @trashplayz3004 Před rokem

    muy util el video! sobre los modelos... se refiere al tamaño de capa de modelo, los mas pequeños suelen estar destinados a dispositivos moviles y los mas grandes... igual exigen de buena capacidad de procesado con gpu.

  • @luisfelipevelezzapata7340

    Lástima que no comienzas con lo más básico: dejar el enlace de descarga. Hasta ahí he llegado.

    • @klairm9097
      @klairm9097 Před 2 měsíci

      tu lo quieres todo mascado o que brooo espabila

  • @emiliocamposok
    @emiliocamposok Před rokem +16

    Muy buen aporte, pero como no soy programador, no entendí casi nada de los comandos y los paquetes de programas que utilizas para correr la instalación de Wishper. Si alguien me podria dar una mano en ese sentido se lo agradecería mucho. Gracias por compartir..

    • @3skrlata
      @3skrlata Před rokem +3

      yo tampoco entendi nada, alguien podría ayudarnos para poder instalar fácilmente :c trate de instalar la otras cosas extras pero no puede

  • @felipeger2688
    @felipeger2688 Před 10 měsíci

    hola una pregunta donde instalas que programas es??? donde colocas comandos...

  • @user-rf7ss8df5l
    @user-rf7ss8df5l Před 5 měsíci

    Hola, gracias por el vídeo!😊
    Podrías explicar cómo debo hacer para cambiar el idioma de español a inglés por favor 🙏. El audio que quiero transcribir está en inglés. Gracias!

  • @renzochalco5526
    @renzochalco5526 Před 5 měsíci +1

    No entiendo nada, no se como se instala cuda y que esta usando para instalarlo

  • @andresariascapurro
    @andresariascapurro Před rokem

    Gracias como siempre

  • @claudiobalderrama1599
    @claudiobalderrama1599 Před 4 měsíci

    Crees que sea posible el conseguir transcripción en tiempo real de alguna manera? por ejemplo en llamadas telefónicas en el buscador, agradecería mucho tu respuesta :)

  • @MrRobertosoto
    @MrRobertosoto Před rokem +1

    Hola he probado y ahora estoy usando esta aplicacion sobre OpenSuse Linux, y es una maravilla. Gracias por compartir. Saludos.

    • @leoautorep2389
      @leoautorep2389 Před rokem

      Hola amigo, me gustaría saber si podrías ayudarme a sacar los subtítulos de un vídeo de CZcams?

    • @leoautorep2389
      @leoautorep2389 Před rokem

      Pensé que sería fácil pero por lo que veo hay algunos requisitos que necesita mi PC para poder lograrlo según este tutorial

  • @El_Trastero_de_Demian
    @El_Trastero_de_Demian Před rokem +9

    Me gustaría utilizarlo, pero soy bastante torpe en el tema de programación, IA y lenguaje computacional (tan poco es que tenga muy buen ingles), de echo pones muchos programas que se necesitan que no tengo ni idea donde se consiguen dando por sentado que tu audiencia entiende todo que dices XD
    Tal ves no sea tan complejo, pero no tengo ni idea de por donde empezar y la verdad, francamente me gustaría probarlo.

  • @singularmaiartmilifeispoli8555

    Cuál es el link para usar whisper online o no se puede?
    Entre las apps de android en app store hay muchos, cuál es el verdadero?

  • @InglesparaTodos07
    @InglesparaTodos07 Před 6 měsíci

    hola buen video gracias tienee que ser una pc potente o cualquiera sirve

  • @lalitorams2735
    @lalitorams2735 Před rokem +3

    Recomiendo cambiar la portada porque pensé que era un anuncio
    Excelente video
    Gracias

  • @APOLKIS
    @APOLKIS Před 3 měsíci

    No me encuentra el archivo enm ninguna ruta que le ponga, que puedo hacer.

  • @Mfernandezreina
    @Mfernandezreina Před 4 měsíci

    Hola, he probado la herramienta pero dice que es de pago. Es que estoy haciendo algo mal?

  • @acaele
    @acaele Před 5 měsíci

    Hola, qué buen vídeo, ¿sabrás si esta herramienta te da los tiempos? (como para un SRT)
    Y en ese caso si te permite ponerle alguna limitación de número de palabras por línea o cosas así?

    • @makigas
      @makigas  Před 5 měsíci

      Sí, puede exportar a SRT, aunque es todavía un poco limitado porque a menudo toma frases largas y si le pides que las haga más cortas para que quepan en un subtítulo empieza a partir mal las palabras, al menos en español

  • @seqay3065
    @seqay3065 Před měsícem

    Si quisiera desplegar whisper, donde debería desplegarlo?

  • @jorgerenatosotoconcha9446
    @jorgerenatosotoconcha9446 Před 3 měsíci

    Hola Whisper en donde lo has instalado? me refiero dentro de qué aplicación o sitio web has instalado Whisper? esa parte no entendí ´

  • @FranciscoFF0
    @FranciscoFF0 Před rokem

    Que tal, sera que se pueda hacer una web donde le pases el video de youtube sin importar el idioma del video y te retorne el audio del video ya traducido o el mismo video ya con el audio sobrepuesto, seria usar whisper para pasar el audio a texto y traducirlo, que otra herramienta se podría usar para pasar de texto a audio

    • @makigas
      @makigas  Před rokem +1

      Bua, ese sería ya el siguiente paso, un generador de voces de código abierto para doblar vídeos a otro idioma

  • @damianferraro2070
    @damianferraro2070 Před 11 měsíci

    Excelente video! Que tal funciona con varios interlocutores? Un meet del trabajo por ejemplo.

    • @makigas
      @makigas  Před 11 měsíci

      Nunca lo he probado, ahora me da curiosidad, para mi whisper solo existo yo…

  • @theproclamer
    @theproclamer Před rokem

    Chicho pense que picarias python jajajajajaja, le probe hace un tiempo esta herramienta y de verdad es una locura lo que hace buen video compi!

  • @fabianmartinezn
    @fabianmartinezn Před rokem

    Hola,
    excelente esto. Una pregunta, cual es la diferencia entre el servicio de pago de whipser de Open AI y este software open Source?

    • @makigas
      @makigas  Před rokem +1

      Ninguna por el momento, el software open source lo tienes que instalar tú pero luego lo puedes usar cuanto quieras (el lo que chupa en electricidad la GPU durante el rato que estás traduciendo no es gratis, tho), el servicio de pago pagas por no pasar por sufrir.

  • @YusufSalahAdDin
    @YusufSalahAdDin Před rokem +2

    Precisamente una amiga estudiante de medicina y nosotros con mi hermana estábamos buscando una herramienta para transcribir, cosa que sea más fácil traducir libros. Sin querer, aquí me sale una posible solución, gracias!!!

  • @Dav1001
    @Dav1001 Před 5 měsíci +1

    JAJAJA "cada quien lleva las crisis como quiere" un crack

  • @LUISMARTINEZ-dy9ks
    @LUISMARTINEZ-dy9ks Před měsícem

    muy complicado de entender, ¿hay algo mas sencillo donde con solo subir un audio mp3 y que se traduzca online gratis en internet?

  • @oscarhernandez311
    @oscarhernandez311 Před rokem

    Lo probé con un audio pequeño y se tardó un buen rato, y entonces me di cuenta aue no estaba utilizando mi tarjeta gráfica sólo el procesador, por qué será? Ahora, el resultado es muy bueno con pocos errores

    • @makigas
      @makigas  Před rokem

      Quizá que falte instalar cuda… aunque solo es una suposición, lo mismo ya lo tienes

  • @guillermourquijonajera2780

    He escuchado que ocupas una tarjeta NVIDIA 1600, yo ocupo una GeoForce 210, se puede instalar tambien o tengo que cambiar mi tarjeta grafica?? Saludos excelente video.

    • @makigas
      @makigas  Před rokem +1

      Ya no tengo mi vieja 210 para probarlo con datos (me dio la vida esa gráfica cuando no había para más...), pero mi impresión es que o no la pillará por ser muy vieja y codificará por CPU, o la pillará pero será en rendimiento como si no la tuviese. Whisper puede codificar por CPU, pero el tiempo que toma codificar algo es mucho mayor, en mis pruebas con CPU tardaba como una hora en codificar un par de minutos de audio.

    • @guillermourquijonajera2780
      @guillermourquijonajera2780 Před rokem

      @@makigas muchas gracias, me sirvio mucho tu apoyo!!

  • @makigas
    @makigas  Před rokem +4

    ¡Buenas! Algunas aclaraciones extra que he omitido en el vídeo:
    * Me ha sorprendido que en muchas ocasiones, Whisper elimina interjecciones como "vale" o "sí". A decir verdad, me gusta, porque normalmente las quito de las transcripciones para no poner texto innecesario.
    * Me he fijado que a medida que va avanzando el vídeo, la transcripción de Whisper cada vez tiene menos comas y menos puntos. Me pregunto si es lo que la gente en los foros de Whisper llama "alucinaciones", o simplemente que la IA se cansa porque el output que genera para una frase depende de los outputs previamente generados.
    * Cuando subo una transcripción a CZcams suelo quitar los subtítulos generados por CZcams, pero en este caso a modo de benchmark he decidido dejarlos para que se pueda hacer una comparativa entre Whisper y CZcams. Además, os dejo el original, la versión revisada y el diff de la transcripción: gist.github.com/danirod/434a20a8153881ed5fecbdf3c5ff49bd

  • @raupulus
    @raupulus Před rokem

    Grande Dani!
    Hiciste que ampliara mi lista de cosas por probar :D

    • @makigas
      @makigas  Před rokem +1

      Esa lista está para ampliarla y ampliarla 😄

  • @braaddcueva
    @braaddcueva Před rokem +1

    Un abrazo, si quisiera convertir un audio ingles a espanol y luego a la inversa, seria posible?

    • @makigas
      @makigas  Před rokem

      Con Whisper no se genera voz, habría que usar una IA capaz de eso. Hay una libre llamada Bark, pero no la he probado todavía.

  • @camilodelrio9904
    @camilodelrio9904 Před rokem

    una pregunta, este programa puede transcribir clases magistrales de "12" horas? muchas gracias

    • @makigas
      @makigas  Před rokem

      En la versión cloud me parece que sí; en la versión que instalas no tengo constancia de que haya, le he pasado archivos grandes y se los ha comido; si da error por archivo muy grande, como un requisito para whisper es ffmpeg siempre se puede trocear en cachos de 1 hora o 30 minutos si fallase

  • @juannicolasbaquerocollante3960
    @juannicolasbaquerocollante3960 Před 10 měsíci +1

    Hay muchas cosas que siento que das por hecho que todos conocemos y no es así, aclaraciones que deberías hacer, como lo de la ruta del archivo que queremos transcribir, que no sé de dónde obtenerla, si estás en CMD o dónde, el por qué te sale whisper workstation, qué es phyton... Etc, muchas cosas que no entiendo y seguro que la mayoría de personas que no sepan mucho de esto, tampoco.

  • @SylvStone
    @SylvStone Před 4 měsíci

    OK, al memos tienes un Nvidea. Vine aquí buscando info sobre cómo funcionaría whisper en un entorno CPU con tarjeta gráfica Intel.

  • @monopedorro4444
    @monopedorro4444 Před rokem

    Buenas, genial el vídeo. Pero no sé si es solo a mí pero no puedo ver los subtítulos. Me encantan tus contenidos.

    • @makigas
      @makigas  Před rokem +1

      Que raro... igual es un tema de cache de CZcams, a mi sí me salen.
      (Me encanta tu nombre de usuario, por cierto xD)

    • @monopedorro4444
      @monopedorro4444 Před rokem

      @@makigas jaja, gracias. Puede ser porque lo estoy viendo desde el cel

    • @makigas
      @makigas  Před rokem +1

      Ah, puede ser, no lo he probado en móvil. En teoría he dejado las dos pistas; "Español" con la que ha generado Whisper, y "Español (generado automáticamente)" con lo que ha entendido CZcams.

  • @ivanfrias9203
    @ivanfrias9203 Před 9 měsíci

    para gestion las dependencias tambien puedes instalar anaconda y ahcer entornos virtuales aun mas facil

  • @SakuraHougetsu28
    @SakuraHougetsu28 Před rokem

    ¿no hay una manera de usarlo en una laptop sin grafica, me refiero, alguna forma online o donde no gastes recursos de pc (que no tienes), más bien, una alternativa para pobres xd?

    • @makigas
      @makigas  Před rokem

      La respuesta que OpenAI querría dar es "suscribiéndote a su servicio online y pagando una cuota". Sin una gráfica buena no queda otra que codificar por procesador, no es imposible pero claramente es un proceso que va a tardar unas horas (una noche tal vez), aparte de consumir más energía toda la noche.

  • @zxyx453
    @zxyx453 Před rokem +3

    Qué lío por qué no es intuitivo!?

  • @majonukac
    @majonukac Před 9 měsíci

    Whisper está usando mi cpu en lugar de mi gpu, tengo una GTX 1660ti, ya instalé CUDA y Pythorch

  • @juanelbolaelbola
    @juanelbolaelbola Před 2 měsíci

    tenemos una extensión de crome...... HARPA AI | lo trascribe todo y un montón de cosas mas, una locura esta conectada a gpt y Gemini cono ia, no hay que instalar nada.

  • @segundocastro9281
    @segundocastro9281 Před 3 měsíci +1

    nO ES GRATUITA .. solo es de prueba gratuita....luegi se debe pagar...

  • @avicap17
    @avicap17 Před rokem +1

    SE PUEDE traducir UN VIDEO DE INGLES A ESPAÑOL es lo que me interesa y nadie aclara y nadie da un ejemplo !!!!

    • @gely256
      @gely256 Před 7 měsíci

      Te echo un cable : El programa gratis Subtitle Edit, lo hace. Usa whisper, pero ya lo instala él solo todo, sin romper la cabeza. Además traduce a cualquier idioma. Es muy fácil de usar, pero como no te lo puedo explicar así, te recomiendo que busques "subtítulos automáticos con subtitle edit", donde te lo explican paso a paso. Verás qué fácil. Espero haberte ayudado.

  • @InnovaSytrus
    @InnovaSytrus Před rokem

    yo pensando que podia usarlo hasta que hablo de GPU y yo uso una integrada :(

    • @makigas
      @makigas  Před rokem +1

      Uf. A ver, hay un fallback a CPU, podrías intentarlo, pero va a tardar muchísimo más. Puedes probar con un audio de medio minuto y juzgar el resultado.

  • @rhkuhz
    @rhkuhz Před rokem +1

    Me gustaría un día cuando tenga tiempo usar esta herramienta para automatizar traducir un video de youtube, a ver como queda. Te descargas el video, transcribes, traduces, generas la voz con un tts y juntas el nuevo audio con el video. Para tutoriales me vendría muy bien porque no se me da muy bien entender el inglés hablado 😅

    • @makigas
      @makigas  Před rokem +1

      De hecho cuando CZcams active de forma global lo de permitir subir vídeos con audio en múltiples idiomas, esto podría ser un puntazo para ayudar a creadores a hacer su contenido más accesible

    • @rhkuhz
      @rhkuhz Před rokem

      @@makigas Buaaah es que eso es ideal y ya existen formas de automatizar todo el proceso, pero está confirmado esa feature?

    • @makigas
      @makigas  Před rokem +3

      ​@@rhkuhz Confirmado, está en QA. Se supone que lo iban a activar de forma global "en breve", pero ya sabemos lo que significa en breve con CZcams. Lo tiene MrBeast (si te vas a un vídeo suyo, al abrir la configuración puedes elegir el idioma del audio) y algunos canales importantes de la India también lo tienen ya, que es el país en el que CZcams suele probar todos sus experimentos

    • @rhkuhz
      @rhkuhz Před rokem

      @@makigas joder que alegría, gracias por la info, un saludo ;)

  • @neosebas8272
    @neosebas8272 Před rokem

    La barrera de los subtitulos la destruye totalmente para la gente que se le complica entender el ingles hablado 🎉

  • @Roberto_Ronconi
    @Roberto_Ronconi Před 2 měsíci

    Me gustaría mucho poder instalar y usar Whisper. Pero en este video lo explica muy mal y demasiado rápido... no se entiende.

  • @UrsulaSaracho
    @UrsulaSaracho Před rokem

    Tengo que comprarme una computadora

  • @julionicolastroncosomedina4933

    Está muy bueno el material, pero no es tan práctico para quienes no dominamos del todo la tecnología de computadoras.

  • @CSF230
    @CSF230 Před rokem

    Lamentable que no es 100% confiable ,sobre todo para sacar audio de videos de anime no lo recomiendo mucho sobre todo con los anime antiguos ,el audio de las nuevas series no hay mucho problema,igual tienen que revisar el texto porque no queda sincronizado los subtitulos

    • @makigas
      @makigas  Před rokem

      Sí, este bug lo vienen arrastrando, los subtítulos con tiempo son un poco inútiles, la sincronización no va fina.

    • @Jkayami
      @Jkayami Před rokem

      Quizás para ello se podría dividir el video, si a los 16 minutos por ejemplo los subtítulos pierden coherencia, dividir el trabajo en ese tiempo y después unir todo

  • @davidsolano2423
    @davidsolano2423 Před 7 měsíci

    La palabra tecnica es escupir? espero no se te vomite esa app XD

  • @jamal4014
    @jamal4014 Před měsícem

    No entendí ni vergas

  • @menillasotelo
    @menillasotelo Před 6 měsíci

    jajaaja es que tu pronunciación en ingles es mala

  • @user-ly5ev6hx8e
    @user-ly5ev6hx8e Před 11 měsíci

    La ia arruinado los trabajos, como siempre,

  • @EliGarcia.
    @EliGarcia. Před 2 měsíci

    He realizado las instalación desde pip, siguiendo los pasos que indica el repositorio. Pense que seria un proceso mas ligero, pero me consume 4gb de ram y un 40% del cpu en un core i7 4790, corriendo a 4ghz. No se si me han troleado pero en pantalla veo las siguientes lineas
    [00:00.000 --> 00:07.400] amigos. Bueno, buenos días.
    [00:30.000 --> 00:49.200] Jóvenes, ustedes dicen
    [00:49.200 --> 01:02.940] Price
    [01:02.960 --> 01:07.140] en los ninotos.
    [01:19.200 --> 01:21.200] Gracias por ver el vídeo.
    [01:21.200 --> 01:23.200] Suscríbete al canal.
    [01:49.200 --> 01:51.200] Suscríbete al canal.
    [02:19.200 --> 02:21.200] Suscríbete al canal.
    [02:50.200 --> 02:52.200] Suscríbete al canal.
    [02:52.200 --> 02:53.200] Suscríbete al canal.
    [03:19.200 --> 03:21.200] Suscríbete al canal.
    [03:49.200 --> 03:51.200] Suscríbete al canal.
    [04:19.200 --> 04:21.200] Suscríbete al canal.
    [04:49.200 --> 04:51.200] Suscríbete al canal.
    ¿Suscríbete al canal? ¿Es normal?

    • @makigas
      @makigas  Před 2 měsíci

      ¿Que repita una frase? Me está pasando también desde hace un tiempo en algunos vídeos y aún no se por qué. Me tranquiliza ver que no solo lo hace conmigo.

    • @EliGarcia.
      @EliGarcia. Před 2 měsíci

      @@makigas Como bien comentas, me tranquilza saber que no es un caso particular, probablemente sea un bug recurrente y pronto salga alguna actualización. Para agregar contexto, estoy usando una maquina con Fedora 40 y el bug aparecio con el modelo medium. He decidio probar con el modelo tiny, pero la semantica es algo rara aunque el proceso como era de esperarse muy veloz en comparación con medium. Saludos 👋 y gracias