Parte 2: Creando un asistente virtual personalizado.

AMP Tech

zhlédnutí 11 969

Přidat do
- Můj playlist
- Přehrát později
Sdílet

Sdílet

Vložit

Velikost videa:

Zobrazit ovladače přehrávání

Automatické přehrávání

Přehrát

čas přidán 25. 07. 2024
Este es el segundo video sobre el proyecto para armar mi propio asistente virtual el cual correrá de manera local.
Repositorio del asistente:
github.com/puigalex/asistente...
- 🔊 Si quieres apoyar al canal 🫶 para que haya mas y mejor contenido (ganar-ganar-ganar jaja) puedes hacerlo por Patreon! 🔊
/ amptech_cc
#whisper #homeassistant #inteligenciaartificial #openai
0:00 - Intro
0:30 - Alcance del proyecto
1:40 - Cambios
7:10 - Participación de la comunidad
Věda a technologie

Komentáře • 68

@mew6941 Před rokem ⁺⁵
Meta también acaba de liberar un poderoso modelo de segmentación de objetos que se podria usar local, para cosas tipo "ordenador, donde dejé las llaves?" -"están sobre la mesa en la habitación".
@laravindelpixel873 Před rokem ⁺⁵
El proyecto es flipante y la comunidad que has formado alrededor de este es increíble, gran trabajo!!!
@AMPTech Před rokem ⁺¹
Muchas gracias!
@carlosandresurreasamboni Před rokem ⁺¹
La tienes clara Alex, felicitaciones
@charlesblack7989 Před rokem ⁺⁷
Uff perfecto. Tengo el mio a medias y es practicamente lo mismo. Uso Jetson nano. Me va de lujo porque la union hace la fuerza, así que cuando pueda os paso toda la info. Lo ultimo que hice fue que se conectara a un smartphone con telegram y obtuviera la info de internet a traves del telefono. La Jetson pregunta al smartphone a traves de archivos escritos y este los lee y pregunta a google, la respuesta la de vuelve de igual manera. Bueno, ya os contaré. Saludos y fuerza al proyecto!!!
@MrRompetecho Před rokem
Muy buenas, una pregunta, como tienes configurado el Jetson nano va bien con Whisper y usando modelos similares? O se queda corto por su RAM reducida (entre otras cosas) al modelo superior?
@LocalGhost_8080 Před rokem ⁺¹
que fregon!
@carlosdantenicolasdelafuen1293 Před rokem
Gracias 👋👋👋👍
@alex_pnf Před rokem ⁺¹
Por cierto muy buen video y excelente idea. Me gustaría aportar código pero no tengo conocimientos jjaja.
@dumvsu Před rokem ⁺¹
Buenas otra vez, volviendo a ver el video, me acordé de algo que te puede interesar, ya que quieres hacer un histórico de video.
Hay un formato de video, (lo descubrí en un producto que abajo pongo el enlace), que usa object mp4, que según dicen añade una "pista" adicional a las clásicas Video y Audio, añaden Data, y ahí se puede guardar los objetos detectados/puntos de interes/subtitulos en la línea de tiempo y después poder buscar para localiza en momento exacto del video.
Todos estos metadatos dentro del mismo archivo MP4. Te dejo el link.
@jhenrygv281 Před rokem
Hola felicitaciones, excelente contenido.
Qué tal si lo agregas un gps y este que este enviando datos al AI, así te de contenido como cuantos km has caminado, lugares que visitarte, etc. todo referente a gps y pq no algunos otros sensores también.
Bendiciones!!
@tatanacunaaguilera7537 Před rokem
Primero que todo felicitarte por la gran iniciativa!!! se aprende mucho y permite resolver dudas de aplicación de distintas tecnologías (la maravilla de la comunidad)
En relación a funcionalidades, lo principal como asistente es que cumpla el rol de asistir con almacenar información y posterior organización, así que creo que es impresindible las listas de tareas, listas de super, listas de ideas, notas, etc ... mejor si se puede conectar por API para dejar en un registro para acceder desde cualquier lugar. Esto sumado a la entrega de información y combinación con IoT son (creo yo) el eje de una máquina que te asista. Vi que casi todo lo tienes en por hacer y varias ya avanzadas.
Combinado con las cámaras puede ser colocar un interfaz para enviarle un mensaje por 2G o red y hacer acciones de domótica, que creo para un etapa inicial escapan un poco pero a futuro.
Quizás igual poder colocar sensores como los llamados fin de carrera u otro similar para detectar cuando una puerta está cerrada y en la noche o cuando sales te pueda chequear si está todo cerrado, o que incluso con un motor PaP se pueda realizar la acción. O quizás con las cortinas para que se abran en las mañanas jajaajaja
Un gran abrazo y muchas gracias por el gran contenido ! 😁😁
@AMPTech Před rokem
Hola Tatan,
Muy buenas ideas, el tema de IoT va a ser muy importante, considero que tenemos que empezar a descentralizar el procesamiento de redes neuronales y empezar a correr modelos en los dispositivos que estan capturando los datos (aunque sean modelos mas especializados).
La idea de las cortinas es un proyecto que he querido hacer desde hace un par de años, solo que no he tenido el tiempo para hacerlo. Y no creo que sea muy complicado la verdad, al menos el mecanismo, sensor y actuador no. Ya cuando intentas meter todo en un software es cuando empiezan a complicarse las cosas jaja
@alvarogonzalez0 Před rokem ⁺¹
Estaría genial que lo podamos hacer app
@jprcdev Před rokem
no se python pero lo que voy a implementar es la idea que te di hace mucho tiempo en el primer video la capacidad de gestionar los servidores remotos, con conexion a una api al server y demas lo hare en spring boot seguro ese api y vere como lanzar las request desde python
@didimoescobar2247 Před 10 měsíci
Gran video y foco en este tipo de modelos.... !!!!, deseo preguntar que distro de linux estas usando para el proyecto ??
@Mecatronilab Před rokem ⁺¹
Recomiendo que directamente vayas por usar una red neuronal para reconocer las palabras claves, ya pase por ahí y la red neuronal es la mejor solución incluso puede ser escalable para implementar nuevos comandos. Mientras mantienes la escucha activa en un hilo, tienes la red neuronal en otro hilo. Así es mas similar a como se comporta el cerebro humano.
@andresbuitrago5408 Před rokem ⁺¹
Super este proyecto una pregunta como puedo ejecutar el tema de traducción en vivo y transcripción desde google colab
@king_lupus Před rokem
Sería bastante útil en traducciones en tiempo real en videollamadas, como una función. Es decir, que implemente subtítulos en el idioma del receptor en la imagen del emisor cuando este hablando. Por cierto, excelente proyecto, espero con ansias el siguiente video!, saludos.
@AMPTech Před rokem
Muy buena idea, no se me habia ocurrido, pero es algo que puede ser bastante util! Saludos
@diegohurtado8881 Před rokem
Yo hare un proyecto parecido pero para controlar un brazo robotico como extra, bueno mi idea es pareciada a usar gpt-3, en mi caso planeo usar bloom que es una alternativa opensource que puedo correr localmente, el tiempo que tarde en generar texto seria el mayor problema. Ademas primero quiero hacer que clasifique que tipo de actividad quiero hacer, es decir si quiero que mueva el brazo robotico, revisara lo que le dije y si lo que le dije es relacionado a mover el brazo robotico, dara un 1 por ejemplo o si quiero que tome nota de algo generara un 2 y asi, de esta manera solo tendria que programar cada funcion. Aun es una idea incompleta pero medio funciona en mi cabeza jaja
@guillermovillamayor3415 Před rokem ⁺³
Lo que yo hice es mandar los archivos WAV con una superposiciòn de unos 2 segundos. Asi si te corta una palabra, esta aparece en el otro frame. Funciona razonablemente bien. Pero mi idea es reconocer unas pocas palabras (comandos) y cargarlo en forma distribuida en varias ESP32 de forma tal que pueda pone un mòdulo por ejemplo en la caja de luz de la cocina y que reconozca el comando de activaciòn (por ejemplo computadora o casa o siri o alexa o nujau baidu) y despuès el comando que tiene que ejecutar. El reconocimiento lo hago con una red convolucional muy liviano (algo asi como reconocer una imagen pero la imagen la saco del archivo de audio) y todo esto funciona con el delay de 10 o 15 segundos que arda en grabarse cada frame. Usè como base el còdigo que està en la documentaciòn de Tensorflow y despuès lo pasè aTF Lite. Saludos.
@AMPTech Před rokem
Eso es algo que quiero probar después, descentralizar el procesamiento para que estén lo mas cerca al "edge" posible. Todo el campo de Tiny ML me parece super prometedor
@CyberIngeniero Před rokem ⁺²
Tremendo proyecto!! Esperare ansioso el próximo video! Te dejo una pregunta, cual sería una alternativa viable a la Jetson Orin en relación al hardware? Saludos!
@AMPTech Před rokem
Para lo que llevamos hasta el momento, creo que cualquier computadora puede correrlo. Aunque un GPU si aceleraria mucho la velocidad de inferencias, una computadora o laptop lo podria correr sin mucho problema, aunque tal vez un poquito mas lento.
@tadzukoi7296 Před rokem ⁺²
Hola podrías Mostrar cómo se podría agregar un sistema de reconocimiento de voz similar al de Elsa speak
@sasac.r7819 Před 3 měsíci
Se que ya es muy tarde, pero me gustaría que al darle un pdf, aprenda lo que tiene escrito y comience a poner en practica lo aprendido
@alex_pnf Před rokem ⁺¹
crea una implementación con homeassistant
@dumvsu Před rokem ⁺¹
Simplemente brutal, como te lo estás trabajando 🙌. En breve la Nvidia Orin Nano estará disponible (unos 3 meses) y ya admiten prereserva de la Orin NX 16gb en seeedstudio por unos 900 dólares con una potencia de cómputo de 100TOPS. La que usas creo que son 2000$ no?
Me gustaría mucho que nos hablases de cuanto procesamiento va consumiendo según añades cámaras y otras funciones. Para poder dimensionar y no gastar dinero dos veces.
La Orin 8GB y 16gb son unos 21TOPS (400-500$) , La Orin NX 8gb son 70TOPS (400$)...
pero sin contexto para mi los TOPS son solo números.
Nuevamente muchas gracias por compartir 😊
@AMPTech Před rokem ⁺¹
Muchas gracias por el comentario. Me gusta la idea de ir viendo como va cambiando el procesamiento conforme vamos agregando funcionalidades. Porque hasta la AGX tiene sus limites jaja. Una cosa que tambien me parece muy itneresante es que NVIDIA lanzo una imagenes para que la Jetson AGX pueda emular a los demas dispositivos de la linea Orin, como la Jetson Orin Nano.
@joseleonardosanchezvasquez1514 Před rokem
Deberías unir el primer video a la lista de reproducción
@AMPTech Před rokem
No lo habia notado! Ya lo hice. Gracias por avisarme.
@HernanOtta Před rokem
le estuve preguntando a chat gpt y me dijo que el script esmuy basico , donde puedo encontrar scripts con funcionalidades avanzadas para mi asistente?
@sgarciamu Před rokem
No sé si en los comentarios ya lo han dicho, pero no lo he visto creo que una gran funcionalidad podría ser hacer un reconocimiento de las personas según la voz creo que es interesante para un sitio donde existe más de una persona hablando y que pudiera llegar a reconocer la voz de uno u otro generando ficheros personalizados para cada persona. Me refiero a que guarde la información Tasquita, pero con un tac indicando qué persona es la que ha dicho qué
@AMPTech Před rokem
Buena idea, ya tengo un modelo que hace eso. Lo que tendre que revisar es como lo podriamos integrar con whisper. Saludos!
@socratesedgaralbinosanti-jq1rc Před rokem
Quiero aprender a programar, me gustaría saber más sobre esto. Se me ha sido algo tedioso pero me gusta desde mucho tiempo eh querido realizar algo así para mi. Alguien que me ayude porque si me cuesta algo entender, pues me gusta analizar para que funciona cada renglón de un código o porque debo poner eso y otra directivas. Se oye bien pero si necesito aprender mas...aunque sea de cero no importa. Gracias.
@jorgeespana482 Před rokem ⁺¹
Hola!
Me parece un proyecto excelente!
Y la idea de colaborar me emociona, será posible correr el proyecto en Windows con tarjeta gráfica Nvidia?
@AMPTech Před rokem ⁺¹
Si debería correr por docker.
@scrhall Před rokem
Cuando tenga tiempo me gustaría ver como de fácil es integrarlo con Node Red, solo necesitaría que enviara las transcripciones a node red, y desde node red ya integraria con home assistant o cualquier otra cosa
@AMPTech Před rokem
Esta muy interesante este camino! Si lo logras avisame o haz alguna aportación el repo. Saludos
@gianluquedesimone9660 Před rokem ⁺¹
Tengo una duda quiza de principiante en el tema: ¿Cómo se maneja el almacenamiento en este caso? Siempre estaras guardando todo lo que dices y haces entiendo que en algun punto deberia llenarse de los archivos wav que guardas. En ese caso los desplazarias borrando los mas viejos o hay algun otro método?
@AMPTech Před rokem ⁺¹
Por el momento no estoy almacenando ningun wav, solo el transcript que genera. Pero se podrían hacer varias cosas, por ejemplo mandar archivos a algun servicio como google drive. Otra opcion podria ser mandarlo a un NAS, el cual tiene la ventaja de mantener todo local, pero pues uno tiene que comprar los discos duros y demas infraestructura.
@dnlzen1 Před 11 měsíci ⁺¹
Hola! Cuanto cuesta trabajar con whisper. En lo que es texto, hay un costo x token al usar la api. Lo pregunto porque si es grabacion continua el input podria ser muy caro. O no?
@AMPTech Před 11 měsíci
Esta es una version que corre local. No tiene costo alguno, si lo usas desde el API de OpenAI ahi es donde ya tiene un costo
@D3rekOficial Před rokem
cuando estará la parte 3?
@AMPTech Před rokem
Es el proximo video que sale esta semana!
@joseleonardosanchezvasquez1514 Před rokem
Oye esta muy bueno todo, pero quiero preguntarte algo, si whisper trascribe algo en coreano por ejemplo le puedo decir que lo traduzca al español o solo al ingles, se que traduce muy bien al ingles.
@AMPTech Před rokem
Por el momento solo puede hacerlo al inglés. No se si tienen planes para hacerlo funcionar con mas idiomas.
@Au-jc2ew Před rokem
Que tal esta funcionaria la placa Khadas edge2 para este proyecto?
Tiene un tamaño muy contenido, y sobre todo paro proyectos embarcados, puede ser muy interesante, pero no sé que tal rendimiento tendrá.
@AMPTech Před rokem
No he tenido oportunidad de usarla, por lo que veo es un concepto entre la raspberry pi y la jetson nano. Imagino que podría llegarlo a correr, pero como no tiene un GPU NVIDIA, puede que haya algunos problemas de compatibilidad al momento de intentar procesar las redes neuronales desde la tarjeta grafica.
Voy a echarle un vistazo y si me animo a comprar una puedo hacer un video entrando un poco mas a detalle.
@Au-jc2ew Před rokem
Muchas gracias ¡¡
@@AMPTech Mi idea, y el motivo de buscar placas de este tipo, pequeñas, es que pretendo empotrarla en un vehículo, como asistente que me permita gestionar la domótica de casa, desde el coche. Sería algo así como una versión reducida de tu proyecto.
Actualmente, la domótica de casa, la gestiono en remoto desde el móvil, me permite realizar cosas como abrí la puerta para recibir paquetes, poner el lavaplatos o la lavadora , atender eventos de cualquier tipo que la domótica pueda generar, mi casa funciona desde hace 2 años con placas solares, y esto implica una supervisión adicional, para poder aprovechar correctamente las horas de sol. El caso es que es muy corriente que durarte la jornada acceda en barias ocasiones al sistema domótico, y en muchas ocasiones, esto sucede mientras conduzco.
Aún hay cosas que no tengo completamente definidas, como el sistema de alimentación para la placa, que permita arrancar con el vehículo y entrar en reposo con la parada del motor .. Añadir algunas funcionalidades más , como gps, que pueden mejorar procesos de automatización, o como funcionara el asistente, si recibo una llamada desde la puerta de la calle, mientras hablo con el mensajero por el móvil puedo verlo en las cámaras , pero no quisiera que el tb escucharas las ordenas del asistente... esto lo tengo que protocolizar aún. Actualmente, cuando llaman al interfono, salta una grabación mientras contesto la llamada, esto lo estoy haciendo con una centralita soft VoIp la casa me llama al móvil cuando alguien llama a la puerta de manera que puede hablar desde el «interfono» con la persona que está en la puerta, y después puedo abrir y cerrar la puerta.. Incluso llamar yo al interfono, si por alguna causa se corta la conexión, todo esto está empotrado en nodered y se visualizan las cámaras de la entrada al tiempo que se habla, etc. Pero..... no lo puedo hacer mientras conduzco ... Esto es lo que intento... refinar con un asistente ¡¡
@nexgen6305 Před rokem
y si le integras un algoritmo de autoconciencia para que se autoidentifique asi misma y cuando le hables dirigiendote a ella te responda, por ejemplo mirando a la camara, y diciendo "Name" puedes encender la luz o que le digas "oye podrias ayudarme"
@AMPTech Před rokem
Buena aportación. Alguien en la comunidad me comento que si volteo a ver una cámara, que sepa que me estoy dirigiendo al asistente. Pero únicamente con la voz no sabría como hacerlo. Tengo que sentarme a pensar que podría ser para que sepa que tipo de "habla" es general y cual es dirigida específicamente al asistente. En una de esas y algo como un clasificador de frases podría ser un buen acercamiento.
Saludos!
@HernanOtta Před rokem
necesito un asistente , para algunas tareas especiales en algunos programas que tengo en la pc y que el codigo sea inteligente y educable , la verdad que hace tiempo que quiero empezar un proyecto , y no encuentro ayuda , aunquesea algun lugar donde compartan script , la idea mia era hacer uno en dialowflow pero lo veo engorroso , ni siquiera puedo empezarlo , ayuda please , luego puedo aportar de lo mio al canal si me asisten
@SantiagoTrebucq Před rokem
Que bueno Alex. Yo dejo mi comentario para que el algoritmo de CZcams siempre me muestre tu video y no que suponga que lo vi pero no me es relevante...
@AMPTech Před rokem
Muchas gracias Santiago! A veces este algoritmo de CZcams se despista un poco jaja
@hermez2208 Před rokem
No se si ya me este volando la cabeza, pero si algunas de las camaras detectan tu refrigerador y ven que esta vacio o falta por comprar algo, que te lo recuerden o te hagan una lista
Creo que alguien ya dijo esto mas abajo, pero estaria buenazo que cuando te despiertes te salude y te diga algo de tus pendientes o rutinas y que cuando te duermas apague todo o parecido
Tambien no hay que olvidar la parte de seguridad
@hermez2208 Před rokem
y que pasaria si escuchas una cancion en español y quieres hablarle al asistente?
@hermez2208 Před rokem
Y si en algun momento dejas tu casa sola, que sea capaz de reconocer un intruso? xD (esto seria despues del mvp)
@AMPTech Před rokem
Muy buen punto, eso no lo he hecho ahorita. Pero hay modelos que ayudan a detectar quien dice que. Entonces podría procesar unicamente lo que diga yo.
@AMPTech Před rokem
Justo estoy armando una funcionalidad similar y la voy a conectar con un video sobre los embeddings de openai
@alejandro8943 Před rokem ⁺¹
me gustaria correr ese proyecto en mi pc pero mi gpu es de amd :(
@AMPTech Před rokem ⁺¹
Puedes correrlo. Whisper no requiere obligatoriamente GPU. Asi Que puede correr en tu cpu sin tema. Tal vez el contenedor de docker es lo que no corre (pues es para correr con cuda) pero puedes hacer la instalación de todas las dependencias aparte. Actualizaré la documentación en los próximos días para que se pueda hacer sin docker.
@SebastianSanhuezaTapia Před rokem
Podría reconocer lo que comes y cuanto, para ver cuantas calorías ingeriste :D
@AMPTech Před rokem
Estaría bueno! Habrá que pensar una manera de recolectar datos
@UlfFrostyPaw Před rokem
Edit: Implementa pytts para que hable jsjs
@AMPTech Před rokem ⁺¹
Voy a echarle un ojo. Saludos!

Další v pořadí

Automatické přehrávání

Crea tu asistente virtual con ChatGPT (pt 3)