Qué equipo necesito para generar textos rápidamente en local con Llama-2, Mistral, etc.

La Hora Maker

zhlédnutí 6 583

Přidat do
- Můj playlist
- Přehrát později
Sdílet

Sdílet

Vložit

Velikost videa:

Zobrazit ovladače přehrávání

Automatické přehrávání

Přehrát

čas přidán 6. 11. 2023
En este vídeo vamos a descubrir cuál es el principal factor para determinar la velocidad de creación de texto en distintas plataformas. Compararemos el potencial de las tarjetas RTX, las CPU Intel o Ryzen y ordenadores más modestos como las Raspberry Pi.
Věda a technologie

Komentáře • 35

@code_1988 Před 3 dny
Que bien se escucha el audio , felicitaciones por mejorar el equipo , saludos
@inteligenciafutura Před 3 měsíci ⁺⁶
Yo con mi rtx 3060 y 32 gigas de ram funciona de maravilla
@LaHoraMaker Před 3 měsíci ⁺¹
Genial! Gracias por compartir tú experiencia
@teloensenoen3minutos2023 Před 6 měsíci ⁺³
Que bueno que llego el Vikingo de los Hobbit con este video ... Muchas gracias🎉
@LaHoraMaker Před 6 měsíci ⁺²
¡Resonarán desde Isengard hasta la Comarca las huellas de los makers!
@pablobandeira5461 Před 3 měsíci ⁺¹
EXCELENTE VIDEO, GRACIAS!!
@RichardKroebel Před 5 měsíci ⁺¹
Magnifico, muchas gracias.
@LaHoraMaker Před 4 měsíci
Gracias por comentar
@carlosleon8806 Před 4 měsíci ⁺¹
Genial!
@LaHoraMaker Před 4 měsíci
Gracias por tu comentario
@aguijon6 Před 8 měsíci ⁺¹
Muchas gracias por esta info tan práctica y accesible para gente que tenemos un entendimiento básico pero no hemos tocado nada todavía .
El primer lote de SBC de Rockchip serán dentro de poco enviados a los usuarios “corrientes”. Sólo los desarrolladores o influencers VIP habrán tenido acceso ya a esta plataforma, el RK1.
El modelo tope fue finalmente de 32GB, pero esta versión se está retrasando por los problemas de abastecimiento de chips de memoria, por lo que en el momento de salida, el modelo más grande va a ser de 16GB.
Tal como está el desarrollo ahora, parece que los modelos deben adaptarse/transformarse al formato de la SDK propia que usan los Rockchip, no tienen port nativo estándar, aunque mi conocimiento de esto es casi nulo.
@LaHoraMaker Před 8 měsíci ⁺¹
Justo he aprovechado la promo del 11.11 para comprar una Orange Pi 5 Plus con RK3588 y 16 Gb de RAM. Vi también equipos de 32 Gb pero se agotaron relativamente rápido. La placa también era un 30% más cara que el modelo de 16 Gb y opté por el modelo más común, ya que asumo que no todo el mundo va a poder conseguirlas. A esto habría que sumarle que parece que el cuello de botella de la placa está en el acceso a la memoria, así que aunque le meta más, el rendimiento tampoco debería mejorar sustancialmente. En cuanto llegue, nos ponemos manos a la obra!
@aguijon6 Před 8 měsíci
@@LaHoraMaker no sabía que la Orange Pi 5 también usa ese SOC. En mi caso tengo encargado de hace tiempo el Compute Module de Turing RK1 con 16 GB. Parece que tiene mismas especificaciones fundamentalmente, pero en mi caso es para insertarlo en una placa Turing Pi 2 con otros CM. Este Turing RK1 todavía no ha empezado su vida comercial, y me llegará en la primera tanda de precompras.
@zonadock Před 2 měsíci
Gracias, César. Me encantan tus vídeos.
Una duda. Es un poco enrevesada. Sabes por casualidad si se podría utilizar la API en alguno de estos modelos que tengamos en el ordenador, para usarlos con un Agente IA en Make, Zapier o n8n con HTTP Request, en vez de utilizar los que hay por defecto de Openai.
@TheBeachLab Před 8 měsíci ⁺²
Cesar tienes un programa tentativo de los temas que vas a ir tratando? Estuve mirando los modelos TheBloke pero hay tantos que me suena a chino todo. Ayer probé el DeepSeek Coder y me gustó bastante. Estoy aprendiendo mucho con tus explicaciones!
@LaHoraMaker Před 8 měsíci ⁺²
Tengo claros los temas y la dirección, pero todavía no tengo lista definitiva. En cualquier caso, me sirve mucho el feedback para preparar videos específicos... como el de hoy!
@ValeriusSnow Před měsícem
tengo 2 A100, supongo que me serviran :D
@eramacom Před 2 měsíci
Tengo un Rig con 6 placas, se puede configurar para usar las 6 placas dedicadas a correr estos modelos?
@carlosarturo1878 Před 23 dny
eres muy caro en tus explicaciones, no hablas carreta, de admirarrrrrr
@c00314 Před 8 měsíci
@LaHoraMaker Buenas tardes, me gustaria empezar desde casi cero y querria que me recomendaras un hardware para seguir tus tutoriales. He visto que te has comprado una Orange Pi, me valdría tambien una Firefly con una ROC-RK3588-RT?
@LaHoraMaker Před 8 měsíci
Si tienes un equipo de sobremesa medianamente decente, te recomendaría comprar mejor una NVidia RTX2060 de 12 Gb o una 3060. No vas a encontrar mucha diferencia de precio o rendimiento entre ambas.
Los SoC RK3588 pueden correr los modelos pero es todo mega experimental y no demasiado rápido. Con la NVIdia vas a poder hacer muchísimas más cosas.
@zensack7310 Před 4 měsíci
Hola tengo una 3080, en una maquina con una ryzen 5 5600x 32Gb de ram, instale el chat de oobagooba, cual modelo de los de sin censura los de mixtral y configuración podría usar para sacarle mayor rendimiento, me conformo incluso con 5/10 tokens por segundo la verdad. por cierto tengo python 3.10.6 deberia actualizarlo? gracias
@LaHoraMaker Před 4 měsíci
Los modelos Mixtral requiren mucha VRAM. En cuantización Q4, vas a necesitarr 26 gigas entre RAM y VRAM. Yo con una 3090 estoy corriendo Q3 y no va del todo mal, aunque requiere también mucha memoria.
Te recomendaria para la 3080 algún modelo tipo Solar, que da muy buenos resultados y requiere menos recursos.
@zensack7310 Před 4 měsíci ⁺¹
@@LaHoraMaker Hola gracias por tu respuesta logré hacerla funcionar rápido, no se si es un bug pero mi 3080 de 10Gb corre modelos que pesan 10Gb en el discoduro, Q4, Q5 yo cargo el modelo y va lentísimo, 1 tks/s pero si recargo el modelo varias veces asi sin sentido solo pulsar recargar cambiando la cantidad de layers, para al final dejarlo en 33 layers, ya luego me genera 33 tks/s y lo he probado varias veces y asi lo soluciono es como si el WEBUI no cargase bien todos los parametros a menos que hagas reload varias veces seguidas. 🤔
@raulgarciarodrigo Před 4 měsíci ⁺²
Creo que con las rpi 5 subimos a 30 GB/S...
@LaHoraMaker Před 4 měsíci ⁺¹
¡Genial noticia! ¿Tienes localizado algún benchmark al respecto? Gracias de antemano!
@andreszabala256 Před 3 měsíci ⁺¹
Si consigo un equipo con 64 gb de ram y una 3090 que modelo me funcionaria bien?
@LaHoraMaker Před 3 měsíci ⁺⁴
Con esa configuración vas a poder ejecutar quantizados modelos como Mixtral 8x7B en Q3 o Command-R de 34B en Q4 usando Ollama
@andreszabala256 Před 3 měsíci
Muchas gracias por responder
@joanalgarate4912 Před 5 měsíci ⁺¹
Yo tengo un i7 6700k con oc a 4.6 y tengo 2,7 tokens por segundo con mixtral de 39gb con ddr4 a 2400
@LaHoraMaker Před 5 měsíci
Gracias Joan por compartir tu configuración! Imagino que puedes correr también con modelos sin problemas, siempre que sean de tamaño menor a tu RAM (¿64 Gb?)
@joanalgarate4912 Před 5 měsíci
@@LaHoraMaker si, tengo 64gb. El equipo es de época y va a su ritmo, todo lo que sea menor se lo traga "bien"
@carlosgaliana4018 Před 4 měsíci
@@joanalgarate4912 solo usas cpu? estoy indeciso y quiero montar un equipo, pero me gustaria moverlo todo con cpu estoy mirando un amd 5950x
@joanalgarate4912 Před 4 měsíci
@@carlosgaliana4018 si, solo cpu. Te irá bien, esa cpu le da 1000 vueltas a la mia. Metele mucha ram, mínimo 64gb
@a0z9 Před 3 měsíci ⁺²
Los moletos grandes matan el rendimiento. Solución, modelos pequeños entrenados en lagares específicos de datos. La mezcla de expertos y los agentes colaborativos son la forma de plantar cara a las grandes corporaciones que tienen el dinero por castigo.

Další v pořadí

Automatické přehrávání

Descifrando los nombres de modelos LLM abiertos en Hugging Face