QLoRA: entrenar un Gran Modelo de Lenguaje en una GPU de 16 GB.
Si juntamos las dos técnicas podemos cargar un gran modelo de lenguaje en mucha menos memoria de la que necesitaría y fine-tunearlo. Combinando las dos somos capaces de fine-tunear modelos…