Forschungsprojekt OpenGPT-XGroßes KI-Sprachmodell veröffentlicht
Das große KI-Sprachmodell des Forschungsprojekts OpenGPT-X steht ab sofort auf Hugging Face zum Download bereit: »Teuken-7B« wurde von Grund auf mit den 24 Amtssprachen der EU trainiert und umfasst 7 Mrd. Parameter.
Die Sprachverteilung von Teuken-7B-v0.4: Neben Code enthält Teuken-7B-v0.4 circa 50 % nicht-englischen Text aus 23 europäischen Ländern und nur circa 40 % englische Pretraining-Daten (zum Vergleich wurde Meta Llama3 nur mit 8 % nicht-englischen Sprachen trainiert). Damit unterscheidet sich Teuken-7B-v0.4 von den meisten bisher verfügbaren mehrsprachigen Modellen, die erst im Zuge eines fortgeführten Pretrainings oder Finetunings um mehrsprachige Daten erweitert wurden. © Fraunhofer IAIS

