Das größte Sprachmodell für Französisch

29/3/2022

Cedille, eine neue künstliche Intelligenz, die von der im EPFL-Innovationspark in Lausanne ansässigen Digitalagentur Coteries entwickelt wurde, bietet eine bahnbrechende Lösung für französischsprachige Nutzer.

Die Erstellung französischer Inhalte wird nun einfacher. Jedes Unternehmen, das im Bereich der Generierung französischer Texte tätig ist und bisher hauptsächlich auf englischsprachige Modelle zurückgreifen konnte, kann nun das bisher größte französischsprachige Modell nutzen, das in einer Beta-Version auf app.cedille.ai öffentlich zugänglich ist.

Cedille.ai, das leistungsfähigste französischsprachige Modell auf dem Markt


Ein Bild mit Text, Person, IndoorBeschreibung automatisch generiert
Martin Müller und Florian Laurent, die beiden Senior Machine Learning Engineers hinter der Entwicklung von Cedille.ai


Das Modell erreicht jetzt einen Perplexitätswert - eine wichtige Leistungskennzahl für die Vorhersage des nächsten Wortes, bei der der niedrigste Wert der beste ist - von 4,5 im Vergleich zum besten öffentlich verfügbaren System (GPT-en), das einen Wert von 12,9 hat, womit Cedille fast dreimal besser ist.

Das Projekt wurde mit Unterstützung des Google TRC-Programms gestartet und mehrere Monate lang auf Tensor Processing Units (TPUs) trainiert, speziellen Chips, die von Google von Grund auf entwickelt wurden, um die Berechnungen künstlicher Intelligenz zu beschleunigen. Durch die Nutzung dieser Infrastruktur konnte das Team einen neutralen ökologischen Fußabdruck für das Training des Modells sicherstellen. Dies ist eine große Leistung, wenn man bedenkt, dass solche Prozesse große Mengen an Energie und damit hohe Kohlenstoffemissionen erfordern.

Cedille stützt sich auf die EleutherAI-Gemeinschaft, eine Basisbewegung von Open-Source-KI-Forschern. Da Cedille öffentlich zugänglich ist, können Forscher die Ergebnisse verifizieren und reproduzieren und nach Belieben damit experimentieren.


"Mit Cedille gleichen wir das Spielfeld für Französisch im Vergleich zu englischen Sprachmodellen aus - und andere nicht-englische Sprachen werden bald folgen! Wir sind in der Lage, dieses Kunststück auch dank der Bemühungen der Open-Source-Community EleutherAI zu erreichen. Durch die Veröffentlichung unseres Modells freuen wir uns, einen Beitrag zur Community zu leisten!"

Martin Müller, leitender Ingenieur für Machine Learning bei Coteries

Ausschluss von toxischen und unangemessenen Daten

Um die Welt zu verstehen, werden die derzeit wichtigsten auf künstlicher Intelligenz basierenden Textgenerierungsmodelle wie GPT-3 anhand großer Datenbanken mit öffentlich zugänglichen Inhalten aus dem Internet trainiert. Da diese Inhalte auch viele Fehlinformationen, Sexismus oder Rassismus enthalten, hat sich gezeigt, dass die bestehenden Modelle diese diskriminierenden Tendenzen bei der Texterstellung aufgreifen können.

Coteries hat sich bemüht, eine Vorlage zu veröffentlichen, die so weit wie möglich frei von unangemessenen Inhalten ist, und die Daten für die Ausbildung von Cedille zu filtern. Alle schädlichen Inhalte sowie Inhalte von geringer Qualität wurden entfernt. Dieser Prozess wurde durch eine Kombination aus natürlicher Sprachverarbeitung und sorgfältiger manueller Prüfung der Datenproben ermöglicht.

Das Ergebnis ist, dass Cedille jetzt Qualitätstexte mit einer signifikanten Reduktion von 14,7 % des toxischen Inhalts im Vergleich zum bisher besten existierenden Modell (GPT-fr) erzeugt.

Unendliche Anwendungsmöglichkeiten mit Cedille

Vom erweiterten Journalismus über die automatische Vervollständigung bis hin zu Chatbots bietet Cedille eine breite Palette von Einsatzmöglichkeiten. Coteries bietet sein Modell und die Fähigkeiten seines Teams an, um maßgeschneiderte Anwendungen zu erstellen. Dies ist eine hervorragende Gelegenheit für jedes Unternehmen, das künstliche Intelligenz nutzen möchte, um Inhalte in französischer Sprache zu erstellen.

"Ich bin begeistert, dass wir mit Cedille die Leistung sehr großer Sprachmodelle auf Französisch übertragen können. Jetzt ist es nicht mehr nötig, für jede spezifische Aufgabe ein neues Modell zu trainieren: Gib Cedille einfach ein paar Beispiele, und das Modell folgt deinem Beispiel!"

Florian Laurent, leitender Ingenieur für Machine Learning bei Coteries


Versuche es selbst

Das Modell ist auf einer Testplattform verfügbar, erstelle deine eigenen Texte!
Cedille jetzt ausprobieren