Die Vergrößerung und das Lernen von autoregressiven Sprachmodellen hat zu neuen Möglichkeiten geführt, Aufgaben zur Verarbeitung natürlicher Sprache mit Zero-Shot- und Little-Shot-Lernen zu lösen. Während große Sprachmodelle wie GPT-3 mehrsprachige Fähigkeiten bieten, bleibt Zero-Shot-Lernen für andere Sprachen als Englisch weitgehend unerforscht. Hier stellen wir Cedille vor, ein großes Open-Source-Autoregressions-Sprachmodell, das speziell für die französische Sprache trainiert wurde. Unsere Ergebnisse zeigen, dass Cedille bestehende französische Sprachmodelle übertrifft und in einer Reihe von französischen Zero-Shot-Benchmarks mit GPT-3 konkurrenzfähig ist. Darüber hinaus bieten wir einen detaillierten Vergleich der Toxizität dieser Modelle und zeigen, dass Cedille eine Verbesserung der Sicherheit von Sprachmodellen durch die Filterung von Datensätzen darstellt.