Was sind TPUs? Warum verwenden wir sie?

29/3/2022

Die Entwicklung von Cedille wurde durch die großzügige Unterstützung des TRC-Programms von Google ermöglicht, mit dem wir Zugang zu einem Cluster von 1.000 cloudbasierten TPUs (Tensor Processing Units) hatten, darunter eine große Instanz und einige Dutzend kleinere Instanzen. Forscher, die in das TRC-Programm aufgenommen werden, haben freien Zugang und können eine Vielzahl von Frameworks und Sprachen wie TensorFlow, PyTorch, Julia und JAX nutzen, um die nächste Welle von Durchbrüchen in der offenen Forschung zu beschleunigen. Das Angebot von TPUs als Service in der Cloud ermöglicht es den Nutzern, mit dem Aufbau ihrer Modelle zu beginnen, ohne dass Vorabinvestitionen erforderlich sind. Mit anderen Worten: Forscher, Ingenieure, kleine Unternehmen und sogar Studenten können maschinelle Lernprojekte mit Leichtigkeit starten. Wir möchten uns noch einmal bei Google für die Unterstützung unserer Forschung und der Einführung von Cedille bedanken. Dank Google konnten wir unser Modell auch als Open Source zur Verfügung stellen und eine Veröffentlichung veröffentlichen, damit andere Forscher und Studenten davon profitieren können.

Ein wenig Hintergrund

Für diejenigen, die sich fragen, was TPUs sind und keine Experten auf diesem Gebiet sind: TPUs sind anwendungsspezifische integrierte Schaltungen (ASICs) und ermöglichen schnellere Berechnungen und Algorithmen in einer KI. TPUs wurden von Grund auf von Google entwickelt, das sie seit 2015 einsetzt und sie 2018 öffentlich machte. Google entwickelt TPUs speziell für Machine Learning mit neuronalen Netzwerken für TensorFlow, die Open-Source-ML-Plattform. TensorFlow bietet Zugang zu Tools, Bibliotheken und einer Community, sodass Anwendungen für Machine Learning schnell erstellt und eingesetzt werden können.


Wir haben uns für TPUs entschieden, da sie bei großen Losgrößen effizienter arbeiten. CPUs (Central Processing Units) und GPUs (Graphics Processing Units) berechnen die meisten ML-Probleme, benötigen aber auch viel Zeit. Mit TPUs benötigen Deep-Learning-Modelle, deren Training auf GPUs früher Wochen dauerte, jetzt nur noch Stunden. TPUs bieten außerdem eine 15- bis 30-mal höhere Leistung und eine 30- bis 80-mal höhere Leistung pro Watt als aktuelle CPUs und GPUs. Für Cedille konnten wir daher mit TPUs viel schneller trainieren: Für ein Modell mit 6 Milliarden Parametern benötigten wir 2 Wochen statt über einen Monat!

Unbegrenzte Möglichkeiten für die Zukunft von Cedille


Da wir TPUs zum Trainieren unserer Modelle verwenden, können wir Matrixmultiplikationen schnell und in großen Mengen durchführen. Die Kombination von Jax (eine neue Google-Alternative zu TensorFlow) und TPUs kann in den Bereichen Medizin, Bildverarbeitung und Machine Learning Wunder bewirken. Für Cedille bedeutet dies im Wesentlichen, dass wir in der Lage sein werden, das Modell innerhalb von zwei Wochen auf eine neue Sprache zu trainieren, so dass alle Fähigkeiten und Funktionen, die du mit Cedille nutzen kannst, dann auch in anderen Sprachen zur Verfügung stehen werden. Beachte, dass wir für die Nutzung der Modelle nach dem Training, zum Beispiel auf unserer Plattform, GPUs verwenden.

Wir arbeiten derzeit daran, unsere Plattform um neue Sprachen zu erweitern, also bleib dran für weitere Updates!

Versuche es selbst

Das Modell ist auf einer Testplattform verfügbar, erstelle deine eigenen Texte!
Cedille jetzt ausprobieren