Generative Pretrained Transformers, abgekürzt als GPT, ist eine Familie von künstlichen Intelligenzmodellen, die auf der [[transformers|Transformer-Architektur]] basieren. Die Transformer-Architektur wurde erstmals in einem Paper mit dem Titel "Attention is All You Need" von Vaswani et al. im Jahr 2017 vorgestellt und revolutionierte die Verarbeitung von Textsequenzen.

=====Training=====
Es handelt sich um neuronale Netzwerke, die auf großen Mengen an Textdaten trainiert werden, um ein tiefes Verständnis für Sprache zu entwickeln. Das Training ist "vorgeladen" oder "vorab trainiert", was bedeutet, dass das Modell zuerst auf einer Aufgabe trainiert wird, bei der es Wörter oder Token in einem Satz vorhersagt. Dies ermöglicht es dem Modell, das syntaktische und semantische Verständnis der Sprache zu erlernen.

=====Finetuning=====
Nach dem Vorabtraining kann das Modell für verschiedene Aufgaben feinabgestimmt oder "feinabgestimmt" werden. Zum Beispiel kann es für Aufgaben wie Textklassifikation, Übersetzung, Textzusammenfassung und viele andere verwendet werden. Das Besondere an GPT ist, dass es Texte nicht nur verstehen und interpretieren kann, sondern auch in der Lage ist, menschenähnlichen Text zu generieren. Es kann kohärente und kontextuell sinnvolle Texte produzieren, die in vielen Fällen schwer von von Menschen geschriebenem Text zu unterscheiden sind.

=====ChatGPT=====
GPT-3 wurde von OpenAI entwickelt und im Juni 2020 vorgestellt. GPT-3 ist für seine Fähigkeit bekannt, extrem lange Texte zu generieren und eine Vielzahl von Anwendungen zu unterstützen, darunter Übersetzung, Texterstellung, Frage-Antwort-Systeme, Chatbots und vieles mehr. GPT-3 enthält 175 Milliarden Parameter, was es zu einem der größten und leistungsfähigsten KI-Modelle macht, die bisher entwickelt wurden.