Stejně jako rekurentní neuronové sítě (RNN) jsou transformery navrženy pro zpracování sekvenčních dat, jako je přirozený jazyk, s aplikacemi pro úkoly, jako je překlad a generování textu. Na rozdíl od RNN však transformery zpracovávají celý vstup najednou. Mechanismus pozornosti poskytuje okamžitě kontext pro jakoukoli pozici ve vstupní sekvenci. To umožňuje větší paralelizaci než RNN, a proto se významně snižuje doba učení. Cenou za to je však vysoká paměťová a výkonová náročnost transformerů (současné modely vyžadují pro naučení běžně stovky GPU-roků; aby se učení realizovalo v řádu týdnů či měsíců, užívají se farmy mnoha tisíc GPU).
Transformery byly představeny v roce 2017 týmem společnosti Google Brain. Jsou stále častěji preferovaným modelem pro úlohy NLP a nahrazují modely RNN, jako je dlouhá krátkodobá paměť (LSTM). Vysoká paralelizace učení umožňuje trénink na větších datových množinách. To vedlo k vývoji před-učených systémů, jako jsou BERT (Bidirectional Encoder Representations from Transformers) a GPT (Generative Pre-trained Transformer), které byly trénovány s velkými jazykovými datovými sadami, jako je Wikipedia Corpus a Common Crawl, a mohou být jemně doladěny pro konkrétní úlohy. U opravdu velkých transformerů (stovky miliard parametrů - vah) trénovaných na terrabytech dat se ukazuje, že dík tomuto natrénování už o jazyce "vědí mnoho" a doladění není často zapotřebí. Například model GPT-4 je schopen mj. generovat dlouhé odborné texty, jež jsou k nerozeznání od lidských.
(část textu převzata z anglické Wikipedie, český překlad modelem BERT)