Hluboké učení

Transformers

Úvod do tématu

Stejně jako rekurentní neuronové sítě (RNN) jsou transformery navrženy pro zpracování sekvenčních dat, jako je přirozený jazyk, s aplikacemi pro úkoly, jako je překlad a generování textu. Na rozdíl od RNN však transformery zpracovávají celý vstup najednou. Mechanismus pozornosti poskytuje okamžitě kontext pro jakoukoli pozici ve vstupní sekvenci. To umožňuje větší paralelizaci než RNN, a proto se významně snižuje doba učení. Cenou za to je však vysoká paměťová a výkonová náročnost transformerů (současné modely vyžadují pro naučení běžně stovky GPU-roků; aby se učení realizovalo v řádu týdnů či měsíců, užívají se farmy mnoha tisíc GPU).

Transformery byly představeny v roce 2017 týmem společnosti Google Brain. Jsou stále častěji preferovaným modelem pro úlohy NLP a nahrazují modely RNN, jako je dlouhá krátkodobá paměť (LSTM). Vysoká paralelizace učení umožňuje trénink na větších datových množinách. To vedlo k vývoji před-učených systémů, jako jsou BERT (Bidirectional Encoder Representations from Transformers) a GPT (Generative Pre-trained Transformer), které byly trénovány s velkými jazykovými datovými sadami, jako je Wikipedia Corpus a Common Crawl, a mohou být jemně doladěny pro konkrétní úlohy. U opravdu velkých transformerů (stovky miliard parametrů - vah) trénovaných na terrabytech dat se ukazuje, že dík tomuto natrénování už o jazyce "vědí mnoho" a doladění není často zapotřebí. Například model -4 je schopen mj. generovat dlouhé odborné texty, jež jsou k nerozeznání od lidských.

(část textu převzata z anglické Wikipedie, český překlad modelem BERT)

Explain the function of a self-attention unit (6 points)
Explain the role of queries, keys and values in defining, how much attention is paid to input x_i when processing input x_j (i.e. i-th and j-th element of the input sequence). Please use your own ideas, not a paraphrase of slides or Internet texts / chatbots.
Next