Generating Long Sequences with Sparse Transformers

Child, Gray, Radford, Sutskever

paper completed ai-ml

Year 2019

External Link https://arxiv.org/pdf/1904.10509

sparse attention long sequences efficiency from:language-models

Notes

Sparse attention patterns for long-range dependencies. O(n√n) attention.

View Resource All Media More in Ai-Ml