각 원소를 Standard Normal Distribution 에서 추출한 N x N Matrix 를 QR Decomposition 하면 Q가 Stiefel Manifold에서 uniform distribution 이 된다고 합니다.
또한, Q의 주대각 성분에 R의 주대각 성분의 부호를 곱해주면 Q가 Haar Distributed Matrix 가 된다고 합니다.
Rethinking Attention with Performers
We introduce Performers, Transformer architectures which can estimate regular (softmax) full-rank-attention Transformers with provable accuracy, but using only linear (as opposed to quadratic) space and time complexity, without relying on any priors such a
arxiv.org
github.com/google-research/google-research/tree/master/performer
google-research/google-research
Google Research. Contribute to google-research/google-research development by creating an account on GitHub.
github.com
위 논문의 구현체인 아래의 코드에서 Random Orthogonal Matrix 를 생성하는 부분에서 저런식으로 하길래 찾아보았습니다.