在attention的时候,除了q,k,v,还引入一个r,这个r最后和context一起做点积,有助于理解“关系”,在数学问题上取得改进

Image

Image