TE
科技回声
首页
24小时热榜
最新
最佳
问答
展示
工作
中文
GitHub
Twitter
首页
You Only Cache Once: Decoder-Decoder Architectures for Language Models
3 点
作者
reqo
大约 1 年前
1 comment
simonttt
12 个月前
Basically, it is a hybrid model like Jamba.