Transformer Models - 搜索 News

DeepSeek最新论文：直指Transformer要害，让AI学会翻“字典”了

今日凌晨，DeepSeek 在 GitHub 上发布了一项代号为“Engram”的最新研究成果，并同步上传了题为Conditional Memory via Scalable Lookup: A New Axis of Sparsity for ...

36氪

Mamba再次挑战霸主Transformer，首个通用Mamba开源大模型一鸣惊人

Falcon Mamba 7B有什么特别之处？ TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B，性能与Transformer架构模型相媲美，在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天，阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型 ...

新浪网

盘一盘，2017年Transformer之后，LLM领域的重要论文

这两天 Andrej Karpathy 的最新演讲在 AI 社区引发了热烈讨论，他提出了「软件 3.0」的概念，自然语言正在成为新的编程接口，而 AI 模型负责执行具体任务。 Karpathy 深入探讨了这一变革对开发者、用户以及软件设计理念的深远影响。他认为，我们不只是在使用新 ...

雷锋网

手把手教你用 Transformers 和 Tokenizers 从头训练新语言模型

导语：如何从头开始训练自己的语言模型？在过去的几周里，我们对 transformers 和 tokenizers 库进行了一些改进，目的是让从头开始训练新的语言模型变得更加容易。在本文中，我们将演示如何用世界语训练一个「小」模型（84 M，6 个层，768 个隐藏层，12 个注意 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果