Qwen 架构 - Search News

DeepSeek不是单点的奇兵，而是中国AI产业里跑得最快的一批中的佼佼者。DeepSeek，用最丝滑的系统性的工程创新，做出顶尖模型，把高性能显卡被锁这个不可战胜的困境，在心理层面打破了。

11hon MSN

国产GPU领域近日传来喜讯，景嘉微公司正式宣布，其JM系列、景宏系列GPU已成功适配DeepSeek R1系列模型，这一里程碑式的进展预示着DeepSeek将在云计算、边缘计算及终端设备等多元场景下实现更广泛的应用。具体而言，景嘉微的JM系列GPU已经成功完成了对DeepSeek-R1-Distill-Qwen-1.5B和DeepSeek-R1-Distill-Qwen-7B两大模型的适配工作， ...

爱范儿12h

幸好苹果国行 AI 没有选择 DeepSeek

在昨晚发布的文章中，我们也注意到评论区网友态度的两极分化。有人认为阿里是实至名归的最佳人选，也有人对苹果绕过 DeepSeek 而选择阿里表示不解。但如果回望整个筛选过程，DeepSeek 被苹果放弃或许真的不冤。

盖世汽车 on MSN13h

均胜电子接入DeepSeek大模型

2月12日，均胜电子宣布，其AI编程工具JAIC（Joyson AI Coding），已经部署DeepSeek、Llama和Qwen等多个系列的开源大模型，并开始研发代码智能体（Coding ...

15h

景嘉微成功适配DeepSeek 景宏系列已适配全系列模型

2月12日，长沙景嘉微电子股份有限公司宣布成功适配其JM系列、景宏系列与DeepSeek R1系列。这一进展将推动DeepSeek在云边端等各类场景的应用。官方演示显示，景嘉微JM系列完成了DeepSeek-R1-Distill-Qwen-1.5B和DeepSeek-R1-Distill-Qwen-7B模型的适配。同时，景宏系列已全面兼容并适配了DeepSeek ...

16h

DeepSeek并非完美，训练过程存在“深度诅咒”

“深度诅咒”现象的根源在于Pre-LN的特性。Pre-LN是一种在Transformer架构模型中广泛使用的归一化技术，它在每一层的输入上进行归一化，而不是在输出上。这种归一化方式虽然能够稳定模型的训练过程，但也带来了一个严重的问题，随着模型深度的增加，Pre-LN的输出方差会呈指数级增长。

腾讯网17h

“阿里是当下苹果最好的选择，甚至可能没有之一”

整理 | 褚杏娟燕珊就在人们还对马云突然现身阿里杭州园区津津乐道的时候，阿里突然被爆将与阿里巴巴合作为中国 iPhone 用户开发人工智能功能。根据 The Information 的消息，有知情人士表示，苹果和阿里巴巴已经提交双方共同开发的中国版 ...

新京报 on MSN18h

海淀区上线DeepSeek全量模型，为区内企业提供服务

新京报讯 ...

腾讯网18h

景嘉微国产 GPU 完成 DeepSeek R1 系列模型适配

IT之家 2 月 12 日消息，长沙景嘉微电子股份有限公司今日官宣，景嘉微 JM 系列、景宏系列与 DeepSeek R1 系列成功适配，进一步推动 DeepSeek 在云边端等各类场景的应用。官方演示显示，景嘉微 JM 系列完成了 DeepSeek ...

20h

苹果抛弃DeepSeek 选择与阿里合作开发中国iPhone AI 功能

报道称，这是苹果为扭转在华销量持续下滑而推出的软件升级战略。苹果公司早前表示，将于今年4月面向中国以外的用户推出简体中文版 Apple Intelligence，但在中国推出需获得批准，而3月25日将会公布国行AI开发者教程。

Some results have been hidden because they may be inaccessible to you

Show inaccessible results