
稀疏(sparse)在机器学习中很重要吗?为什么? - 知乎
Dec 7, 2015 · 深度学习论文中经常看到"sparse",所以应该是重要的概念,但一直不理解很困惑; 刚才在quora上的回答感觉很有帮助,尝试总结以下: sparse 代表数据为0,sparse数据的存 …
如何看待Native Sparse Attention? - 知乎
Feb 18, 2025 · 准确率上,sparse 的模型比 full 还要搞一些。 这个我猜一点原因:(1)模型还不算大,NSA 和 full 还没遇到“瓶颈”,所以 full attention 还没摸到其上限,不能和 NSA 拉开差 …
Sparse Transformer - 知乎
Sparse Transformer 减轻计算量的方式通过让连接模式作用到 上,从而减轻 的复杂度。 如式 (3)。 对于第 个时间片的输入,首先使用 Key 和 Value 的权值矩阵乘以输入特征,得到 和 。 …
通俗理解,Sparse Attention是什么原理? - 知乎
通俗解释 Sparse Attention 的原理: 想象你在读一本长篇小说,如果每一页都要仔细读完全文才能理解剧情,效率会非常低。实际上,你会 快速跳过无关段落,只聚焦关键章节和人物对话, …
什么是稀疏特征 (Sparse Features)? - 知乎
要回答什么是sparse feature,可能首先要理解什么是feature。 一般在machine learning意义上,我们常说的feature,是一种对数据的表达。当然,要衡量一种feature是否是合适的表达,要根 …
DeepSeek-V3.2-Exp版本更新,有哪些信息值得关注? - 知乎
DeepSeek V3.2,可以说是算法同学最想要、最符合直觉的top 2048 token的sparse attention了,然而,经历过这场适配才能知道,背后有多少infra的坑要踩。
如何理解稀疏主成分分析 (Sparse Principal Component Analysis)?
稀疏主成分分析简介 变量经过PCA后得到的主成分通常在多个原始变量上都不为 0 ,这导致进行PCA后的主成分的含义较为模糊,给数据分析带来了一定难度,因此Zou等(2006)提出的一 …
蚂蚁百灵团队开源高效推理模型 ring-mini-sparse-2.0-exp,该模型 …
蚂蚁百灵团队开源高效推理模型 ring-mini-sparse-2.0-exp,该模型有哪些主要特点? 团队表示,得益于架构与推理框架的深度协同优化,该模型在复杂长序列推理场景下的吞吐量较原版 Ring …
如何看待Trainable Dynamic Mask Sparse Attention? - 知乎
Aug 6, 2025 · 从现代信号处理的视角来看,Trainable Dynamic Mask Sparse Attention 本质是通过可学习的自适应滤波器(掩码)对输入序列进行动态降采样,仅保留关键信息成分,从而在长 …
参数矩阵和稀疏输入矩阵相乘,如何降低计算量和复杂度? - 知乎
这个例子中, sparse_input 是一个稀疏矩阵,它的非零元素的索引和值分别由 indices 和 values 参数指定。 param_matrix 是一个普通的密集矩阵,它的形状与 sparse_input 的列数匹配。然后 …