About 64,700,000 results
Open links in new tab
  1. 视觉Transformer中的token具体指什么,如何理解? - 知乎

    token也可以由patch embedding得到(你可以去看看 2022年 CVPR 的 MixFormer ),但是token貌似比patch要小一点,有的地方说token可以理解为一个像素,并且包含该像素点的位 …

  2. 在中文 NLP 等论文中,应该如何翻译 token 这个词? - 知乎

    Jun 22, 2021 · 在NLP里面,A token is a string of contiguous characters between two spaces, or between a space and punctuation marks. A token can also be an integer, real, or a number …

  3. 如何设置deepseek R1 api的最大token数参数以及token ... - 知乎

    如何设置deepseek R1 api的最大token数参数以及token如何计算? 在使用deepseek网页端的时候 cot的输出有时候可以持续几分钟而且非常长,但是在使用第三方部署的api的时候需要设置最 …

  4. 如何看待 Google 最新开源的 Gemma-3 系列大模型? - 知乎

    其中,Gemma 3 27B规模的模型在14万亿个token上进行训练,12B 规模的模型使用12T个token,4B 规模的模型使用4T个token,而1B规模的模型使用 2T个token。 知识蒸馏. 在知识蒸 …

  5. NLP领域中的token和tokenization到底指的是什么? - 知乎

    Tokenization(分词) 在自然语言处理(NLP)的任务中是最基本的一步,把文本内容处理为最小基本单元即token(标记,令牌,词元,没有准确的翻译)用于后续的处理,如何把文本处理 …

  6. 用transformer做视觉,具体是怎么把图片转成token的? - 知乎

    这些图像的token意义上等价于文本的token,都是原来信息的序列表示。不同的是,文本的token是通过分词算法分到的subword,这些subword会被映射到字典的index;也就是说,文本 …

  7. 求问deepseek出现这种情况怎么办啊? - 知乎

    Jan 31, 2025 · 至于具体解释,得看这几个参数,DeepSeek R1的上下文长度为64K,意味着一轮对话最多能包含64K的token。 然后一个中文字符占0.6token。 64000/0.6 约等于 10.6万个中 …

  8. deepseek开始会员收费了吗? - 知乎

    deepseek-reasoner的输出 token 数包含了思维链和最终答案的所有 token,其计价相同。 扣费规则 . 扣减费用 = token 消耗量 × 模型单价,对应的费用将直接从充值余额或赠送余额中进行扣 …

  9. 最新M4版本的Mac,尝试本地部署deepseek的话,32b的模型哪个 …

    只不过几分钟一个Token的速度确实是没法用的,没办法,这种情况下GPU基本一直在打酱油,都是CPU在倒腾内存数据了。 要知道,训练AI大模型和利用训练好的AI大模型进行推理完全是 …

  10. 为什么用 DeepSeek 总是提示「服务器繁忙」?怎么解决? - 知乎

    1)接入DS模型的云平台,优点是可以用满血版,缺点是要钱,按token付费; 2)本地部署DS模型,对电脑配置有要求,本地部署方式对普通人来说有门槛; 3)接入DS的AI产品,有付费有 …

Refresh