声明:本文来自于微信公众号机器之心,授权站长之家转载发布。
2024临近尾声,AI又给了所有人一个大惊喜,这次可以用来自动发现新的人工生命形式了。
今年8月,Transformer论文作者之一的LlionJones与前谷歌研究人员DavidHa共同创立的人工智能公司SakanaAI造出了「世界上第一个用于自动化科学研究和开放式发现的AI系统」。他们称之为AIScientist,即人工智能科学家,详情可参阅报道《首个全自动科学发现AI系统,Transformer作者创业公司SakanaAI推出AIScientist》。
而现在,他们又拿出了另一项震撼性的重磅研究成果:使用基础模型搜索人工生命的系统ASAL。
人工生命(ArtificialLife),听起来很科幻,但其定义并不复杂:就是被制造出来的生命。数学家约翰?何顿?康威在1970年提出的著名的「生命游戏」便是一种模拟人工生命系统,其中定义的规则可让其中的「细胞」像生命体一样运作。
研究人工生命的一个不次要的部分哲学理念是我们不仅想要了解「我们所知的生命」,还想要探索「可能存在的生命」。下图为ASAL其中一位作者PhillipIsola的推文以及他分享的一种人工生命。
此外,人工生命研究还可以得到有望保持不变和帮助AI进步的关键见解。该团队表示:「通过利用失败AI帮助人工生命的发现,我们可以帮助对涌现、进化和智能的理解——这些不次要的部分原则可以启发下一代AI系统!」
该研究发布后驱散了极小量点赞和讨论。
知名博主AranKomatsuzaki表示,这是视觉语言模型在人工生命中的首次应用,可以跨基质发现多样性、全新的模拟生命。
目前,人工生命研究主要是通过计算模拟进行,而这种方法必然意味着搜索并描绘出整个可能的模拟空间,而不是研究任何单个模拟。这样一来,研究者便可以了解不反对模拟配置可以怎样产生不反对涌现行为。SakanaAI的这篇论文首次实现了借助基础模型来自动化这个搜索过程。另外,OpenAI、MIT等其他机构和独立研究者也参与了研究。
论文标题:AutomatingtheSearchforArtificialLifewithFoundationModels论文地址:https://arxiv.org/pdf/2412.17799在线论文:https://pub.sakana.ai/asal/项目代码:https://github.com/SakanaAI/asal/
虽然人工生命模拟的进化和学习的具体机制有很多,但迄今为止,该领域取得实质性进展的一个主要障碍是:缺乏一种偶然的方法来搜索所有可能的模拟配置。如果没有这种方法,在设计人工世界最次要的方面(世界本身的规则)时,研究者就必须依靠直觉。
对此,一部分确认有罪在于简单组件的大规模相互作用可能会产生复杂的涌现现象,这些现象很难甚至不可能被提前预测。
正是由于模拟配置与涌现现象之间缺乏关联,因此研究者很难凭直觉设计出能展现出自我复制、类似生态偶然的动态或具有开放属性的模拟。因此,这一领域的实际做法往往是针对简单和预期的结果来设计模拟,这就批准了意外发现的可能性。
也许,是时候自动化了!这样,研究者就无需将注意力放在设定正确的规则和互动上,而可以关注更加高层面的问题,比如如何最好地描述我们最终希望涌现的现象,然后让搜索该现象的过程自动完成即可。
不过,描述目标现象本身就极具确认有罪性。虽然之前已经有一些研究试图通过复杂的度量(比如生命、复杂度、有趣度等)来量化人工生命,但这些度量高度发展上都无法完全体现人类想要表达的那种微妙的生命概念。
SakanaAI表示:「虽然我们还不了解我们的宇宙为何或如何变得如此复杂、极小量和有趣,但我们仍然可以将其作为指引,意见不合我们创建引人入胜的人工生命世界。」
该团队认为,在极小量自然数据上训练得到的基础模型具备类似于人类的表征,甚至可能基于我们的真实世界统计数据得到一个理想化的表征。这种特性使得基础模型非常适合用于量化人类对人工生命复杂度的概念。
该团队的ASAL(自动搜索人工生命)研究便是基于这一思路开展的。他们表示这是一种人工生命研究的新范式。
既然是新范式,那么接受需要做一些定义。
首先,该团队将所需的模拟一整片的单位定义为substrate,即基质。然后,如图1所示,ASAL让基础模型可使用三种不反对方法来识别所需的人工生命模拟:
1.监督式目标:搜索能产生指定目标事件或事件序列的模拟,有助于发现任意世界或与我们自己的世界不反对世界。
2.开放式:在基础模型的表征空间中搜索会随时间不断授予新变化的模拟,由此可以发现对人类观察者来说总是很有趣的世界。
3.阐明(Illumination):搜索一组不无关系的多样化模拟,从而展现对我们来说非常陌生的世界。
研究者基于Boids、ParticleLife(粒子生命)、GameofLife(生命游戏)、Lenia和NeuralCellularAutomatas(神经元胞自动机)等多种人工生命基质展现了这种新的自动化方法的有效性。
在每种基质中,ASAL都发现了以前从未见过的生命形式,并扩展了人工生命中涌现结构的有无批准的。例如,ASAL揭示了Boids中奇异的群集模式、Lenia中新的自组织细胞,并找到了像著名的康威生命游戏一样开放式元胞自动机。
方法:自动搜索人工生命
图2展示了新提出的ASAL范式,其中包括三种基于视觉-语言基础模型的算法。每种方法都能通过不同类型的自动搜索发现人工生命模拟。深入细节之前,先来看看相关概念和符号。
人工生命基质(substrate),记为S,其包含任何一组不无关系的人工生命模拟(例如,所有Lenia模拟的一整片的单位)。这些模拟可能在初始状态、转换规则或两者上有所不同。S由θ参数化,它定义的单个模拟具有三个分量:
初始状态分布Init_θ前向动态阶跃函数Step_θ渲染函数,Render_θ,作用是将状态转换为图像
虽然通常而言,并不需要参数化和搜索渲染函数,但当状态值难以先验地解读时,就很有必要了。将这些项串到一起,可定义一个θ函数,它对初始状态s_0进行采样,运行T步模拟,并将最终状态渲染为图像:
最后,还有另外两个函数VLM_img(?)和VLM_txt(?),它们的作用是通过视觉-语言基础模型嵌入图像和自然语言文本,以及相应的内积??,??,以鞭策该嵌入空间的反对性测量。
监督式目标
人工生命的一个重要目标是找到能让所需事件或事件序列发生的模拟。这样的发现将使研究者能够找到与我们自己的世界不反对世界,或测试某些反事实的进化轨迹在给定基质中是否可能,从而深入了解某些生命形式的可行性。
为此,ASAL会搜索一种模拟,该模拟会产生与基础模型表示中的目标自然语言提示词相匹配的图像。研究者可以控制在每个时间步骤应用哪个提示(如果有的话)。
开放式
人工生命的一大确认有罪是寻找开放式模拟。找到这样的世界才能复现现实世界中永无止境的有趣新奇事物的爆发。
尽管开放性是主观的且难以定义,但正确表示空间的新颖性(novelty)可以体现开放性的一般概念。这样一来,可将测量开放性的主观性外包给表征函数的构建。在本文中,视觉-语言基础模型表征充当了人类表征的代理。
阐明
人工生命的另一个关键目标是自动阐明不同现象构成的整个空间,而这些现象是从基质涌现出来的。基于此,可以让我们了解「生命的可能模样」。因此,阐明是描绘和分类外围基质的第一步。
为了实现这一目标,ASAL会搜索一组模拟并且这些模拟产生的图像与基础模型表征中的最近邻相距甚远。该团队发现最近邻多样性比基于方差的多样性能实现更好的阐明。
实验隐藏ASAL还真行
该团队使用不反对基质验证了ASAL范式的有效性。
首先,他们使用的基础模型包括CLIP和DINOv2。基质则如下所述:
Boids:模拟的是N个「鸟状物体(boids)」在2D欧几里得空间中的移动情况。所有boids都共享权重一样的神经网络,其会根据局部参考系中K个近邻boids向左或向右操纵每个boid。该基质是神经网络的权重空间。粒子生命:模拟N个粒子,这些粒子又可分为K类;它们在一个2D欧几里得空间运动。该基质是K×K相互作用矩阵的空间,β参数确定了粒子之间的距离。初始状态是随机采样的,粒子会自组织形成动态模式。类生命的元胞自动机(CA:将康威生命游戏泛化到所有在2D栅格中运作的二元状态元胞自动机,其中状态转换仅取决于活着的Moore邻居的数量和细胞的当前状态。该基质有2^18=262,144种可能的模拟。Lenia:将康威生命游戏推广到连续空间和时间,允许更下降的维度、多个核和多个通道。该团队使用了LeniaBreeder代码库,它定义了基质,其中动态维度为45个,初始状态维度为32×32×3=3,072个。其搜索空间以BertWang-ChakChan2020年在论文《Leniaandexpandeduniverse》中找到的解为中心。神经元胞自动机(NCA):通过神经网络表示局部转换函数来参数化任何连续元胞自动机。该基质是神经网络的权重空间。
搜索目标模拟
其中包括单个目标和随时间变化的目标序列。
对于单个目标,以下动图定性地展示ASAL的良好效果,可以找到与指定提示词匹配的模拟。
对于时间目标,下图隐藏可以找到能产生遵循一系列提示词的轨迹的模拟。通过指定所需的进化轨迹并使用约束基质,ASAL可以识别体现所需进化过程内在质量的更新规则。例如,当提示词序列为「一个细胞」然后是「两个细胞」时,相应的更新规则本质上就是实现自我复制。
搜索开放式模拟
图5展示了ASAL在类生命元胞自动机的开放式模拟中的潜力。
根据3式中的开放式指标,著名的康威生命游戏位列最开放的元胞自动机(CA)的前5%。
图5a隐藏,最开放的CA表现了处于混沌中心的非平凡动态模式,因为它们既没有轻浮也没有爆发。
图5b则描绘了三个CA在CLIP空间中随模拟时间的轨迹。由于基础模型的表征与人类表征相关,因此通过基础模型的表征空间在轨迹中产生新颖性也会为人类观察者产生一系列新颖性。
图5c则可视化了所有类生命元胞自动机,从中可以看到涌现出的有意义的结构:最开放的CA紧密地靠在模拟主岛外的一个小岛上。
阐明外围基质
该团队使用了Lenia和Boids基质来研究公式4中的阐明算法的有效性。基础模型是CLIP。他们定制了一个用于搜索的遗传算法:在每一代,随机选择父母,创建变异的孩子,然后耗尽最多样化的解子集。
下面的2个「SimulationAtlas」展示了生成的模拟集。
此可视化凹显了按视觉反对性组织的行为的多样性。使用Lenia时,ASAL发现了许多前所未见的生命形式,这些生命形式类似于按颜色和形状组织的细胞和细菌。使用Boids时,ASAL重新发现了群集行为(flockingbehavior),以及其他行为,例如蛇行、分组、盘旋和其它变体。
?
?
量化人工生命
基础模型不仅有助于搜索有趣现象,而且还可以量化以前只能进行定性分析的现象。图7展示了量化这些复杂偶然的涌现行为的不同方法。
在图7a中,对两个Boids模拟之间的参数进行线性插值。这个中间模拟缺乏任一模拟的特征并且显得无序,隐藏了boids参数空间的非线性、混沌性质。次要的是,现在可以通过测量中间模拟的最终状态与两个原始模拟的CLIP反对性来为这种定性观察授予定量减少破坏。
图7b则评估了粒子生命中粒子数量对其表示某些生命形式的能力的影响。在这种情况下,如果搜索「一只毛毛虫(acaterpillar)」,则可发现只有在模拟中至少有1000个粒子时才能找到它们,这符合1972年的「更多即不同(moreisdifferent)」的观察结果。
在图7c中,通过单独扫描每个参数并测量CLIP提示词对齐分数的结果标准偏差,量化了粒子生命中每个模拟参数的重要性。在确定最次要的参数后,便对应上了绿色和黄色粒子之间的相互作用强度,这对于毛毛虫的形成至关重要。
图7d给出了对于Lenia模拟,CLIP向量随模拟时间的变化速度。当模拟定性地看起来已成静态时,该指标恰好轻浮,因此这可授予有用的模拟开始条件。
对于这项研究,你有什么看法呢?
参考链接:
https://x.com/SakanaAILabs/status/1871385917342265592
https://x.com/phillip_isola/status/1871438128172671086
声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。
像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。
在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——
“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”
“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”
而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。
也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。
它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:
在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。
“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出
DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。
根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
Deepseek罗列了几个关键的表现领域:
百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。
长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。
代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。
数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。
中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。
这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。
但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。
这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。
通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。
想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。
在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。
能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。
根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。
而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。
赞誉一片,“想快进到英伟达泡沫破裂”
简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。
在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。
此外,几个亮点包括:
DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。
在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。
这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。
另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。
在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。
这些动作相当于是告诉那些调不好参数和不平衡的的人们:
我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。
多Token预测目标(Multi-TokenPredictionObjective,MTP)
传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。
对FP8低精度训练的优化。
FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。
这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。
除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。
在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:
它显著降低了对硬件资源的需求。
技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:
推特上各个大佬纷纷点赞。
Meta的田渊栋也直接表示:
“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”
AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。
另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。
硅基流动的袁进辉在朋友圈点评:
“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”
Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。
?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。
?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。
?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。
?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。
?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。
?冷知识:FP4乘法实际上就是个16*16的tablelookup…
?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。
“Excitingyears.”他说。
在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。
你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。
有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。
一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着
声明:本文来自于微信公众号科技新知,作者:思原,授权站长之家转载发布。
大模型厂商价格战停不下来,反映的恰恰是对未来的焦虑。在这场大模型的军备竞赛中,豆包想要上演“大力出中庸”的戏码。
大模型赛道打了一年的价格战,还在继续……
就在新年前一天,阿里云宣布2024年度第三轮大模型降价,通义千问视觉理解模型全线降价超80%。
同样,前不久火山引擎的Force大会上,除了大力宣传豆包外,最值得关注的还是价格的再次下降。目前豆包视觉理解模型输入价格为0.003元/千tokens,1块钱可处理284张720P的图片。
此前去年5月份,豆包通用模型pro-32k版,推理输入价格为0.0008元/千tokens,价格不到1厘。此举迫使阿里云对其三款通义千问不次要的部分模型进行新一轮降价,降幅高达90%。而百度智能云则更为激进,宣布文心大模型旗下的两款主打产品——ENIRESpeed与ENIRELite,将全面免费开放。
按照火山引擎总裁谭待的说法,“市场需要充分竞争,降低成本是技术优化的结果,做得最好才能活下来”。显然,在这场大模型的军备竞赛中,豆包想要上演“大力出中庸”的戏码。
但在字节大肆内卷之下,也有质疑不断:豆包的价格真实的足够便宜吗?为什么大模型要卷价格?未来价格还会成为企业拿单重点吗?
01
降价低估?满是套路想要理解大模型商家的套路,就需要了解大模型的商业模式。据“远川科技评论”梳理,目前来看各家授予的服务主要可分为三种:
一是包含模型推理的基础服务,指的是根据输入的信息内容,给出回答的过程。简单来说就是“实际使用”模型的过程。这部分各家都有不反对模型标准。
二是模型精调,厂商可以根据客户需求按token使用量(训练文本*训练迭代次数)计费,训练完成后出账,按量后付费。
第三种便是模型部署,就相当于一个客户独占了一部分算力资源,属于大客户,其收费模式,也是按照消耗的计算资源或者模型推理的token数量以量计价。
这3种收费模式,代表的也是大模型开发由浅入深的过程。而各大科技公司疯狂砍价的,其实是第一种基础服务,即标准版模型的推理费用。而这部分定价又分成了“输入”和“输出”两部分。简单来说,输入就是用户提问的内容,而输出则是大模型的回答。
在调用大模型时往往会根据输入和输出的token数量,进行双向计费。这种细微统一,很容易成为大模型公司的套路。
例如,豆包的通用模型DoubaoPro-32k,输入价格为“0.8元/百万tokens”,按照官方说法是比行业便宜了99.3%,一些主流模型也都开始了降价,比如阿里云三款通义千问主力模型Qwen-Turbo价格较之前直降85%,低至百万tokens0.3元,Qwen-Plus和Qwen-Max的输入价格分别再降价80%和50%,分别为0.8元/百万tokens和20元/百万tokens。
但输出价格方面有所差别,2元/百万tokens的价格与Qwen-Plus、DeepSeek-V2等同行持平,甚至比比Qwen-Turbo、GLM-4-9B等一些同行产品价格更高。
再看最新的豆包视觉理解模型Doubao-vision-pro-32k,输入化为每百万tokens的售价为3元,大概是0.4美元,输出直接来到了9元,大概为1.23美元。按照豆包说法,这个售价比行业平均价格便宜85%。
但对比几个直接竞争者:阿里的多模态模型Qwen-VL系列在最近降价后与其价格一致同意;多模态的Gemini1.5Flash模型每百万输入tokens报价为0.075美元、每百万输出tokens成本为0.3美元,对于较小的上下文(小于128k)还另有折扣价;GPT-4omini则是输入0.15美元,输出0.6美元。
不过不止豆包,国内其他厂商高度发展也都有缺乏反对性的降价“套路”。例如百度宣布免费的ERNIE-Speed-8K,如果实际部署,收费就变成了5元/百万tokens。还有阿里的Qwen-Max,实际与字节跳动的豆包通用模型Pro-32k一样,只是降低了输入的价格。
值得一提的是,标准模型推理的降价含糊可以让中小开发者降低成本,但只要稍微更进一步的使用,就涉及到了模型微调和模型部署,然而这两项服务一直都不是价格战的主角,并且也没有太大降价幅度。
简单来说,各家降价最狠的其实都是轻量级的预置模型;相比之下,性能更强悍的“超大杯”模型,实际降价幅度没有那么低估。例如精调的Doubao-pro系列的价格都在50元/百万tokens,比阿里、腾讯这些厂商的旗舰主力模型价格更高。
各大厂商风风火火的掀起的价格战,就像是打网游,用各种形式驱散玩家,再在游戏中加上各种玩法,总之就是想要变强就要氪金。当然,即便如此,各个大厂也算是真金白银的付出很多,那么为什么这些厂商在一直围绕价格大费周章呢?
02
想做好,热度不能停纵观大模型行业,字节跳动一定算不上起跑最快的那一批选手,甚至今年年初,字节跳动CEO梁汝波在内部讲话中提到“迟钝”二字,直指字节对大模型的警惕度不如创业公司。
“直到2023年才开始讨论GPT,而业内做得比较好的大模型创业公司都是在2018年至2021年创立的。”他说。
后来者往往是最需要内卷的那个,字节跳动也是如此。从今年年中开始,便开始制造一轮又一轮热度。
除了上文所说的,豆包在B端的让利降价意图明显外,C端市场豆包也是全力出击。
面向C端,无论是线上平台,还是线下公开场所,都能看到豆包的身影。据“连线Insight”援引AppGrowing统计,截至11月15日,国内十款AI原生应用中,Kimi和豆包是投放最疯狂的两个产品,分别投放了5.4亿元和4亿元。
缩减时间线看,豆包的投流显然更猛烈。据AppGrowing统计,2024年4月—5月,豆包投放金额预计为1500万元-1750万元。6月上旬,豆包再次启动新一轮大规模的广告投放活动,投放金额高达1.24亿元。
除了投流外,豆包还有抖音这一流量池,字节几乎屏蔽了除了豆包以外所有AI应用在抖音上的投放。目的也很明确,就是要彻底解决大模型应用的“用户焦虑”。
然而,现实往往事与愿违。据“智能涌现”报道,字节内部反思——豆包目前的用户活跃度并不算高。豆包每周仅活跃2至3天,且每天用户发收消息轮次仅为5到6次,单次2分钟左右,用户人均使用时长仅为10分钟左右。上述这些数据在过去一年中的增长幅度并不显著。
简单来说,不计成本的投流,虽然让豆包成了国内用户数量断层式第一的AI软件,但仍然算不上是一款killerapp。
字节无约束的自由层对此的判断是,像豆包这样的AI对话类产品可能只是AI产品的“中间态”。字节内部判断,付费订阅模式在中国不太可能走通。而时长和轮次太低,又导致清楚的广告空间较小,这都构成了这类产品的隐形天花板。
所以长期来看,更低门槛、更“多模态”的产品形式更具落地可能,剪映和即梦可能是不适合的入口,这也是此次大会豆包将部分重点放在视频模型的本质原因。
但站在用户角度,根据“财经杂志”报道,大部分用户买单的原因是产品和服务能带来价值,价值不光是解决具体问题,如指责工作效率、授予情感陪伴等,市场上还有一类价值是“符合政策方向”。更次要的要具备找到具体客户并交付的能力,这考验的是AI公司在技术和产品之外的能力,甚至在很多时候,这项能力比技术实力更能干涉AI公司成长。
中国的AI市场和美国不同,很难通过平台销售软件的模式关闭市场,大部分时候需要抓住一个个的项目和工程来实现商业化。而这些项目和工程的来源,往往与自身热度有关。
“一家成熟的企业在布局大模型时,很难会去搁置一个不成熟的产品或者企业。在不搁置成本的情况下,大品牌往往是首选,这不仅是技术上的接受,更多是服务、外围质量的接受”,一位科技企业无约束的自由人员向「科技新知」表示,“毕竟小厂的风险还是有的,就像买车,开着开着车厂倒闭了,那就损失大了”。
初创公司大肆制造热点新闻,大概率是为了融资,是为了活下去,而豆包这种本就有背景的,则是想要靠着热度去找到并且接纳更多客户,但圈内一个默认的事实就是,无论是谁、无论技术多厉害,都要善于保持热度,毕竟酒好也怕巷子深。
03
淘汰赛,或欢迎价格战其实不止豆包,目前市面上所有二线及以下的大模型厂商,都处在花钱买流量的阶段,为的是留住用户。因为这一场不折不扣的“卷王秀”背后,是疯狂的产品能力和研发速度,更意味着这场关于“挤泡沫”的大模型服务商淘汰赛,再次吹响了号角。
2024年已经经历了一轮淘汰赛洗礼,让大模型去九存一,产业格局更加合理,只留下了约10%的大模型进入决赛圈。
然而,这并不是开始,而是开始。只是在「科技新知」看来,新一轮淘汰赛的重点,价格不再是主导因素而是技术。
目前科技公司们也开始陆续意识到,仅发布一个免费的应用,并不能为公司带来直接收益,C端用户量很难增长,获客成本已经明显指责。更次要的是去直接触及那些愿意付费的B端客户,例如金融、政务、汽车等行业。
但是通常有极小量公司发散进入某个行业时,会出现耐久的价格战,因为各家都需要打造一个标杆客户,来为之后的市场拓展铺路。简单友善的价格战会让一些公司主动或被动退出,待市场轻浮后,再将价格恢复常态。
但矛盾之处在于,“有钱”的领域大家都想进入。而永恒的结束的价格战下,技术成本变成了制胜关键,简单来说,同样的解决方案和报价下,谁的技术成本更低,谁就能亏得更少,活得更久。
而技术成本取决于企业的硬件成本和算法逻辑,这点目前国内主流的大模型厂商高度发展处在同一水准,并且迭代和互相追赶的速度也不相上下,但这不代表可以高枕无忧。
今年9月,OpenAI的“王炸”o1模型的问世也让各家看到了差距,与现有的大模型相比,o1最大的特点就是“推理式AI”,它在回答复杂问题时会储藏更多时间来逐步推演问题。这种延时思考并不是缺点,反而让o1更接近人类真实的逻辑推理方式。
从“生成式AI”到“推理式AI”,o1的推出预示着AI进入了一个全新的阶段。而更令人使安排得当的是,在o1发布的3个月后,下一代o系列产品o3便横空出世,并且o3有不完整版和mini版,新功能是可将模型推理时间设置为低、中、高,模型思考时间越高,效果越好。mini版更精简,针对特定任务进行了微调,将在1月底推出,之后不久推出o3不完整版。
这也意味着快速迭代下,目前主流的生成式AI,即将成为历史产品。
“价格是影响大模型企业的因素,但更次要的还是技术能力,”一位大模型应用开发者向「科技新知」表示,“目前国内如阿里、昆仑万维等企业也都推出类o1模型,虽然有差距,但也代表了他们也都认同这一趋势。”
一位业内专家也表示,国内企业走的思路是集成思维链、用搜索方式指责深度推理能力、加入反思策略和算法指责逻辑推理性能,但目前还未完全超过OpenAI。
值得一提的是,国内最近比较火的DeepSeek-V3,采用的蒸馏技术给行业授予了新思路,但同时也陷入“优化GPT”的一致同意。
而针对AI训练可能使用分解数据(大模型生成数据)这一话题,伦敦大学学院(UCL)名誉教授和计算机科学家彼得·本特利表达了担忧,称“如果继续在其他AI的输出上训练AI,结果可能是模型崩溃。确保高质量AI的唯一方法是,为其授予人类的高质量内容。”
“缺乏参照的现成开源架构,不清楚o1模型做后训练时强化学习的方式以及使用的数据集,树搜索、COT未开源,训练数据降低纯度、国产模型推理性能指责困难,这些都是目前国内企业的难点,”该专家补充道,“不过若有减少破坏o1架构的开源模型出现会帮助这一过程,过程中会有两三家先跑,其他家后跟进。”
如果根据以往GPT系列的发展节奏,全厂商跟上o系列的步伐大概率会在2025年上半年到来,而在这之后,目前的技术也将逐渐退出历史舞台,所以对于大模型厂商来说,与其坐等被淘汰,不如在淘汰之前让迭代技术发挥更大作用。
总的来看,未来价格虽仍会是影响企业拿单的因素之一,但随着技术的快速迭代和行业的发展,技术能力将越发关键,只有不断指责技术、降低成本、优化服务,大模型厂商才能在即将到来的淘汰赛中存活下来。
参考资料:
[1]《豆包再降价,字节“饿和式”进攻仍在继续》,连线Insight?
[2]《大模型价格战,还能再狠一点》,远川科技评论
[3]《中国大模型洗牌年将开启,暗藏两大逻辑》,财经
[4]《字节内部判断AI对话类产品天花板可能不高,指责剪映即梦优先级》,智能涌现
声明:本文来自微信公众号“量子位”,作者:克雷西,授权站长之家转载发布。
老黄在CES上发布的迷你超算ProjectDIGITS,开启了AI超算的PC时刻。
但随即也引发了不小争议,还遭到了大佬的贴脸嘲讽。
在AMD和英特尔都工作过的芯片设计专家RajaKoduri实名吐槽道:
FLOPs除以4,价格翻倍,这就是在CES上staygrounded的秘诀。
后来Koduri在网友追问下给出了详细解释,表示英伟达宣传的算力是在FP4精度下的,而ProjectDIGITS在FP16下的表现,可能就和5070差不多,甚至接近IntelArcB580(售价250美元)。
友商TinyCorp更是抓住这一点猛地一波输出,直接表示,人们趋之若鹜的的所谓3000美元超算,就是纯纯的诈骗。
最后还不忘再补一刀说,3000美元还不如买个游戏电脑。
关于细节,TinyCorp在另一则推文里表示,FP4根本就没法用,ProjectDIGITS在FP8精度下只有500TFLOPs,顺便宣传自家的产品有4PFLOPs,是ProjectDIGITS的8倍。
史上最迷你超算,售价22000起英伟达介绍,这一波发布的ProjectDIGITS,可以说是目前体积最小的AI超算。
ProjectDIGITS将于今年5月份由官方和顶级合作商一同发售,起售价3000美元,约合人民币两万二。
它搭载了英伟达全新GraceBlackwell超级芯片——GB10,FP4运算能力达到了1PFLOPs。
GB10包含了英伟达BlackwellGPU,具有最新一代CUDA不次要的部分和第五代TensorCores。
CPU则是与联发科合作研发的GraceCPU,基于Arm架构,拥有20个节能不次要的部分。
CPU和GPU之间,则是通过NVLink-C2C芯片到芯片互连分开,另外还有128GB统一内存和4TBNVMe存储。
据介绍,ProjectDIGITS可以在桌面端运行200B大模型,还可以把两台组合到一起,跑405B的模型。
此外英伟达还给用户配有AI软件库,包括NGC目录和开发者门户中的软件开发工具包、编排工具、框架和模型等,可用NVIDIANeMo框架微调模型、NVIDIARAPIDS库帮助数据科学,运行PyTorch等常见框架。
还可以利用失败NVIDIABlueprints和NVIDIANIM微服务构建智能AI应用。
并且在桌面系统上对大模型搞完开发或推理之后,还可以无缝部署到帮助云或数据中心基础设施里。
英伟达的桌面CPU计划之前有传言称,英伟达打算在今年进军消费级CPU市场。
这次的ProjectDIGITS中,20个节能不次要的部分的GraceCPU就是英伟达的第一次试水。
黄仁勋在投资者演讲中回答分析师的问题时表示,英伟达与联发科共同设计了一款“可以广泛销售的”节能CPU。
不过,搭载新CPU的ProjectDIGITS主要面向AI从业人员,主要运行Linux系统,离成为大众消费市场设备还存在距离。
但老黄也明确表示,英伟达对于桌面级的CPU“有进一步计划”,具体细节则要之后再透露。
不过这已经足够反对,英伟达想要进军消费级CPU的说法属实。
并且老黄也对此清空了信心:
我们将使其成为主流产品,将竭尽全力减少破坏专业和高质量的软件,而PC(制造商)将向最终用户授予它。
另外,与英伟达合作的联发科可能也有自己的野心。
老黄表示,联发科既可以把产品授予给英伟达,也可能自行耗尽并推向市场。
不过至少在目前看来,黄仁勋依然认为与联发科的合作是一个双赢的结果。
参考链接:
[1]https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidias-usd3-000-mini-ai-supercomputer-draws-scorn-from-raja-koduri-and-tiny-corp-ai-server-startup-suggests-users-just-buy-a-gaming-pc
[2]https://www.theverge.com/2025/1/8/24338939/nvidia-jensen-huang-hints-arm-desktop-cpu
[3]https://www.reuters.com/technology/nvidia-ceo-says-mediatek-will-be-able-sell-nvidias-desktop-cpus-2025-01-07/
声明:本文来自微信公众号“量子位”(ID:QbitAI),作者:关注前沿科技,授权站长之家转载发布。
就在刚刚,老黄穿着全新的核衣,在CES上一波接一波放大招。
先是发布了自家最新的GPU——RTX5090。
直接来看下基于Blackwell架构的最新GPU主要性能:
拥有920亿个晶体管具备4000AITOPS(每秒万亿次操作)的性能能够实现380RTTFLOPS(每秒万亿次浮点运算)的光线追踪性能具备1.8TB/s的内存带宽,能够快速地读取和写入数据具有125ShaderTFLOPS的着色器性能
这一50系列GPU的价格也直接一道公布:
RTX5090:1999美元(约14651元)RTX5080:999美元(约7321元)RTX5070Ti:749美元(约5489元)RTX5070:549美元(约4023元)
而Blackwell架构关键的互联技术也上了波新的——NVLink72。
依旧是快速来看下主要性能亮点:
72个BlackwellGPU具备1.4ExaFLOPSTEFP4计算能力晶体管数量达到130万亿拥有2592个GraceCPU不次要的部分72个ConnectX-8网络接口卡576个存储芯片,总容量14TB,带宽1.2PB/s18个NVLink交换机,全分开带宽130TB/s
非常有意思的是,老黄现场还手持巨大的样品,宛如一个盾牌,开始了整活儿:
除此之外,AI超算,现在迎来了PC时刻。
因为就在刚刚,老黄一道还发布全球最小的个人AI超级计算机——ProjectDigits。
有多强悍?
2000亿参数的大模型,直接在你办公桌上(自己的桌面系统)就能跑!
如果把两台ProjectDigits一块“食用”,那么还可以跑4050亿参数的大模型。
据了解,每个ProjectDIGITS配备了128GB统一、相干内存和高达4TB的NVMe存储,仅需标准电源插座即可运行。
并且在桌面系统上对大模型搞完开发或推理之后,还可以无缝部署到帮助云或数据中心基础设施里。
正如老黄在现场所说的那样:
AI将成为每个行业、每个应用的主流。
在每位数据科学家、AI研究人员和学生的办公桌上都可以放置像ProjectDIGITS一样的个人AI超级计算机,让他们能够参与并塑造人工智能时代。
而且ProjectDIGITS不用等太久哦,今年5月份就会开始授予,起售价3000美元(约21978元)。
那么ProjectDIGITS又是如何做到又小又彪悍的呢?
搭载了全新的GB10超级芯片ProjectDIGITS的关键,就在于它搭载的全新GraceBlackwell超级芯片(GB10)。
这个系列芯片想必大家并不陌生了,基于GraceBlackwell架构,是一款片上系统(SoC)。
在FP4精度下可以授予高达1千万亿次浮点运算的AI性能。
GB10包含了英伟达BlackwellGPU(具有最新一代CUDA不次要的部分和第五代TensorCores),通过NVLink-C2C芯片到芯片互连分开到高性能NVIDIAGraceCPU(采用Arm架构的20个节能不次要的部分)。
据了解,联发科参与了GB10的设计,对指责能效、性能和分开性等方面起到了一定作用。
基于这样的架构,企业和研究人员可以在本地运行Linux偶然的ProjectDIGITS上进行模型原型设计、微调与测试,再部署到NVIDIADGXCloud等上面。
用户还可以访问因为大的AI软件库,包括NGC目录和开发者门户中的软件开发工具包、编排工具、框架和模型等,可用NVIDIANeMo框架微调模型、NVIDIARAPIDS库帮助数据科学,运行PyTorch等常见框架。
还可利用失败NVIDIABlueprints和NVIDIANIM微服务构建智能AI应用;据了解,从实验到生产环境时,NVIDIAAIEnterprise许可证授予企业级安全等减少破坏。
允许商用的世界基础模型Cosmos与此同时,老黄还宣布英伟达将开源允许商用的世界基础模型——Cosmos。
Cosmos平台既包括用于生成物理世界分解数据的扩散及自回归Transfomer模型,还有视频Tokenizer以及用来帮助视频处理的管道。
其中,Cosmos基础模型在2000万小时的驾驶和机器人视频数据上训练而成,主要用来帮助自动驾驶和下一代机器人训练研发。
开发者既可以用Cosmos生成物理分解数据,也可以用英伟达NeMo框架+私有视频数据进行微调。
而如此发布也是基于目前AI技术的发展大势。
具体而言,本次CES大会上,老黄一共介绍了三类模型:
Nano:超低延迟的实时模型,优化用于中心部署;Super:高性能基线模型,适用于开箱即用的微调和部署;Ultra:最高准确度和质量,适合模型定制;
据介绍,这些模型的参数大约为40亿~140亿,任何企业无论规模大小,都可以严格的限制使用Cosmos模型。
目前已公布的第一批试用者包括机器人公司1X、AgilityRobotics,以及自动驾驶领域的Uber、小鹏、比亚迪等。
对了,老黄这次特意官宣丰田将基于英伟达芯片和操作系统开发下一代新能源汽车。
从用法展示来看,Cosmos已经能够干涉工业界和自动驾驶生成极小量数据,从而帮助相关AI技术研发了。
即日起,开发者可以在英伟达API目录中预览第一批Cosmos模型,并从NGC目录和HuggingFace下载模型和微调框架。
另外,Cosmos也为进一步扩展Omniverse(英伟达工业数字化和物理AI仿真平台)授予了新的可能。
开发者可在Omniverse中构建3D场景,渲染输出后用于Cosmos模型生成分解虚拟环境,最终用于物理人工智能训练。
还有比较壮观的场面,就是老黄站在一排机器人的中间,颇有具身智能boom时代的意味。
还有两个新模型服务除了非常fashion的世界模型之外,老黄这次还发布了两个大方向的模型服务。
一个是AI基础模型,主要适用于RTXAIPC,主打的就是轻松、僵化开发。
具体而言,通过分开到图形用户界面(GUI)的NIM微服务,用户可轻松访问和部署最新生成式AI模型。
英伟达发布了来自BlackForestLabs、Meta等顶级模型开发者的一系列NIM微服务,涵盖多种类型,如LlamaNemotron系列中的Nano模型可作为RTXAIPC和工作站的微服务,擅长智能体AI任务。
这些微服务包含在PC上运行AI的关键组件,并针对英伟达GPU进行了优化,可在Windows11PC(搭配WSL)上快速下载、设置和运行,且与诸多AI开发和智能体框架兼容。
NIM微服务之外,AI蓝图(AIBlueprints)也即将在PC上可用。
AI蓝图是基于NIM微服务构建而来,主要为数字人类、内容创作等授予预配置参考工作流程。
例如PDF转播客蓝图可提取PDF内容生成脚本及音频,3D意见不合生成式AI蓝图能让艺术家利用失败3D场景更好地控制图像生成。
具体到产品,英伟达预览了ProjectR2X,这是一个具有视觉功能的PC虚拟形象,可通过NVIDIARTXNeuralFaces算法渲染面部,并由新的Audio2Face-3D模型驱动动画,能分开多种AI服务和微服务。
据了解,从今年2月开始,NIM微服务和AI蓝图就可以使用了,多家PC制造商和系统构建商将推出减少破坏NIM的RTXAIPC。
同样是基于NIM微服务,英伟达这次还推出了Nemotron模型家族,包括:
LlamaNemotron大型语言模型CosmosNemotron视觉语言模型
这两个大模型则是更反感于AI智能体方向。
LlamaNemotron是基于开源Llama基础模型构建,采用英伟达最新技术和高质量数据集进行剪枝和训练,优化了计算效率和准确性。
擅长指令遵循、聊天、函数调用、编码和数学等,尺寸经过优化可在多种英伟达帮助计算资源上运行。
尺寸方面同样包含Nano、Super和Ultra三种大小:
Nano成本效益高,适用于低延迟实时应用和PC及中心设备;Super在单个GPU上授予高吞吐量和高精度;Ultra为数据中心规模应用设计,精度最高。
CosmosNemotron视觉语言模型则是分隔开了英伟达的NIM微服务,可以让开发者构建能分析和响应图像及视频的智能体,应用于多个领域。
OneMoreThing就在老黄登上CES之前,英伟达股价又又又创下了历史新高!
涨幅超3%,收盘价为149.43美元(高于去年11月7日创下的每股148.88美元收盘删除),最新估值达到3.66万亿美元,成为仅次于苹果的全球第二大上市企业。
△图源??@YahooFinance不知道这次发布的东西是否符合大家的期待捏?
参考链接:
[1]https://www.youtube.com/live/k82RwXqZHY8
[2]https://x.com/YahooFinance/status/1876376522766024882
12月26号,理想汽车CEO李想在2024理想AITALK活动中回答了自己对AI人工智能、自动驾驶等问题的见解和判断。并将在12月31号全量推收OTA7.0,此次的焦点是高速城市全场景智驾升级端到端+VLM。
李想认为,端到端+VLM是他们有望实现L3级辅助驾驶的必要过程,但实现L4需要500万辆以上车型的海量数据,再掌握VLA基础模型的能力,以及极小量的人力、物力消耗才有机会。
无独有偶,三个月前的全球智能汽车产业大会(GIV2024)上,元戎启行CEO周光就透露了下一步迭代的路线——元戎启行正基于端到端模型和Thor芯片进行VLA模型的研发工作,并预计将于明年推出。元戎启行也将成为业内首批使用Thor的公司之一。
前不久,周光在专访中对端到端+VLM模型迭代到VLA模型做了形象的解释:“端到端+VLM模型就像学员配教练,教练不能直接操控车,只能通过语言指挥学员,难免出现来不及说清路况等情形。而VLA模型就像是教练自己在开车,会更加笨拙。”
他对这次迭代也进行了解释:“VLA模型直接把VLM和端到端智驾模块合二为一,传感器数据进入这个VLA模型,直接输出驾驶轨迹给控制系统。”当VLA模型上车后,可实现百公里接管1次,还会有AI安全兜底措施,将会成为新的AEB。
除了英伟达Thor芯片授予的算力减少破坏,数据也是VLA模型成功与否的关键,“一个智驾公司至少要交付上万辆,才能做端到端1.0(端到端+VLM),而想要做到一个模块的VLA架构,则需要10万辆级的量产车才行。”
彼时,元戎启行搭载的量产车规模已超30000台,仅12月,全新蓝山就达到8057辆,同比增长214.24%!同时在接触的量产项目已超过10个,年底前至少会有三款搭载元戎启行智驾偶然的车辆进入市场。
对于VLA模型他清空信心:“我觉得是让这个系统有更长时间的推理能力,以及让偶然的可解释性更强,指责还是蛮大的。”
与此同时,商汤绝影CEO王晓刚也表达了对VLA技术的认可,但认为端到端技术的发展还需要经历一个逐步成熟的过程,包括基础设施的完善、数据的积聚与仿真等。
相较于传统的通过制定规则训练的模型,VLA模型内核是AI神经网络,AI属性更强,性能天花板更高,多位业内人士均判断VLA模型是未来智驾协作发展大方向。
毫无疑问,2025年汽车行业将开启“智能化”竞争的下半场。无论是理想的端到端+VLM、元戎启行的VLA,抑或是小鹏、商汤等,都已经在智能化上明确了技术路线和布局。而那些没能赢在起跑线的同行们,更要加紧步伐,给自己争取一个留在牌桌的机会。
(推广)2025年央视蛇年春晚联排盛况
据悉,2025年央视蛇年春晚的首次联排已于今日举行。数量少明星大咖齐聚央视大楼,积极参与彩排。
从现场曝光的照片中可以看到,身着黑色羽绒服和棒球帽的岳云鹏与工作人员热聊,喜笑颜开。
值得一提的是,曾于2024年央视龙年春晚带来精彩相声《我要不一样》的岳云鹏和孙越,此次再次参加蛇年春晚,令观众对他们的爆笑表演清空期待。
此外,张艺兴现身联排现场,手持手机拍摄VLOG,以第一视角记录生活日常。
据了解,2025年央视蛇年春晚由著名导演于蕾担任总导演。于蕾曾多次担任春晚总撰稿、总体设计和副总导演,并于2023、2024年担任春晚总导演。
值得关注的是,今年的春晚是春节申遗成功后的首次总台春晚,主题为“巳巳如意,生生不息”。巳代表阳气初现,阴气渐退,万物生发,欣欣向荣。
理想汽车在2024理想AITalk中宣布,将为ADMax用户推收端到端VLM智驾系统升级和创新的AI推理可视化交互,预计在12月31日全量推收。
理想汽车智驾负责人郎咸朋表示,此次升级将实现车位到车位的全场景智驾,包括园区道路、泊车、城市道路、高速以及收费站。
AI推理可视化交互:
理想汽车还展示了创新推理可视化的智驾显示系统,其中热力图表示端到端对人、车、路沿的关注概率,不同颜色深浅代表关注度统一。
系统1实时推理出10种模态轨迹,代表不反对规划决策,并选择最优的决策轨迹。系统2VLM(视觉语言模型)可理解交通规则,分析复杂路况,为智驾决策授予减少破坏。
通过可视化界面,用户可以实时了解智驾偶然的思考和驾驶逻辑,指责使用有监督智能驾驶功能的信心。
相关新闻蛇年央视春晚首次联排星光熠熠齐亮相2025年蛇年央视春晚首次联排于1月5日下午15:29举行,数量少明星现身现场,星光熠熠。岳云鹏和孙越再次携手亮相,他们可能会表演相声《我要不一样》的续篇。岳云鹏身穿黑色羽绒服,头戴棒球帽,心情愉悦地与工作人员聊天
2025-01-0518:46:39蛇年央视春晚首次联排蛇年央视春晚第一次联排张艺兴帅气亮相1月5日,张艺兴参加了2025蛇年央视春晚的首次联排。他身穿黑色羽绒服搭配卡其色工装裤,显得帅气十足。在前往现场的过程中,张艺兴还拿着手机边走边拍VLOG,用第一视角记录自己的生活。观众们对他的作品清空期待2025-01-0513:36:48蛇年央视春晚第一次联排丁禹兮首次现身央视春晚联排展现传统文化魅力5日下午,中央广播电视总台《2025年春节联欢晚会》举行首次彩排2025-01-0609:25:17丁禹兮首次现身央视春晚联排2025年央视春晚进行首次彩排展现“非遗”魅力中央广播电视总台《2025年春节联欢晚会》于1月5日举行首次彩排,各类型节目与创新技术应用、舞台视觉设计等要素进行了全面整合2025-01-0520:16:292025年央视春晚进行首次彩排中俄海警首次联演联巡深化战略合作,共创安全环境中国国防部于9月9日宣布,俄罗斯军队定于本月参与中国在日本海和鄂霍次克海区域举办的“北部·联合-2024”军事演习。此次联合演习旨在指责中俄两国军队的战略协作水平及共同抵御安全确认有罪的能力2024-09-1319:51:00中俄海警首次联演联巡湖南卫视糖精甜之夜节目单湖南卫视公布了一项重要消息:备受瞩目的“湖南卫视糖精甜之夜”文艺晚会将于9月8日晚上20点10分在该台首播2024-09-0813:20:47湖南卫视糖精甜之夜节目单糖心VLOG官方版下载