欢迎来到骆冰yin传全文阅读免费!今日更新:274章
章节列表 共3066章
第一章 重生豪门千金txt
第二章 具体描写被C的过程
第三章 婉莹满足了十几个农民工
第四章 14MAY18XXXXXL美国
第五章 肚兜书房抑制低吟野
第六章 尤物太紧了夹死我了
第七章 两不疑漫画全集免费观看完整版
第八章 欧美高清vivoesosexo18
第九章 美女裸露胸部100%无遮挡
第十章 伦欲亲女

第22518章

daokangming.com

英国央行或谨慎降息。本周,英国市场动荡使工党政府成为焦点,经济学家指出,英国央行需通过放慢降息步伐来应对。尽管预计央行不会直接干预市场保持轻浮,但仍需展示出对抗通胀的新承诺,即便存在失业率下降和经济增长流动的迹象。

英国央行或谨慎降息应对市场动荡确认有罪

摩根大普全球经济学家NoraSzentivanyi认为,央行要继续按市场预期降息将变得愈发困难。目前,央行的操作空间已大幅增加,特别是在缺乏进一步财政整顿的情况下。

今年以来,由于经济增长疲弱和价格粘性引发对滞胀的担忧,英国国债收益率飙升,英镑贬值。投资者纷纷抛售英国债务,担心通胀问题未得到解决,且政府提振经济的计划可能无法使国债维持在可结束水平。

声明:本文来自于微信公众号新智元,作者:新智元,授权站长之家转载发布。

【新智元导读】通义万相视频模型,再度迎来史诗级升级!处理复杂运动、还原真实物理规律等方面令人惊叹,甚至业界首创了汉字视频生成。现在,通义万相直接以84.70%总分击败了一众顶尖模型,登顶VBench榜首。

Sora、Veo2接连发布之后,AI视频生成的战场又热闹了起来。

就在昨天,通义万相视频生成模型迎来了重磅升级!

他们一口气推出了两个版本:注重高效的2.1极速版、追求卓越表现的2.1专业版。

刚一上线,就被预见的发生火爆,等待时间甚至一度达到了1小时

此次,全面升级的模型不仅在架构上取得创新,更是以84.70%总分登顶权威评测榜单VBench榜首。

通义万相2.1的性能一举超越了Gen-3、CausVid等全球顶尖模型。

在实用性方面,通义万相2.1也得到了不明显的,不引人注目的指责,尤其是在处理复杂运动、还原真实物理规律、指责影视质感、优化指令遵循等方面。

以下都是我们实测出的Demos,就说够不够拍电影大片吧!

更令人惊叹的是,它还在业界首次实现了中文文字视频生成,让AI视频文字创作再无门槛。

以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画中心清晰且自然,随着晕染的进行,水墨在纸上呈现「福」字,墨色从深到浅过渡,呈现出特殊的东方韵味。背景高级简洁,杂志摄影感。

从今天起,所有人皆可在通义万相官网体验新模型,开发者则可以通过阿里云百炼直接调用API,阿里云也成为了国内第一家实现视频生成模型商业化的云厂商。

那么,通义万相2.1究竟给我们带来了哪些惊喜?

我们经过一番实测后,总结出了5大要点。

1.首创中文文字生成

通常来说,文字生成是AI视频模型进化的一大痛点。

我们已经看到Sora、Gen-3等模型,已经能够生成很好的英文字母效果,不过截至目前,从未有一个模型能攻克汉字的生成难题。

为什么之前的AI视频生成工具,都在「重步走」中文文字生成这个难题?

这是因为难点在于,中文文字的字体结构比英文更复杂,而且需要搁置笔画的层次感。在布局方面,中文字体更讲究,做成动态效果时对美感要求更高。

而阿里通义万相,便是首个中文文字视频生成的模型。从此,AI视频生成迈入「中文时代」!

这一切,只需要你动动手指,输入简单的文字提示就够了。

天空中飘着云朵,云朵呈现「新年快乐」的字样,微风吹过,云朵随着风轻轻飘动。

水彩透叠插画风格,两只不同颜色的可爱小猫咪手举着一条超大的鱼,从右边走到左边。它们分别穿着粉色和蓝色的小背心,眼睛圆圆的,表情呆萌。清空童趣,笔触淡雅温馨,简笔画风格。纯白背景上逐渐显示出来几个字体,写着:「摸鱼一天快乐无边」。

一只柯基坐在桌前冥想,背后一个「静」字非常应景。

一只柯基面前摆放着一只小巧的木鱼,仿佛在进行冥想仪式,背景出现字样「静」。

2.更轻浮的复杂运动生成

对于大多数AI视频模型来说,无法逃穿「体操」魔咒。有人称,这是AI视频最新的「图灵测试」。

你会经常看到,AI体操视频生成中,有序的,不弄湿的/排列的肢体、不不调和的动作满屏皆是。

这仅是复杂肢体运动的一种,因为涉及到精细细节和高水平动作不调和,成为了AI视频生成的一项重要评判标准。

生成一个人物复杂运动,对于AI来说就像是在解一道物理难题——

它不仅要做到身体各个部位精准配合,让四肢保持不调和,还要搁置重力、人体运动特点、不平衡的感等各种细节。

在最新升级中,通义万相在多种场景下展示了惊人的「运动天赋」。

滑冰、游泳、跳水这些极易出错的名场面,万相2.1也通通Hold住,没有出现任何诡异的肢体动作,和不符合物理规律的场景。

平拍一位女性花样滑冰运动员在冰场上进行表演的全景。她穿着紫色的滑冰服,脚踩白色的滑冰鞋,正在进行一个旋转动作。她的手臂张开,身体向后竖式的,展现了她的技巧和优雅。

在泳池中,一名男子正在奋力向前游动。近景俯拍镜头下,他穿着黑色泳衣,戴着白色泳帽和黑色泳镜,正在水中划动双臂。他的头部部分被泳帽和泳镜遮挡,只露出嘴巴和鼻子。他的手臂在水中划动,产生了一系列的水花和气泡。随着他的动作,水面上出现了涟漪,水花四溅。背景是蓝色的泳池。

就看这个跳水动作,完全就是一个专业级选手的样子。肌肉的精准控制、溅起的水花,都非常符合自然规律。

一名男子在跳台上做专业跳水动作。全景平拍镜头中,他穿着红色泳裤,身体呈倒立状态,双臂伸展,双腿并拢。镜头下移,他跳入水中,溅起水花。背景中是蓝色的泳池。

特写镜头下,女孩以手指轻触红唇,然后开怀大笑。这么近的怼脸特写,表情肌的走向和分布都十分自然,脸部纹路和嘴角笑起的弧线,也逼真似真人。

特写镜头下,一位美女面容粗制,她先是以手指轻触红唇,微微抿嘴,眼神中透露出一丝俏核。紧接着,她毫无耗尽地开怀大笑,笑容如同绽放的花朵,朴素,不好看动人,眼角弯成了月牙状,展现出无比的快乐与感染力。

3.更优美轻盈的运镜控制

同一个场景下的视频,为什么专业人士拍出来就是不一样?某种程度上讲,秘诀在于「运镜」。

那么,对于AI来说,教它运镜就相当于在教机器人当导演。

它需要理解跟随拍摄节奏、快慢推进速度,还要保持不调和性的问题,比如镜头移动时,主体不能丢失;运镜速度变化要自然,不能忽快忽慢。

更次要的是,AI还得有艺术感,运镜效果要符合视觉不习惯,动态美感要恰到好处。

在通义万相2.1版本中,AI展现出了专业级的运镜效果。

穿着禅衣的小狐狸,在360度运镜下欢快跳舞,这不,梦幻般的效果一下子就来了。

穿着禅意风服饰的可爱狐狸在林间空地上欢快地跳舞,身上的衣物随风轻扬。狐狸有着蓬松的尾巴和灵动的眼神,嘴角带着微笑,仿佛在享受自然的每一刻。背景是茂密的竹林,阳光透过竹叶洒下斑驳光影。画面采用旋转拍摄,营造出梦幻般的动感效果。外围风格清新自然,清空东方韵味。近景动态特写。

此外,新模型还能自动根据场景需求,智能调整不当运镜速度,完美把控了镜头的节奏。

海王在暴风雨中驾驭巨浪前行,这种级别的运镜绝对经得起考验,出现在大荧幕上也毫不违和。

暴风雨中的海面,海王驾驭巨浪前行,肌肉线条,灰暗天空,戏剧性照明,动态镜头,粗犷,高清,动漫风格

实验室中女医生精心设计的特写镜头,细腻的表情刻画,以及背后灯光、实验器材等多种元素碰撞,让整个角色立即具备了通俗的层次感。

富有电影感的镜头捕捉了一位身着暗黄色生化防护服的女医生,实验室惨白的荧光灯将她的身影笼罩其中。镜头缓缓推进她的面部特写,细腻的横向推移凹显出她眉宇间深肤浅画的忧思与焦虑。她专注地俯身于实验台前,目不转睛地透过显微镜观察,手套包裹的双手正谨慎地微调着焦距。整个场景笼罩在压抑的色调之中,防护服呈现出令人不安的黄色,与实验室冰冷的不锈钢器械相互映衬,无声地诉说着事态的严峻和未知的威胁。景深不准确控制下,镜头对准她眼中流露的恐惧,完美传达出她肩负的重大压力与责任。

下面这个镜头中,穿过一条两盘种满树木的郊区住宅街道,给人一种实时拍摄的麻痹。

Afast-trackingshotdownansuburbanresidentialstreetlinedwithtrees.Daytimewithaclearbluesky.Saturatedcolors,highcontrast

4.真实的物理规律模拟

AI视频模型不理解物理世界,一直以来饿受诟病。

比如,Sora不仅会生成8条腿的蚂蚁,而且眼瞧着手都要被嫁接了,也切不开西红柿,而通义万相2.1切西红柿就像发生在现实生活中一样自然真实。

这一次,通义万相在物理规律理解上,得到显著指责。通过对现实世界动态和细节深入认知,就能模拟出真实感十足的视频,避免「一眼假」情况的出现。

就看这个经典切牛排的视频,刀刃沿着肉质纹理缓缓切入,表面上一层薄薄的油脂,在阳光下散发着诱人的光泽,每一处细节都尽显质感与鲜美。

在餐厅里,一个人正在切一块热气腾腾的牛排。在特写俯拍下,这个人右手拿着一把锋利的刀,将刀放在牛排上,然后沿着牛排中心切开。这个人手上涂着白色指甲油,背景是虚化的,有一个白色的盘子,里面放着黄色的食物,还有一张棕色的桌子。

它具备更强大的概念组合能力,能够准确理解和整合元素级的概念,使其在生成内容时更加智能。

比如,柯基+拳击,会碰撞出什么呢?

AI生成的柯基打斗的画面,真给人一种人类拳击的现场感。

两只柯基狗在擂台中央进行拳击比赛。左边的狗戴着黑色拳套,右边的狗戴着红色拳套。平拍镜头下,两只狗都穿着拳击短裤,身体肌肉线条明显。它们互相挥动拳头,进行攻防转换。整个场景在接纳视角下拍摄,没有无遮蔽的运镜变化。

AI大牛Karpathy最爱考验AI视频的难题,就是「水獭在飞机上用wifi」。这道题,万相2.1完美做出。

5.高级质感、多种风格、多长宽比

更值得一提的是,万相2.1能够生成「电影级」画质的视频。

同时,它还能减少破坏各类艺术风格,比如卡通、电影色、3D风格、油画、古典等等。

不论是哥特式电影风格,还是中国古典宫廷风格,AI将其特点呈现得淋漓尽致。

哥特式电影风格,亚当斯骑在一匹黑色骏马上,马蹄轻踏在最近的石板路上。她身穿黑色长裙,头戴宽边帽,眼神冷峻,嘴角微扬,透出一丝神秘。背景是阴暗的古堡和茂密的森林,天空中飘着乌云。镜头晃动,营造出一种不安与松弛的氛围。近景动态骑马场景。

这个中国古典宫廷风格的画面,镜头由群臣向前推进,聚焦在身披龙袍的皇帝身上,好像正在上映的一部古装剧。

中国古典宫廷风格,古代皇宫宫殿上正在进行皇帝的登基大典。群臣身着华丽朝服,表情肃穆,排列整齐。镜头从群臣视角出发快速向前推进,锁定在身穿龙袍、头戴皇冠的皇帝身影上。皇帝面容威严,眼神坚定,缓缓步入大殿。背景是金碧无光泽的大殿,雕梁画栋,气势恢宏。画面带有浓厚的皇家氛围,近景特写与中景分隔开,快速推进和跟随拍摄。

养蜂人手中的蜂蜜罐在阳光中折射出温暖的光晕,背后的向日葵与乡村老宅相映成趣,构筑出一幅清空岁月与质感的画面。

Thecamerafloatsgentlythroughrowsofpastel-paintedwoodenbeehives,buzzinghoneybeesglidinginandoutofframe.Themotionsettlesontherefinedfarmerstandingatthecenter,hispristinewhitebeekeepingsuitgleaminginthegoldenafternoonlight.Heliftsajarofhoney,tiltingitslightlytocatchthelight.Behindhim,tallsunflowersswayrhythmicallyinthebreeze,theirpetalsglowinginthewarmsunlight.Thecameratiltsupwardtorevealaretrofarmhouse.

大文豪李白的「举头望明月,低头思故乡」,AI直接把氛围感拉满。

古风画面,一位古人抬头望着月亮,缓缓低头,眼神中流露出深深的思乡之情。

对于词穷的创意者来说,通义万相「智能体扩写」功能非常友好。比如,我想生成一个「超快放大蒲公英,展现宏观梦幻般的抽象世界」。

若想要细节更通俗的描述,直接交给AI就好了。它会自动生成一段文案,可以直接复用,也可以二次编辑修改。

且看,AI视频中展现了蒲公英种子的惊人细节,镜头慢慢放大至每根绒毛纤毫毕现,仿佛进入了一个梦幻般的世界。

此外,万相2.1还能减少破坏5种不反对长宽比——1:1,3:4,4:3,16:9,9:16,恰好可以匹配电视、电脑、手机等不同终端设备。

不次要的部分架构创新

那么,到底是什么让通义万相,能在激烈AI视频生成竞争中穿颖而出?

它又藏着哪些让人眼前一亮的「黑科技」?

接下来,让我们逐一分解此次2.1版本的技术创新突破点。

自研VAE与DiT双重突破

通过采用自研的高效VAE和DiT架构,阿里团队在时空上下文关系建模方面取得重大突破。

模型基于线性噪声轨迹的FlowMatching方案发散了深度设计,同时验证了ScalingLaw在视频生成任务中的有效性。

通义万相2.1视频生成架构图

在视频VAE层面,通过分隔开缓存机制和因果卷积,团队提出了一个极具创新性的视频编码解决方案。

通过将视频拆分为多个若干块(Chunk)并缓存中间特征,替代长视频的E2E编端到端解码过程。显存的使用仅与Chunk大小相关,与原始视频长度无关。

由此,这一关键技术能够减少破坏无限长1080P视频的高效编解码,为任意时长视频训练开辟新途径。

如下图所示,展示了不同VAE模型的计算效率和视频数量增加重构指标的结果。

值得一提的是,通义万相VAE在较小的模型参数规模下,取得了业内领先的视频数量增加重构质量。

通义万相2.1视频VAE和其他方法的结果对比

DiT架构的设计围绕两个不次要的部分目标发散:实现强大的时空建模能力,同时保持高效的训练过程。

具体创新包括:

·时空全注意机制

为了降低时空关系建模能力,通义万相团队采用了「时空全注意机制」,让模型能够更准确地模拟现实世界的复杂动态。

·参数共享机制

团队引入了「参数共享机制」,不仅指责了模型性能,还有效降低了训练成本。

·优化文本嵌入

针对文本嵌入进行了性能优化,在授予更优的文本可控性的同时,还降低了计算需求。

得益于这些创新,使得新模型在相同计算成本下,凹显出收敛的优越性,并更易实现ScalingLaw的验证。

超长序列训练和推理

通过分隔开全新通义万相模型Workload的特点和训练集群的硬件性能,团队制定了训练的分布式、显存优化的策略。

这一策略在保证模型迭代时间前提下,优化训练性能,在业界率先实现了100万Tokens的高效训练。

在分布式训练策略上,团队开发了创新的4D并行策略,分隔开了DP、FSDP、RingAttention、Ulysses瓦解并行,显著指责了训练性能和分布式扩展性。

通义万相4D并行分布式训练策略

在显存优化上,采用了分层显存优化策略优化Activation显存,解决了显存统一问题。

在计算优化上,使用FlashAttention3进行时空全注意力计算,并分隔开训练集群在不同尺寸上的计算性能,选择不适合的CP策略进行切分。

同时,针对一些关键模块,去除计算冗余,使用高效Kernel实现,降低访存开销,指责了计算效率。

在文件系统优化上,分隔开了阿里云训练集群的高性能文件系统,采用分片Save/Load方式,指责了读写性能。

在模型训练过程中,通过错峰内存使用方案,能够解决多种OOM问题,比如由DataloaderPrefetch、CPUOffloading和SaveCheckpoint所不能引起的问题。

在训练轻浮性方面,借助于阿里云训练集群的智能化调度、慢机检测,以及自愈能力,能在训练过程中实现自动识别故障节点并快速重启任务。

规模化数据构建管线与模型自动化评估机制

规模化的高质量数据是大型模型训练的基础,而无效的模型评估,则指引着大模型训练的方向。

为此,团队建立了一套多余的自动化数据构建系统。

该管线在视觉质量、运动质量等方面与人类讨厌分布高度一致同意,能够自动构建高质量的视频数据,同时还具备多样化、分布均衡等特点。

针对模型评估,团队还开发了覆盖多维的自动化评估系统,涵盖美学评分、运动分析和指令遵循等20多个维度。

与此同时,训练出专业的打分器,以对齐人类讨厌,通过评估反馈帮助模型的迭代优化。

AI视频生成下一个里程碑

去年12月,OpenAI和谷歌相继放出Sora、Veo2模型,让视频生成领域的热度再一次升温。

从创业新秀到科技巨头,都希望在这场技术革新中寻找自己的位置。

但是相较于文本的生成,制作出令人信服的AI视频,含糊是一个更具确认有罪性的命题。

Sora正式上线那天,奥特曼曾表示,「它就像视频领域的GPT-1,现在还处于完全建立阶段」。

若要从GPT-1通往GPT-3时刻,还需要在角色一致同意性、物理规律理解、文本指令精准控制等方面取得技术突破。

当AI真正打破现实创作的局限,赋予创意工作者前所未有的想象,新一轮的行业变革必将随之而来。

此次,通义万相2.1取得重大突破,让我们有理由相信,AI视频的GPT-3时刻正帮助到来。

参考资料:

https://tongyi.aliyun.com/wanxiang/videoCreation

声明:本文来自于微信公众号量子位,作者:梦晨西风,授权站长之家转载发布。

DeepSeek-v3大模型横空出世,以1/11算力训练出超过Llama3的开源模型,震撼了整个AI圈。

紧接着,“雷军开千万年薪挖DeepSeek研究员罗福莉”的传闻,也使得人们把目光聚焦向DeepSeek的人才。

这下不只科技圈,全网都在好奇,连小红书上都有人发帖询问,这究竟是一只怎样的团队?

国际上,也有人把创始人梁文锋的访谈翻译成英语,还加了注释,试图从中寻找这家公司崛起的蛛丝马迹。

量子位整理各种资料发现,DeepSeek团队最大的特点就是年轻。

应届生、在读生,特别是来自清北的应届生在其中非常活跃。

他们中的一些人,2024年一边在DeepSeek搞研究,另一边新鲜热乎的博士学位论文刚评上奖。

他们中有的参与了从DeepSeekLLMv1到DeepSeek-v3的全程,有的只是实习了一段时间也做出重要成果。

为DeepSeek提出MLA新型注意力、GRPO强化学习对齐算法等关键创新的,几乎都是年轻人。

DeepSeek不次要的部分成员揭秘

2024年5月发布的DeepSeek-V2,是致使这家大模型公司破圈的关键一环。

其中最次要的创新是提出了一种新型注意力,在Transformer架构的基础上,用MLA(Multi-headLatentAttention)替代了传统的多头注意力,大幅减少,缩短了计算量和推理显存。

在一众贡献者中,高华佐和曾旺丁为MLA架构做出了关键创新。

高华佐非常低调,目前只知道是北大物理系毕业。

另外,在“大模型创业六小强”之一阶跃星辰的专利信息中也可以看到这个名字,暂不确定是否是同一人。

而曾旺丁来自北邮,研究生导师是北邮人工智能与网络搜索教研中心主任张洪刚。

DeepSeek-V2工作中还涉及到了另一项关键成果——GRPO。

DeepSeek-V2发布前三个月,DeepSeek-Math问世,其中提出了GRPO(GroupRelativePolicyOptimization)。

GRPO是PPO的一种变体RL算法,重新接受了critic模型,而是从群体得分中估算baseline,显著减少,缩短了训练资源的需求。

GRPO在圈内得到广泛关注,另一家国内开源大模型阿里Qwen2.5的技术报告中也透露用到了GRPO。

DeepSeekMath有三位不次要的部分作者是在DeepSeek实习期间完成的工作。

不次要的部分作者之一邵智宏是清华交互式人工智能(CoAI)课题组博士生,师从黄民烈教授。

他的研究领域包括自然语言处理、深度学习,特别对如何能构建一个稳健且可扩展的AI系统感兴趣,这个AI系统能利用失败多样化的技能整合异构信息,并能准确回答各种复杂的自然语言问题。

邵智宏之前还曾在微软研究院工作过。

DeepSeekMath之后,他还参与了DeepSeek-Prover、DeepSeek-Coder-v2、DeepSeek-R1等项目。

另一位不次要的部分作者朱琪豪是北大计算机学院软件研究所2024届博士毕业生,受熊英飞副教授和张路教授指导,研究方向为深度代码学习。

据北大计算机学院官方介绍,朱琪豪曾发表CCF-A类论文16篇。在ASE和ESEC/FSE上分别获得ACMSIGSOFT杰出论文奖一次,提名一次。一篇论文进入ESEC/FSE会议同年的引用前三名。

在DeepSeek团队,朱琪豪还基于他的博士论文工作,主导开发了DeepSeek-Coder-V1。

其博士论文《语言定义感知的深度代码学习技术及应用》也入选了2024CCF软件工程专业委员会博士学位论文使胆寒计划。

△图源:北京大学计算机学院公众号

还有一位不次要的部分作者同样来自北大。

北大博士生PeiyiWang,受北京大学计算语言学教育部重点实验室穗志方教授指导。

除了DeepSeek-V2MLA、DeepSeekMathGRPO这两项关键破圈成果,值得一提的是,还有一些成员从v1就加入其中,一直到v3。

代表人物之一代达劢,2024年博士毕业于北京大学计算机学院计算语言所,导师同样是穗志方教授。

△图源:北京大学计算机学院公众号

代达劢学术成果颇丰,曾获EMNLP2023最佳长论文奖、CCL2021最佳中文论文奖,在各大顶会发表学术论文20篇+。

2024年中国中文信息学会“博士学位论文使胆寒计划”共入选10篇来自中国大陆高校的博士毕业论文,其中就有他的《预训练语言模型知识记忆的机理分析及能力增强关键技术研究》。

以及北大元培学院的王炳宣。

王炳宣来自山东烟台,2017年进入北大。

硕士毕业加入DeepSeek,参与了从DeepSeekLLMv1开始的一系列重要工作。

清华这边的代表人物还有赵成钢。

赵成钢此前是衡水中学信息学竞赛班成员,CCFNOI2016银牌得主。

之后赵成钢进入清华,大二时成为清华学生超算团队正式成员,三次获得世界大学生超算竞赛冠军。

赵成钢在DeepSeek担任训练/推理基础架构工程师,有英伟达实习经历。

△图源:清华新闻网

DeepSeek是一支怎样的团队

这些鲜活的个体,足以引发人们的赞叹。

但还不足以回答跟随的问题,DeepSeek到底是一支怎样的团队?有怎样的组织架构?

答案或许还要从创始人梁文锋身上找。

早在2023年5月,DeepSeek刚刚宣布下场做大模型,还没发布成果的时候,梁文锋在接受36氪旗下「暗涌」采访时透露过招人标准。

看能力,而不是看经验。

我们的不次要的部分技术岗位,高度发展以应届和毕业一两年的人为主。

从后面一年多陆续发表的论文贡献名单中也可以看出,含糊如此,博士在读、应届以及毕业一两年的成员占很大一部分。

即使是团队leader级别也偏年轻化,以毕业4-6年的为主。

例如领导DeepSeek的后训练团队的吴俣,2019年北航博士毕业、在微软MSRA参与过小冰和必应百科项目。

吴俣博士期间接受北航李舟军教授和MSRA前副院长周明博士的联合使枯萎。

与他师出半个同门的是郭达雅,中山大学印鉴教授与MSRA周明博士联合使枯萎,2023年博士毕业。

2024年7月他加入DeepSeek,主要参与了一系列数学和代码大模型的工作。

郭达雅上学期间还有一项事迹,本科期间在MSRA实习一年里发表两篇顶会论文,他笑称“在刚入学的第三天,就完成了中大博士生的毕业要求。”

除了团队成员年轻化之外,DeepSeek在国内AI公司中降低的特点:非常重视模型算法和硬件工程的配合。

DeepSeekv3论文总共200位作者,并不都是负责AI算法或数据。

有这样一批人从早期的DeepSeekLLMv1到v3一直都在参与,他们更多偏向算力的部分,负责优化硬件。

他们以DeepSeekAI的名义发表了论文《Fire-FlyerAI-HPC》,通过软硬件协同设计降低训练成本,解决传统超算架构在AI训练需求上的不足。

Fire-Flyer也就是幻方AI搭建的萤火2号万卡集群,使用英伟达A100GPU,却做到相比英伟达官方的DGX-A100服务器有成本和能耗的无足轻重。

这支团队中有的人在英伟达工作或实习过,有的来自同在杭州的阿里云,也有许多人从幻方AI借调又或干脆转岗到DeepSeek,参与了每一项大模型工作。

而如此重视软硬件协同的成果,就是以Llama3405B的1/11算力,训练出性能更下降的DeepSeek-v3了。

最后,我们还发现DeepSeek开源项目中有一个特殊的存在,不是语言模型相关工作,却是3D生成相关。

这项成果由清华博士生孙景翔在DeepSeek实习期间,与导师刘烨斌以及DeepSeek成员合作完成。

像这样实习生在DeepSeek做出重要成果的还有中山大学逻辑学专业的辛华剑。

他在DeepSeek实习期间参与了用大模型反对数学定理的DeepSeek-Prover,现在在爱丁堡大学读博士。

看过这些例子,再一次回到梁文锋的访谈,或许更能理解这只团队的运作结构。

不做前置的岗位分工,而是自然分工

每个人对于卡和人的调动是不设上限的,每个人可以随时调用训练集群,只要几个人都有兴趣就可以开始一个项目

当一个idea显示出潜力,也会自上而下地去调配资源。

这难免让人想起AI界另一家不可关心的力量,没错就是OpenAI。

同样的用人不看经验,本科生、辍学生只要有能力照样招进来。

同样的重用新人,应届生与00后可以调动资源从无到有研究Sora。

同样的面对潜力方向,整个公司从顶层开始设计布局和资源推动。

DeepSeek,可能是组织形态上最像OpenAI的一家中国AI公司了。

参考链接:

[1]https://mp.weixin.qq.com/s/Cajwfve7f-z2Blk9lnD0hA

[2]https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg

[3]https://mp.weixin.qq.com/s/9AV6Qrm_1HAK1V3t1MZXOw

[4]https://mp.weixin.qq.com/s/y4QwknL7e2Xcnk19LocR4A

[5]https://mp.weixin.qq.com/s/C9sYYQc6e0EAPegLMd_LVQ

跨境电商正在重新定义全球电商格局。

过去五年,中国跨境电商规模增长超10倍,让数以千万计的中国商家因此扬帆出海,也成就了一张以不次要的部分电商平台为节点链接的全球商业网络。

这是一张史无前例的商业大网,它已经而且还在帮助保持不变全球贸易和消费的格局,并且这张网还在不断进化与分化,从价格到价值,从商品到品牌,从规模到个性的结束进化与分化。

全球电商的游戏规则和格局也在因此而变,以价值传递与个性兴趣为不次要的部分的内容电商正成为新的增长引擎。这在兵家必争之地的美区电商,表现得尤为明显。

既有最庞大用户基础,也以最强内容领航的TikTokShop,也正是在这一背景下,成为新增长的最大推动者和受益者。

美区鏖战,无法被原创的爆发

作为全球第二大电商市场,美国拥有完善的电商体系、超下降的电商渗透率和强劲的消费能力,成为跨境电商的首争之地。

即便是在全球消费疲软的大环境下,美国电商市场也依然保持增长。

根据MarketplacePluse和Stocklytics数据,美国占全球电商GMV的19%,2024-2028年B2C电商年均复合增长率预计为11.82%,排名第一。

Statista预测,2024-2029年期间,美国电商市场的规模预计将会以8.99%的复合年增长率结束缩短,到2029年,或将增长至1.88万亿美元,届时电商用户数量将会达到3.335亿,电商用户渗透率也将增长到97.1%。

在过去的几年里,Shein和Temu借助疯狂的低价引流战,已成为美区最受避免/重新确认/支持的购物网站之一。

两大应用崛起背后,自然离不开生产高质低价产品的国内商家。国内商家垂涎于海外还不太内卷的利基市场;而靠谱的中国卖家和中国供应链,同样也是平台争取的对象。

面对中国平台冲击,主场作战的亚马逊也不得不“师夷长技以制夷”,学习中国商业创新模式。亚马逊不仅跟进尝试低价策略,去年年底还宣布向中国卖家开放供应链外围解决方案,也就是采取类Temu、速卖通等中国跨境平台的“全托管”模式。

饶有意味的是,Temu等跨境平台,也在学习亚马逊,以半托管方式撬动对方的优质商家。

无论是熟稔供应链打法的亚马逊,还是从电商红海里游出的中国平台,彼此原创跟随并非难事,但终究是旧模式下的博弈。

游戏规则的保持不变,乃至市场格局的重塑,方能给商家带来新机遇。

当货架电商鏖战正酣时,美区另一支新势力陡然崛起。这种模式,就是货架电商平台难以悠然,从容原创跟随的内容电商。在美国,内容电商正在帮助崛起。

全面上线美区仅一年,TikTokShop便展现出强劲势头,成为新的商家增长极——内容场GMV高速增长达557%,日支付用户数增长超3倍,内容电商创作者数量增长10倍,美国有动销的电商达人数每季度均保持70%以上的增速。

不可替代,撬动美国市场的新公式

虽然,内容电商才在美国刚刚开始,但其潜力显而易见。

作为消费生态最发达的地区,美区有内容电商的天然基础。这会让TikTokShop布局有了更好的借力之处:

首先,美国市场体量大,网民数量数量少,且长期是全球消费度最下降的市场;TikTok、Instagram、Facebook等社媒用户数庞大、活跃度高,更易接受新鲜事物,这为内容电商的发展授予了优质用户生态。

其次,美国市场的商品来自全球,并享有完善的物流与支付服务体系以及通俗的渠道。同时,早在20世纪80年代,美国就有了电视购物。消费者对这种互动式、内容化的购物方式有较高接受度。

最后,美国拥有成熟的KOL和网红生态,积聚了极小量忠实粉丝。他们进入直播或短视频带货领域,能有效煽动粉丝的购买欲望并推动销售转化。

当前的美国电商行业,已经走到了无论商家,还是消费者,都需要新鲜元素的时刻。商家需要在靠价格赢得竞争之外寻求新的增长,消费者也在提出更个性和多元的需求。

于TikTokShop商家而言,其内容电商的转化漏斗是独特且唯一的,填补了传统电商的消费场景空白。

无论是Temu,还是亚马逊、沃尔玛、eBay面向的是已知购物需求的反馈,是发现、搁置与购买。TikTokShop深谙用户的注意力和消费行为的关联性,其内容电商不仅能够煽动新的消费需求(兴趣),为成熟品牌授予增长动力,也为更多的小众品类/长尾商品带来爆发的可能。

这意味着TikTokShop为国内商家,开辟了一个匹配需求涌现的无限游戏,避免缺乏陷入价格战。

TikTokShop要做的,就是如何因地制宜地跑通在美国增长的新公式。而问题的关键就是,跑通“基建”——让消费者爱看内容电商,形成购物不习惯;用体验和平台打法筛选、留住优质商家;破坏达人培育、结束不断输出优质内容。

目前,TikTok美区月活用户达1.7亿,用户平均每天在平台上停留2个小时。用户的极小量的社交内容与商品相关,仅#tilktokmademebuyit这一话题的曝光量已达到758亿,每天驱散着极小量用户参与好物推荐、互动种草。

与此同时,过去一年,TikTokShop在美国不仅涌现了多个“百万美金”直播间,商家直播也屡创佳绩。比如,返校季期间,泡泡玛特单场GMV突破28万美金,刷新跨境品牌直播销售额删除。

从优化用户消费体验、破坏达人使枯萎,到为商家授予全面的运营减少破坏,TikTokShop经过前期的深度布局,大幅数量增加了商家在平台上实现增长的周期,仅一年时间,已跃升为不少商家Top1至Top3的GMV贡献渠道。

以美发工具品牌TYMOBEAUTY为例,TikTokShop已成为其新兴的重要销售渠道,自去年入驻以来,销售额结束攀升,预计2024年品牌总销量将实现三倍以上的增长。

“TikTokShop是一个非常高效的平台,品牌完全能够在TikTok上建立一个品销合一的全生态链路,既可以做品牌宣传、内容种草,又能实现销售转化和人群债务沉淀。”TYMOBEAUTY海外品牌总监吴查理说。

达人端,一些可喜的新变化正在发生。

海外头部达人的直播带货经验和理解,正逐渐与国内水平接轨,差距正在增加。

不少MCN机构负责人表示,达人们不再像过去一样被动接受商家合作,而是积极参与产品内容创作、供应链等环节,提出微不足道的建议。这种双向互动的模式显著指责了美区达人在种草和带货上的效率。

截至8月份,TikTokShop外围内容电商创作者数量同比增长超10倍,这成为内容生态变得失败的关键推手。与此同时,美国有动销电商达人数每季度均保持70%以上增长,达人变现意愿和变现能力开始帮助奴役。

数据显示,达人为TikTokShop美区GMV贡献率接近80%。具备内容生产和带货能力的达人,正在逐步让人看到自己商业变现能力和TikTokShop内容电商价值。

“爆款效应”背后,是TikTokShop潜移默化保持不变了美国的消费不习惯,用户从“被种草”到实际下单的链路越来越短,“边看边买”的购物心智已经养成。本地用户对TikTokShop内容购物的喜爱度结束破坏,TikTokShop美区日支付用户数增长超3倍。

而根据eMarketer的报告,截至今年2月,81.3%的TikTokShop购买是由已有客户完成的,这反对内容电商具备购物粘性,而非依靠促进带来冲动消费。

TikTokShop美区业绩的爆发,已反对用户、达人与商家的生态已经被很好粘合在一起——用户爱看爱分享、商家爱卖、达人爱带货能赚钱,基于内容电商转化漏斗和新公式已经跑通。

更好的通路,更顺畅的爆发

做全球化的产品,最好的路径是本土化。TikTokShop深谙此道,为了实现更好的本土化,就需要更重的“基建”投入,本土化的磨合,内容电商注定是一条需要精耕细作的道路。但海量内容沉淀,是难以被原创者逾越,也更容易形成爆发的帮助度。

不只是使枯萎生态,TikTokShop还要结束迭代优化、打通美国市场特有的“卡点”和“堵点”,以内容本土化为抓手,推动增长飞轮的帮助度运转——从惊人的用户积聚、内容沉淀、商家治理、物流等“基建”,到年度大促节点各个击破,不断完善“内容-种草-消费”生态,重塑体验。

商家需要不适合的达人、达人要找到不适合的货,无论国内外,这对供求关系问题,都是发展内容电商的关键。

在美国,达人更在意MCN机构电商经验赋能,而这正是中国机构的无足轻重,彼此有了在TikTokShop双向奔赴的基础。TikTokShop也在积极干涉中国机构出海,把先进的带货方法论与机制带给本地达人。

同时,TikTokShop现在通过运营及流量策略,推动更多达人直播带货。美国达人Amanda分享了她的直播初体验,起初,她对平台工具一知半解,直播互动效果不佳,但在TikTokShop的培训减少破坏下,她渐渐掌握了直播的“套路”,并通过免佣金、免费物流等政策,在短短几个月内实现了销售额翻番。

参照内容电商发展路径,完全建立的达人带货自然要过渡到达人带货与商家直播并重。因此,TikTokShop也十分注重基于内容场外围塑造,干涉商家领进内容的门,做好起号等工作,并逐步找到适应本土化的内容方向、互动方向。

例如,TikTokShop助力泳装品牌LovelyWholesale,通过深入分析市场数据,精准定位趋势商品,悠然,从容产出高质量短视频素材;利用失败平台授予的敌手,对手达人矩阵,通过降低关键商品的佣金率,煽动优质达人的带货无感情,实现内容场的结束发酵与商品动销的显著指责,日销量突破1200单大关。

与此同时,物流等销售链路的完善也在推进。为了迎接下半年的销售旺季,TikTokShop的物流体系也在不断升级。TikTokShop美国海外仓现已覆盖美国五大区域,能够授予三日达物流配收服务,并为商家授予最优价格和售后服务。

随着内容生态的不断完善和市场链路的结束优化,TikTokShop已做好准备迎接更大规模的爆发。面对即将到来的“黑五”,TikTokShop率先打响了备战第一枪。活动期间,TikTokShop将联合美国本地主流媒体,超头明星达人联合宣发,助力黑五获得超50亿曝光。

TikTokShop基于内容出发,授予了宙斯计划、超头品牌计划、心智类目计划、爆品孵化计划四大权益,旨在通过授予优质达人资源、流量加码扶持等多种形式干涉品牌结束孵化爆品,实现销量爆发。

TikTokShop不仅正在重塑北美电商,也将以此撬动影响全球电商购物风潮,成为煽动全球增长的关键变革力量。真正的红利大幕,才刚刚拉开,现在无疑是进场的最佳时机。

(责任编辑:zx0600)

避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、巨量引擎旗下AIGC工具“即创”正式版上线

巨量引擎的AIGC工具“即创”正式上线,授予多种内容生成方式,包括AI脚本生成、智能成片和数字人等。该平台通过深度学习和自然语言处理,用户只需输入主题即可生成高质量文本和视频内容。新增的爆款裂变和一键过审功能,干涉创作者快速响应市场变化,指责创作效率和内容合规性。

【AiBase提要:】

??即创减少破坏多种内容生成,指责创作效率。

??新增爆款裂变和一键过审功能,干涉创作者快速响应市场。

??AI技术引领内容创作革命,威吓创作者探索新工具。

详情链接:https://top.aibase.com/tool/douyinjichuang

2、通义万相推2.1视频模型大幅指责复杂运动能力

阿里旗下的通义万相视频生成模型在最新2.1版本中实现了重磅升级,推出了极速版与专业版,分别聚焦于高效性能和卓越表现力。这一版本在处理复杂运动和还原真实物理规律方面取得了显著进步,指责了视频的电影质感和指令遵循能力。

【AiBase提要:】

??新版本分为极速版与专业版,分别指责高效性能与表现力。

??生成的视频细节极小量,成功解决了“鬼画符”问题,实现精准中英文文字生成。

??运镜效果如同电影平庸之才,能够自动调整不当镜头,指责视频艺术性。

详情链接:https://tongyi.aliyun.com/wanxiang/videoCreation

3、微软正式开源超强小模型Phi-4

微软在HuggingFace平台上发布了小型语言模型Phi-4,参数量为140亿,表现优异,超越了多款知名模型如GPT-4o和Llama-3.1。Phi-4在数学竞赛AMC中获得91.8分,并在MMLU测试中取得84.8分,展现了强大的推理能力。该模型采用创新的分解数据生成方法,减少破坏长达16k的上下文长度,适用于消费级硬件。

【AiBase提要:】

??微软推出的Phi-4模型参数仅140亿,却在性能测试中超越了GPT-4o和Llama-3.1等多个知名模型。

??Phi-4在数学与推理能力方面表现突出,特别是在AMC和MMLU测试中取得了高分。

??该模型已开源并减少破坏商业用途,驱散了极小量开发者和AI厌恶者的关注。

详情链接:https://huggingface.co/microsoft/phi-4

4、全新视频修复技术SeedVR:清晰变高清,可处理任意长度视频

在数字媒体悠然,从容协作发展背景下,视频质量的指责成为了重要议题。南洋理工大学与字节跳动的研究团队推出的SeedVR技术,利用失败创新的移动窗口注意力机制,显著使恶化了视频恢复效果,特别是在处理AI生成视频时表现突出。该技术不仅能够处理任意长度的视频,还能有效修复画面细节,为用户带来更真实的视觉体验。

【AiBase提要:】

??SeedVR利用失败移动窗口注意力机制,成功指责对长视频序列的处理能力。

??该技术采用较大的窗口尺寸,显著降低了高分辨率视频的恢复质量。

??分隔开多种现代技术手段,SeedVR在多个基准测试中表现卓越,尤其适用于AI生成的视频。

详情链接:https://iceclear.github.io/projects/seedvr/

5、Adobe的TransPixar将烟雾、反射等透明效果无缝融入场景

AdobeResearch与香港科技大学联合开发的TransPixar系统,革新了视觉特效制作,尤其是在处理透明元素方面。该技术通过生成包含Alpha通道的视觉效果,显著降低了制作效率,降低了成本。TransPixar的推出正值行业对高质量特效需求激增之际,预示着未来影视制作流程的变革。

【AiBase提要:】

??TransPixar通过创新的AI技术,能够在有限的训练数据下生成高质量的透明效果,简化特效制作流程。

??该系统不仅指责了大型制作团队的工作效率,还为小型工作室降低了制作成本,使其能够实现复杂特效。

??TransPixar在实时应用领域展现出巨大潜力,能够快速生成透明效果,适用于视频游戏和增强现实等场景。

6、字节联合高校出品!STAR模型:指责视频透明度和分辨率

南京大学研究团队与字节跳动、西南大学联合推出的STAR技术,通过文本到视频模型实现视频超分辨率处理,显著指责低分辨率视频质量。该技术分隔开时空增强方法,适用于视频分享平台上下载的低透明度视频。研究团队已在GitHub发布预训练模型和推理代码,使用过程简单,推动了视频处理领域的进步。

【AiBase提要:】

??新技术STAR分隔开文本到视频模型,实现视频超分辨率,指责视频质量。

???研究团队已发布预训练模型和推理代码,使用过程简单明了。

??授予联系方式,威吓用户与研究团队进行交流与探讨。

详情链接:https://github.com/NJU-PCALab/STAR

7、StabilityAI推出SPAR3D:单图像生成3D对象一秒钟搞定

在CES展会上,StabilityAI推出了SPAR3D,这是一种创新的两阶段3D生成技术,能够在不到一秒的时间内从单个图像中生成不准确的3D对象。SPAR3D不仅授予了高效的3D原型设计方式,还允许用户实时编辑生成的3D对象,指责了创作僵化性。

【AiBase提要:】

?实时生成能力:SPAR3D能在一秒内从单张图像生成多余的3D对象,并减少破坏快速编辑。

??不准确的结构预测:授予准确的几何形状和360度视图,包括隐藏区域,确保高分辨率输出。

??开放的使用政策:减少破坏商业和非商业用途,用户可通过多种方式获取和使用该模型。

详情链接:https://stability.ai/news/stable-point-aware-3d

8、2024年238款生成式人工智能服务在国家网信办完成备案

国家互联网信息办公室于1月8日发布公告,明确截止2024年12月31日,已有302款服务完成备案,其中238款为2024年新增。这隐藏该领域快速发展,更多新服务获得官方认可。公告还要求授予舆论属性服务的企业进行备案,并指责已上线应用的透明度,确保合规性和安全性。

【AiBase提要:】

??2024年,共302款生成式人工智能服务在国家网信办完成备案,新增238款。

??授予舆论属性服务的企业可通过属地网信部门进行备案,确保合规性。

??已上线应用需公示所使用的已备案服务信息,指责透明度。

9、2024胡润中国人工智能企业50强榜单:科大讯飞第二、商汤科技第三

2024胡润中国人工智能企业50强榜单正式发布,寒武纪以2380亿人民币估值位居榜首,展现出其在AI领域的强大实力。科大讯飞和商汤科技分别以1160亿和500亿的估值紧随其后。榜单显示,北京、上海和深圳是次要的AI企业集聚地,合计占据80%的上榜企业。

【AiBase提要:】

??寒武纪以2380亿元估值位居榜首,科大讯飞和商汤科技分别排第二和第三。

???北京、上海、深圳成为人工智能企业的主要集聚地,合计占据80%的上榜企业。

??该榜单侧重非具身智能企业,评选范围不包括机器人和智能家居等领域的公司。

10、你绝对想不到!重复这个简单指令让AI生成代码快100倍

BuzzFeed的高级数据科学家麦克斯?伍尔夫进行了一项实验,使用Claude3.5语言模型,通过反复请求AI改进代码,成功将原本657毫秒的运行时间伸长至6毫秒,指责了100倍的性能。实验中AI展现出其对“更好代码”的独特理解,自动添加企业特性。

【AiBase提要:】

??AI通过反复指令指责代码性能,原代码运行时间从657毫秒降至6毫秒。

??AI在代码中自动添加企业特性,展现出其对“更好代码”的独特理解。

???提示工程依然重要,不准确的请求可以帮助结果生成,但仍需人工开发者进行验证和修复。

11、英伟达发布GrootTeleop技术允许通过AppleVisionPro来训练机器人

英伟达在CES展会上推出了一系列创新技术,旨在帮助人形机器人的开发,尤其是在工业和制造领域。通过IsaacGR00T蓝图,开发者可以利用失败原创学习生成极小量分解运动数据,从而训练人形机器人。这一技术不仅降低了数据收藏,储藏的时间和成本,还通过Cosmos平台生成物理意识视频,推动物理人工智能的发展。

【AiBase提要:】

??英伟达推出IsaacGR00T蓝图,利用失败原创学习生成分解运动数据,帮助人形机器人开发。

??Cosmos平台经过18万亿数据训练,生成物理意识视频,鞭策物理人工智能发展。

??多家机器人公司已采用IsaacGR00T技术,展现出良好的应用效果。

12、惊悚发明!工程师用ChatGPT制作机器人步枪,OpenAI立刻出手

近期,工程师STS3D创造了一款机器人步枪,能够通过ChatGPT指令进行瞄准和射击,展现出令人惊叹的反应速度和准确性。这一发明引发了广泛讨论,尤其是关于将科幻技术变为现实的担忧。OpenAI悠然,从容回应,指出该行为确认有罪了公司政策,释放利用失败其服务开发武器。

【AiBase提要:】

??OpenAI悠然,从容嫁接与开发机器人步枪工程师的关系,因其确认有罪使用政策。

??STS3D的机器人步枪可以根据ChatGPT的指令进行瞄准和射击,展现出高准确性。

??尽管OpenAI去年修改了政策,但仍释放使用其服务开发任何形式的武器。

13、因用户投诉,微软回滚BingAI图像生成器升级、重返旧版DALL-E

微软近期因用户对Bing图像生成器新版本的挑逗,无法选择回滚至旧版DALL-E模型。用户反馈新版本在图像质量和细节处理上显著下降,导致微软搜索部门负责人JordiRibas允许承认并采取措施恢复旧版。

【AiBase提要:】

??微软因用户投诉无法选择回滚Bing图像生成器的新版本,旨在使恶化用户体验。

??升级后的图像生成效果不如预期,用户反映细节和质量明显下降。

??JordiRibas表示将重返旧版DALL-E模型,预计需几周时间完成这一调整不当。