自人工智能实验室成立初期以来,AWS 一直是 Anthropic 的主要云平台——这种关系很重要,即使在 Anthropic 后来又将微软纳入云合作伙伴行列,以及亚马逊与 OpenAI 的合作伙伴关系持续不断的发展之后,这种关系依然得以维系。
OpenAI与AWS的合作协议使其成为OpenAI全新AI智能体构建工具Frontier的独家供应商。如果智能体真的像硅谷预期的那样发展壮大,Frontier可能会成为OpenAI业务的重要组成部分。我们将拭目以待,看看这项独家协议是否会如之前宣布的那样有效。《金融时报》本周报道称,微软可能认为OpenAI与亚马逊的合作协议违反了其自身与OpenAI的协议,即微软有权访问OpenAI的所有模型和技术。
AWS 对 OpenAI 的吸引力究竟何在?作为合作的一部分,这家云巨头同意向 OpenAI 提供 2 吉瓦的 Trainium 计算能力。考虑到 Anthropic 和亚马逊自家的 Bedrock 服务对 Trainium 芯片的消耗速度已超越了亚马逊的生产能力,这无疑是一项巨大的投入。
值得注意的是,虽然 Trainium 最初是为更快、更便宜的模型训练而设计的(这在几年前是更重要的),但现在它也经过调整并用于推理。推理——即实际运行 AI 模型以生成响应的过程——目前是业界最大的性能瓶颈。
举例来说:Trainium2 处理了亚马逊 Bedrock 服务的大部分推理流量,该服务支持亚马逊众多企业客户构建 AI 应用程序,并允许应用程序使用多个模型。
“我们的客户群正以我们也可以提供足够容量的速度迅速扩张,”金说道。“Bedrock 有朝一日可能会像 EC2 一样庞大,”他补充道,这里指的是 AWS 的巨型计算云服务。
除了为英伟达积压且难以获得的 GPU 提供替代方案外,亚马逊表示,其运行在其新型专用 Trn3 UltraServer 上的新芯片,在性能相当的情况下,运行成本比使用传统云服务器低 50%。
除了12 月份发布的 Trainium3之外,AWS 团队还构建了新的 Neuron 交换机,Carroll 表示,这种组合具有变革性意义。
“这给我们大家带来了巨大的优势,”卡罗尔说道。这些交换机使得Trainium3的每个芯片都能与网状网络中的其他所有芯片通信,以此来降低延迟。“这就是为什么Trainium3能够打破各种记录,”他补充道,尤其是在“性价比”方面。
事实上,亚马逊的芯片团队在2024年受到了苹果公司的赞扬。这家向来低调的公司难得地公开了其人工智能总监怎么样去使用该团队的另一款芯片——Graviton。Graviton是一款低功耗的基于ARM架构的服务器CPU,也是该团队设计的首款突破性芯片。苹果还赞扬了专为推理而设计的Inferentia芯片,并对当时新推出的Trainium芯片表示认可。
这些芯片代表了亚马逊的经典策略:了解人们想买什么,然后打造一款在价格上具有竞争力的自有替代品。
从历史上看,芯片的难点在于转换成本。为英伟达芯片编写的应用程序必须重新架构才能与其他芯片兼容——这是一个耗时的过程,阻碍了研发人员进行转换。
但AWS芯片团队自豪地告诉我,Trainium现在支持PyTorch,这是一个流行的开源AI模型构建框架。这这中间还包括Hugging Face上托管的许多模型,Hugging Face是一个庞大的库,开发的人能在这里共享开源模型。
卡罗尔告诉我,这种转换“基本上只需要修改一行代码,然后重新编译,就可以在 Trainium 上运行了”。换句话说,亚马逊正试图尽可能地削弱英伟达的市场主导地位。
AWS 本月还宣布与 Cerebras Systems 建立合作伙伴关系,将该公司的推理芯片集成到运行 Trainium 的服务器上,亚马逊承诺这将带来超强、低延迟的 AI 性能。
但亚马逊的雄心壮志远不止于芯片本身。它还设计了承载这些芯片的服务器。除了网络组件之外,该团队还设计了“Nitro”,这是一种软硬件结合的解决方案,它提供虚拟化技术(允许多个软件实例在同一台服务器上独立运行)、最先进的液冷技术,以及承载这些设备的服务器机架(如下图所示)。
亚马逊的定制芯片设计部门成立于2015年1月,当时这家云计算巨头以约3.5亿美元收购了以色列芯片设计公司Annapurna Labs。因此,该团队至今已有十余年为AWS设计芯片的经验。该部门保留了Annapurna的品牌和名称——其标志在办公的地方随处可见。
这家芯片实验室位于奥斯汀高档的“The Domain”区一栋闪亮的镀铬玻璃窗建筑内。“The Domain”是一个步行可达的区域,遍布商店和餐馆,有时也被称为奥斯汀的硅谷。。
办公室有着典型的科技公司氛围:格子间的办公桌、公共休息区和会议室。但真正的实验室却隐藏在大楼高层深处,可以饱览城市全景。
这个实验室摆满了架子,大约相当于两个大型会议室的大小,由于设备风扇的运转,这里噪音很大,像个工业场所。它看起来像是高中工艺课教室和好莱坞高端实验室布景的混合体,只不过工程师们穿着牛仔裤,而不是白色实验服。
请注意,这里并非芯片的生产地,因此无需穿戴防护服。Trainium3 是一款采用 3 纳米工艺制造的尖端芯片,由台积电 (TSMC) 生产,台积电堪称 3 纳米制程工艺的领军企业,其他芯片则由 Marvell 公司生产。
“芯片启动就是你第一次拿到芯片的时候,就像参加一个大型通宵派对。你得待在这里,就像被锁在里面一样,”King解释道。经过18个月的研发,芯片首次被激活,以验证其是否按设计运行。
Trainium3 的原型芯片最初和之前的版本一样采用风冷散热。而现在的芯片则采用液冷散热,这不仅带来了节能优势,也是一项相当了不起的工程成就。
金说,团队并未慌乱,“立刻拿来一台砂轮机,开始打磨金属”。由于不想让噪音破坏披萨派对的气氛,他们偷偷溜到会议室里继续打磨。
实验室甚至配备了焊接工作站,硬件实验室工程师兼首席焊工艾萨克·格瓦拉(Isaac Guevara)在那里演示了如何通过显微镜焊接微型集成电路元件。这项工作难度极高,以至于高级领导卡罗尔(Carroll)公开承认自己也做不到,引得格瓦拉和在场的其他工程师哄堂大笑。
该实验室还配备了用于测试和分析芯片问题的定制工具和商用工具。以下是信号工程师 Arvind Srinivasan 演示实验室如何测试芯片上的每个微小组件:
托盘是用来放置 Trainium AI 芯片、Graviton CPU 芯片以及配套电路板和组件的托盘。将它们与同样由该团队定制设计的网络组件一起堆叠在机架上,就构成了 Anthropic Claude 成功的核心系统。
这种沉默或许与之前提到的可能笼罩这一笔交易的法律阴影有关。但我的感觉是,这些一线工程师(他们目前正在设计下一代产品 Trainium4)还没有过多机会与 OpenAI 合作。到目前为止,他们的日常工作大多分布在在满足 Anthropologie 和亚马逊的需求上。
目前,Trainium2 芯片的最大部分部署在 Project Rainier 中——这是世界上最大的 AI 计算集群之一——该项目于 2025 年底上线 万个芯片。它由 Anthropic 公司使用。
但主办公室的墙上显示器上却显示着一段关于OpenAI将怎么样去使用Trainium的引言。那种自豪感虽然含蓄,却也显而易见。
除了这个实验室之外,该团队还有自己的私有数据中心,用于质量控制和测试。该数据中心距离实验室不远,由于不运行客户工作负载,因此托管在托管机房而非 AWS 数据中心。
数据中心的冷却系统噪音极大,必须佩戴耳塞,空气中弥漫着刺鼻的金属燃烧气味。对于普通人来说,这里并非一个宜人的地方。
在这个数据中心里,一排排服务器整齐排列,每个服务器都配备了集成了亚马逊所有最新定制芯片的托盘:Graviton CPU、液冷 Trainium3 和 Amazon Nitro,它们都在高效运转。工程师们表示,冷却液在一个封闭系统中循环使用,这在某种程度上预示着它可以重复利用,这也有助于减少对环境的影响。
这就是一台最新的 Trn3 UltraServer 的外观:顶部和底部有多个托盘,中间是 Neuron 交换机。图中能够正常的看到硬件开发工程师 David Martinez-Darrow 正在维护一个托盘:
亚马逊首席执行官安迪·杰西重视着这个实验室,并像一位骄傲的父亲一样公开吹嘘其产品。去年12月,他表示Trainium对AWS来说已经是一项价值数十亿美元的业务,并称其为他最兴奋的AWS技术之一。在宣布与OpenAI达成协议时, 他也对这款芯片赞不绝口。
团队也感受到了压力。在每次试生产活动前后三到四周,工程师们将全天候工作,以解决所有问题,确保芯片能够大规模生产并投入数据中心使用。
卡罗尔说:“尽快证明它确实有效至关重要。到目前为止,我们做得很出色。”
*免责声明:本文由作者原创。文章的主要内容系作者本人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
官方通报秦岭游客扔垃圾与志愿者起口角:两名游客均非公职人员,乱丢垃圾者被行政处罚
2026年3月22日,在长安区子午峪发生一起因游客乱扔垃圾并与志愿者产生口角冲突的事件,相关视频在网络传播,引发网民广泛关注。
马杜罗之子首度公开父亲在监狱近况:每天坚持锻炼,身体健康情况良好;知情人士:部分在押人员仍称其为“总统”
就在第二次出庭前夕,马杜罗之子尼古拉斯首度公开了父亲在纽约监狱内的近况。尼古拉斯透露,马杜罗在羁押期间每天坚持锻炼,身体健康情况良好,体型保持精瘦、状态较为强健。
在各类减脂、控体重的饮食方案中,你是否也注意到一个“常驻嘉宾”——西兰花?无论是健身达人的餐盘,还是营养师推荐的轻食菜单,西兰花几乎从未缺席。那么,这朵翠绿的小“花球”究竟有何魔力,成为减肥人群的心头好?又该如何科学食用,才能既保留营养,又助力健康?为什么减肥食谱偏爱西兰花?1.
近日,格力电器董事长董明珠被拍到乘坐国产高端新能源汽车极氪009出行,引发热议。商界精英们纷纷换掉传统高端汽车、改乘国产新能源的背后,是对“中国制造”的鼎力支持
花盆不长绿藻的克星来喽,有需要小车里下单46A的型号就行#用一张照片证明你是花友 #分享家庭养花知识
蝴蝶兰开谢后,如何二次复花?#蝴蝶兰 #蝴蝶兰养护 #花卉绿植 #养花 #养花小知识
2026年3月21日,“梅姨”谢某某落网的消息传来,让“梅姨案”被拐儿童钟彬的父亲钟丁酉心绪难平。据此前新闻媒体报道,2004年,年仅1岁半的钟彬在广东惠州被人贩子张维平拐走,后经梅姨转卖至广东河源紫金县。
金价连续大跌,深圳水贝人气回暖,投资者趁机抄底!商家:有客户一次买了2公斤
每经记者:赵景致 每经编辑:陈柯名,陈俊杰3月23日,国内金价跌破每克1000元关口。截至下午收盘,沪金主力合约下跌8.62%,报940元/克。国际金价方面,现货黄金上周累计下跌10.52%,创下1983年3月以来最大单周跌幅。
特朗普“甩锅”美防长,“是你第一个表态打的”,为对伊动武辩护:我们再不动手,就无法拦截他们的导弹了;吹嘘美国现在受到全世界的尊重
当地时间3月23日,美国总统特朗普在孟菲斯安全工作组圆桌会议上对伊朗动武辩护,“我们的行动得更快,伊朗的导弹能力在飞速提升,很快就会变得几乎没办法拦截,几乎不可能阻止他们,一旦他们拥有导弹。”
22岁女孩地铁吐血后脱衣将地板擦干,当事人:不想把别人鞋子弄脏,自己病情严重,当天还收到病危通知
极目新闻记者 郭奕女孩吐血弄脏地铁地板,她拖着病体,脱下自己的外套将其擦干。3月23日,有网友在重庆地铁1号线上拍到了这感人的一幕。极目新闻记者了解到,这个女孩名叫胡心瑶,生病多年,多次收到病危通知单,23日当天还收到了一张。
本以为这事会像多数小摩擦一样,走个流程就能解决,谁料后续发展,竟成戳中大众痛点的维权典型事件,引出一连串让人揪心地遭遇。
我越来越确信:未来最赚钱的生意,一定是情绪价值生意。这次在深圳,对内地行业趋势有了特别强烈的体感,和大家认真切磋。一、在超级猩猩上了 3 节课,我突然懂了瑜伽的真正价值今天在深圳超级猩猩总部连刷三节课:BP、BC、瑜伽进阶。