分类安全新闻下的文章 - 05博客

登录

标签搜索

05博客

累计撰写 65 篇文章
累计收到 9 条评论

搜索到 23 篇与的结果

2024-01-11
富达国民（Fidelity National）现在表示，1.3M客户的数据被网络骗子窃取富达国家金融公司（Fidelity National Financial）现在表示，犯罪分子在11月闯入其IT网络后，掌握了属于130万客户的数据。这家抵押贷款巨头拥有总计740亿美元的资产，是美国最大的产权保险和结算服务提供商之一，同月在向美国证券交易委员会提交的8-K文件中披露了“网络安全事件”。当时，该公司表示，数字闯入迫使它关闭了一些IT系统，并中断了一些与产权和抵押贷款相关的服务。不久之后，勒索软件团伙 ALPHV/BlackCat 声称对这次攻击负责，尽管机组人员几乎没有透露他们涉嫌窃取哪些数据的细节。这是在执法部门于去年12月查封该团伙的暗网之前。FNF也尚未将该事件描述为勒索软件感染，也没有回应The Register关于网络安全事件性质的询问。在周二提交的一份修订后的8-K报告中，FNF提供了有关入侵的更多细节，据称这些细节是基于其于12月13日完成的法医调查结果。“我们确定未经授权的第三方访问了某些FNF系统，部署了一种不会自我传播的恶意软件，并泄露了某些数据，”SEC文件称。“该公司没有证据表明任何客户拥有的系统在事件中受到直接影响，也没有客户报告发生过这种情况。公司网络中未经授权的第三方活动的最后确认日期发生在 2023 年 11 月 20 日。FNF还表示，它通知了大约130万数据被盗的客户，并将为受影响的客户提供信用监控和身份服务。该商业补充说，它“已被列为与此事件有关的几起诉讼的被告。它仍然坚持认为，“目前，我们认为该事件不会对公司产生重大影响。这样一来，它可能认为它可以吸收网络攻击造成的任何财务打击。另一家抵押贷款机构库珀上个月表示，预计将花费至少2500万美元清理其早期的安全漏洞，该漏洞导致近1470万人的数据被盗。FNF 2022 年的年度利润超过 10 亿美元，迄今为止，其财政年度已超过 5 亿美元;它可能会受到打击。除了这两家金融服务公司之外，LoanDepot周一表示，它正在经历一起“网络事件”，导致一些系统离线。这家贷款巨头在随后提交给美国证券交易委员会（SEC）的文件中提供了有关安全漏洞的更多细节，这听起来像是勒索软件。“尽管我们的调查正在进行中，但目前，该公司已确定未经授权的第三方活动包括访问某些公司系统和数据加密，”LoanDepot在其8-K报告中表示。富达继续“采取措施保护其业务运营，使系统重新上线并应对事件，”它补充说。®
- 2024年01月11日
- 18 阅读
- 0 评论
- 0 点赞
2024-01-11
网络骗子在最新的勒索软件诡计中装扮成“乐于助人”的研究人员索软件受害者已经因潜在的业务中断和解决问题的成本而陷入困境，现在正遭受犯罪分子伪装成有用的安全研究人员的后续勒索企图。Arctic Wolf Labs 的研究人员公布了两起案件，其中 Royal 和 Akira 勒索软件团伙的犯罪分子成为第三方的目标，据信在这两种情况下都是同一个人或团体，并被假的网络撒玛利亚人勒索。一名“安全研究人员”与受害者接触，他提供剥削后服务。在一个案例中，该商标被告知勒索软件团伙的服务器可能会被黑客入侵，他们被盗的数据可能会被删除。另一名受害者被告知，“研究人员”在每次尝试中使用不同的绰号，可以访问用于存储受害者被盗数据的服务器，从而有机会删除它或授予受害者自己访问服务器的权限。作为回报，被黑客入侵的客户被要求支付大约 5 比特币（按今天的汇率计算为 225,823 美元）的费用。“据 Arctic Wolf Labs 所知，这是威胁行为者冒充合法安全研究人员提供从单独的勒索软件组织中删除被黑客攻击的数据的第一个公开实例，”Arctic Wolf 的高级威胁情报研究员 Stefan Hostetler 和 Steven Campbell 在博客中写道。“虽然参与这些二次勒索企图的人物被描述为独立的实体，但我们以中等的信心评估勒索企图可能是由同一威胁行为者实施的。”尽管在每次勒索尝试中使用了不同的别名，但在与受害者的通信之间发现了许多相似之处，表明两者的幕后黑手都是同一个人：自称是安全研究员声称可以通过勒索软件团伙的服务器访问被盗数据通过匿名信使 Tox 进行交流提供对泄露数据的访问证明使用 file.io 提供访问受害者数据的证据暗示如果受害者的服务不被接受，他们将面临未来攻击的风险以前泄露的指定数据量类似的付款需求开场电子邮件中使用了多达十个重叠的短语重新勒索尝试对行业来说并不新鲜：它们一直由相同的勒索软件组织使用他们自己以前使用的后门而不是第三方进行。例如，孔蒂和卡拉库特都被认为进行了此类袭击。勒索软件受害者已经因潜在的业务中断和解决问题的成本而陷入困境，现在正遭受犯罪分子伪装成有用的安全研究人员的后续勒索企图。Arctic Wolf Labs 的研究人员公布了两起案件，其中 Royal 和 Akira 勒索软件团伙的犯罪分子成为第三方的目标，据信在这两种情况下都是同一个人或团体，并被假的网络撒玛利亚人勒索。一名“安全研究人员”与受害者接触，他提供剥削后服务。在一个案例中，该商标被告知勒索软件团伙的服务器可能会被黑客入侵，他们被盗的数据可能会被删除。另一名受害者被告知，“研究人员”在每次尝试中使用不同的绰号，可以访问用于存储受害者被盗数据的服务器，从而有机会删除它或授予受害者自己访问服务器的权限。作为回报，被黑客入侵的客户被要求支付大约 5 比特币（按今天的汇率计算为 225,823 美元）的费用。“据 Arctic Wolf Labs 所知，这是威胁行为者冒充合法安全研究人员提供从单独的勒索软件组织中删除被黑客攻击的数据的第一个公开实例，”Arctic Wolf 的高级威胁情报研究员 Stefan Hostetler 和 Steven Campbell 在博客中写道。“虽然参与这些二次勒索企图的人物被描述为独立的实体，但我们以中等的信心评估勒索企图可能是由同一威胁行为者实施的。”尽管在每次勒索尝试中使用了不同的别名，但在与受害者的通信之间发现了许多相似之处，表明两者的幕后黑手都是同一个人：自称是安全研究员声称可以通过勒索软件团伙的服务器访问被盗数据通过匿名信使 Tox 进行交流提供对泄露数据的访问证明使用 file.io 提供访问受害者数据的证据暗示如果受害者的服务不被接受，他们将面临未来攻击的风险以前泄露的指定数据量类似的付款需求开场电子邮件中使用了多达十个重叠的短语重新勒索尝试对行业来说并不新鲜：它们一直由相同的勒索软件组织使用他们自己以前使用的后门而不是第三方进行。例如，孔蒂和卡拉库特都被认为进行了此类袭击。山姆大叔想明确表示，美国的选举非常非常安全这就是 Babuk Tortilla 勒索软件作为免费解密器发布的包装勒索软件支付禁令：在错误的时间出现错误的想法在向癌症医院注射勒索软件后，深红色威胁要殴打患者Conti 还参与了多起涉及勒索软件受害者同时成为多个团伙目标的案件。2022 年，一家加拿大医疗保健组织在利用 ProxyShell 后同时遭到 Conti 和 Karma 的攻击。同年，孔蒂再次被发现与竞争对手Hive集团合作，将哥斯达黎加政府与竞争对手Hive联手。LockBit、Hive 和 AlphV 还在 2022 年 5 月袭击了一家未具名的汽车供应商。英国安全商店 Sophos 被要求清理混乱，却发现这三家公司都通过共享的 RDP 会话使用了相同的入口点（管理服务器）。Arctic Wolf Labs威胁情报研究高级经理Adrian Korn在接受The Register采访时表示，研究人员看到的两起案件似乎是目前唯一尝试的案件，并且都没有导致向背后的网络犯罪分子付款。Korn没有明确指出受害者的身份，但他透露，他们都是金融和建筑行业的美国中小企业。“目前尚不清楚为什么这些受害者成为目标，但赎金要求足够低，表明威胁行为者可能是个人行动，而不是作为团体的一部分。同样不清楚的是，为什么 Royal 和 Akira 勒索软件的受害者成为目标。由于确诊病例数量很少，研究人员无法最终确定深入的方法。然而，Korn 确实暗示怀疑勒索企图背后的一个或多个个人可能已经访问了两个勒索软件团伙使用的资源。对勒索者和猎物之间对话的分析表明，犯罪分子准确了解从他们那里泄露的数据量、文件列表，以及在一个案例中支付的赎金金额。“有时，威胁行为者会脱离更大的团体并独立行动，不顾一切地想赚快钱，”科恩说。“虽然我们仍在拼凑这里发生的事情，但鉴于赎金要求低，这些后续的勒索企图似乎符合这种说法。”如果同一名罪犯是两次后续勒索企图的幕后黑手，他们在每起案件中都使用了不同的绰号。在其中一种情况下，他们称自己为道德侧组（ESG），而在另一种情况下，他们称自己为xanonymoux。这两个别名都没有在网络犯罪现场建立存在，也没有为先前事件的威胁情报专家所知——这些身份只是被认为是一次性的。研究人员仍在努力了解这两起事件的许多部分，包括勒索软件团伙是否批准了后续的勒索企图，或者它是否是一个单独的个人或团体单独行动。®
- 2024年01月11日
- 15 阅读
- 0 评论
- 0 点赞
2024-01-04
破解特斯拉自动驾驶仪只需要660美元在最近举行的混沌计算机俱乐部黑客大会上，来自柏林工业大学的三名网络安全研究人员展示了他们破解特斯拉自动驾驶系统的过程。他们使用成本较低的设备，不仅获取到了敏感的系统文件和用户数据，还成功解锁了特斯拉自动驾驶的隐藏模式——“Elon模式”。来自柏林工业大学的三名博士生使用约660美元的工具，成功破解并root了特斯拉自动驾驶仪（基于ARM64的电路板）。他们能够提取出任意代码和用户数据，包括加密密钥和重要的系统组件。他们还访问了已删除的GPS坐标视频，因为该视频未被覆盖。侵入系统后，汽车沿路所见的视频片段，附有 GPS 坐标最重要的是，他们发现了隐藏的“Elon模式”，这个功能是特斯拉自动驾驶技术的一部分，但从未被特斯拉公司公开承认。特斯拉的“Elon模式”是一种全自动驾驶功能，以首席执行官埃隆·马斯克的名字命名。该模式启用时，会减少提示驾驶员将手放在方向盘上的警报频率。车辆可以在没有驾驶员操作或监控的情况下进行自动驾驶。这违反了特斯拉的官方建议并且存在潜在危险。这个模式是在2023年6月被网络安全研究人员greentheonly首次发现的。2020年5月，@greentheonly曾在推特上透露，他在电子商务平台eBay上销售的特斯拉汽车零部件中发现了敏感的客户数据。根据柏林工业大学研究人员的说法，黑客可以利用这个模式来启用其他性能并禁用安全功能。这不是他们第一次发现特斯拉汽车存在安全漏洞。2023年8月，柏林工业大学研究人员就在美国黑帽大会上报告了他们破解特斯拉系统的技术细节。他们利用蓝牙系统漏洞获取了对特斯拉信息娱乐系统的root访问权限。一旦获得root权限，他们就可以完全控制车辆的操作系统以及激活和停用系统，甚至可以免费启用付费功能，如座椅加热器。他们还可以对Linux进行任意更改，并解密NVMe存储以访问私人用户数据，如日历条目或电话簿。德国新闻媒体《明镜周刊》的报道称，这项研究是在有条件的实验环境中进行的，在实验室之外操纵他人停放的特斯拉汽车的自动驾驶仪是不太可能的。尽管如此，这项研究已经证实了关于“Elon模式”的传闻，并可能影响消费者对特斯拉安全架构的信任。它暴露了自动驾驶系统的漏洞，引发了对潜在滥用和道德影响的担忧，强调了采取强有力的网络安全措施的必要性。
- 2024年01月04日
- 29 阅读
- 0 评论
- 0 点赞
2024-01-02
DLL 搜索顺序劫持的新变体绕过 Windows 10 和 11 保护安全研究人员详细介绍了动态链接库（DLL）搜索顺序劫持技术的新变体，威胁参与者可以使用该技术绕过安全机制，并在运行Microsoft Windows 10和Windows 11的系统上执行恶意代码。该方法“利用受信任的WinSxS文件夹中常见的可执行文件，并通过经典的DLL搜索顺序劫持技术利用它们，”网络安全公司Security Joes在与The Hacker News独家分享的一份新报告中表示。这样一来，它允许攻击者在尝试在受感染的机器上运行恶意代码时消除对提升权限的需求，并将潜在易受攻击的二进制文件引入攻击链，正如过去所观察到的那样。顾名思义，DLL 搜索顺序劫持涉及玩弄用于加载 DLL 的搜索顺序，以便执行恶意有效负载，以实现防御规避、持久性和权限提升。网络安全具体而言，利用该技术的攻击会挑出未指定所需库的完整路径的应用程序，而是依靠预定义的搜索顺序在磁盘上查找必要的 DLL。威胁参与者利用此行为，将合法的系统二进制文件移动到非标准目录中，这些目录包含以合法 DLL 命名的恶意 DLL，以便选取包含攻击代码的库来代替后者。DLL 搜索订单劫持反过来，这之所以有效，是因为调用 DLL 的进程将首先在它正在执行的目录中进行搜索，然后以特定顺序递归循环访问其他位置以查找和加载相关资源。换句话说，搜索顺序如下——从中启动应用程序的目录文件夹“C：\Windows\System32”文件夹“C：\Windows\System”文件夹“C：\Windows”当前工作目录系统的 PATH 环境变量中列出的目录用户的 PATH 环境变量中列出的目录Security Joes 设计的新颖转折针对位于受信任的“C：\Windows\WinSxS”文件夹中的文件。WinSxS 是 Windows 并排的缩写，是一个关键的 Windows 组件，用于自定义和更新操作系统，以确保兼容性和完整性。网络安全“这种方法代表了网络安全中的一种新应用：传统上，攻击者在很大程度上依赖于众所周知的技术，如DLL搜索顺序劫持，这是一种操纵Windows应用程序加载外部库和可执行文件的方法，”Security Joes的联合创始人兼首席执行官Ido Naor在与The Hacker News分享的一份声明中说。简而言之，这个想法是在 WinSxS 文件夹中找到易受攻击的二进制文件（例如 ngentask.exe 和 aspnet_wp.exe），并将其与常规 DLL 搜索顺序劫持方法相结合，方法是战略性地将与合法 DLL 同名的自定义 DLL 放入 actor 控制的目录中以实现代码执行。因此，只需通过将包含恶意 DLL 的自定义文件夹设置为当前目录来执行 WinSxS 文件夹中的易受攻击文件，就足以触发 DLL 内容的执行，而无需将可执行文件从 WinSxS 文件夹复制到其中。Security Joes 警告说，WinSxS 文件夹中可能还有其他二进制文件容易受到这种 DLL 搜索顺序劫持的影响，因此组织必须采取足够的预防措施来缓解其环境中的利用方法。“检查进程之间的父子关系，特别关注受信任的二进制文件，”该公司表示。“密切监视驻留在 WinSxS 文件夹中的二进制文件执行的所有活动，重点关注网络通信和文件操作。”
- 2024年01月02日
- 14 阅读
- 0 评论
- 0 点赞
2023-12-29
英伟达将RTX 4090 GPU的产量降低了11%，使其100%合法出口到中国英伟达的GeForce RTX 4090 GPU在中国重新发售，其配置版本功能较弱，旨在遵守美国对中国出口的限制。这款设备被称为RTX 4090D，周四出现在英伟达的中国市场网站上，其性能比英伟达在2022年底宣布的型号低约10.94%。这表现在核心数量较少，为14,592个CUDA核心，而在中国以外销售的版本为16,384个。英伟达今天还告诉The Register，该卡的张量核心数量也从4090D变体的512个减少到456个。除此之外，该卡基本没有变化，峰值时钟速度额定为 2.52 GHz，24 GB GDDR6x 内存和 384 位内存总线。正如我们当时报道的那样，RTX 4090 是拜登政府 10 月公布最严格的出口管制措施后唯一被禁止在中国销售的消费级显卡。问题在于，该卡以微弱优势超过了总处理性能（TPP）超过4,800的消费卡的性能限制。该数字的计算方法是将每秒密集万亿次运算的最大数量（浮点数或整数）加倍，然后乘以运算的位长度。最初的 4090 的 TPP 为 5,285 性能，这意味着 Nvidia 需要美国政府颁发的许可证才能在中国销售这款流行的游戏卡。请注意，消费卡不受性能密度指标的约束，该指标限制了功能功能较弱的数据中心卡（如 Nvidia L4）的销售。碰巧的是，将性能降低 10.94% 足以使该卡低于触发美国工业和安全局（BIS）考虑出口许可证要求的指标。虽然速度较慢，但英伟达坚持认为他的性能比你想象的要低得多。英伟达发言人在一封电子邮件中表示：“在具有光线追踪和深度学习超级采样（DLSS）的4K游戏中，GeForce RTX 4090D比GeForce RTX 4090慢约5%，并且与其他GeForce GPU一样运行，最终用户可以超频。该卡可以超频的事实意味着，可以想象，由于核心数量较少而损失的一些性能可以被愿意做一些修补的客户恢复。这不是英伟达第一次削弱其显卡的性能以符合美国的出口管制。2022 年底，在中国对 AI 加速器销售的一波限制之后，这家美国巨头降低了其广受欢迎的 A100 设备的互连速度，并将其重新推出为 A800。该卡之后是 H100 的新版本，可以预见的是称为 H800。（8是中国命理学中最幸运的数字：A800和H800的命名并非偶然。10 月宣布的新一轮出口限制使英伟达再次交付专为中国市场设计的芯片。L2、L20 和 H20 在华盛顿的表演上限下跳舞。英伟达的滑稽动作很快引起了美国商务部长吉娜·雷蒙多（Gina Raimondo）的注意，她警告芯片制造商不要测试这些禁令。“我告诉你，如果你围绕一个特定的切割线重新设计一个芯片，使他们能够做人工智能，我将在第二天控制它，”她在12月初的一个论坛上说。雷蒙多后来告诉路透社，美国商务部正在与英伟达密切合作，以确保对美国国家安全构成威胁的GPU和AI加速器不会出售给中国，但芯片公司可以而且应该能够在那里开展业务。®
- 2023年12月29日
- 10 阅读
- 0 评论
- 0 点赞
2023-12-29
黑客行动主义者吹嘘：我们今天关闭了伊朗的加油站据报道，黑客行动主义者在一次出于政治动机的网络攻击中破坏了伊朗约70%的加油站的服务。伊朗石油部长贾瓦德·奥吉（Javad Owji）周一证实，该国加油站的IT系统遭到袭击，因为伊朗媒体称，加油站排起了长队，交通拥堵 - 特别是在德黑兰 - 因为人们试图加油但未能加油。该国加油站的一位发言人告诉法尔斯通讯社，没有燃料短缺，只是无法泵送燃料。“全国一些加油站已经确认燃油系统存在软件问题，专家目前正在解决这个问题，”Reza Navar 声称。与此同时，一个名为Gonjeshke Darande（或“捕食性麻雀”）的组织声称对拆除加油泵负责。这是在以色列与哈马斯在加沙发生冲突导致中东高度紧张的时期发生的。“这次网络攻击是对伊斯兰共和国及其在该地区代理人的侵略的回应，”机组人员在其电报频道中宣布。“一个月前，我们警告过你，我们回来了，我们将为你的挑衅付出代价。这只是我们商店中的一小部分。伊朗指责该团伙与以色列有联系，该团伙还对伊朗铁路系统和一家钢铁厂进行了网络攻击。在 2022 年 7 月对伊朗钢铁厂网络进行数字入侵并引发严重火灾后，Check Point Software 网络研究主管 Itay Cohen 告诉 BBC，“鉴于他们的复杂性和高影响力，我们认为该组织要么是由一个民族国家运营的，要么是由一个民族国家赞助的”——这与船员声称自己是简单的黑客行动主义者的说法相反。Predatory Sparrow还在Twitter上吹嘘伊朗加油站关闭，并表示与他们之前的行动一样，这次网络攻击是以可控的方式进行的，同时采取措施限制对紧急服务的潜在损害。“在行动开始之前，我们向全国各地的紧急服务部门发出了警告，并确保全国部分加油站因同样的原因而不受伤害，尽管我们有能力完全破坏他们的运营。”网络攻击发生之际，与伊朗有联系的亲哈马斯工作人员增加了对以色列和美国目标的数字破坏 - 包括针对两国的供水设施。同样在周一，以色列国家网络局指责伊朗和真主党上个月对萨法德的Ziv医疗中心进行了网络攻击。国家网络局在一份声明中称：“调查显示，隶属于伊朗情报部的网络攻击组织 AGRIUS 于 2023 年 11 月下旬试图对以色列北部的 Ziv 医院进行网络攻击，目的是破坏其在'铁剑'战争中的持续职能。“这次袭击是由伊朗情报部在穆罕默德·阿里·梅尔希领导下的真主党'黎巴嫩雪松'网络部队的参与下执行的，”它补充说。据以色列政府称，虽然该组织未能扰乱运营并停止医疗，但入侵者确实从医院的系统中窃取了私人数据。®
- 2023年12月29日
- 9 阅读
- 0 评论
- 0 点赞
2023-12-29
俄罗斯军事黑客使用新的 MASEPIE 恶意软件瞄准乌克兰乌克兰的计算机应急响应小组警告说，一场新的网络钓鱼活动允许与俄罗斯有联系的黑客在不到一小时的时间内在网络上部署以前从未见过的恶意软件。这些链接将受害者重定向到恶意 Web 资源，这些资源使用 JavaScript 删除 Windows 快捷方式文件，该文件启动 PowerShell 命令以触发名为“MASEPIE”的新 Python 恶意软件下载器的感染链。乌克兰军方表示，它入侵了俄罗斯联邦税务局。俄罗斯军事黑客的目标是北约快速反应部队。俄罗斯黑客利用Outlook漏洞劫持Exchange帐户。Microsoft修复了自 2022 年 4 月以来俄罗斯黑客使用的 Outlook 零日漏洞。
- 2023年12月29日
- 39 阅读
- 0 评论
- 0 点赞
2023-12-25
AMD 和Nvidia 在 AI 性能声明上互相抨击的原因是什么这是因为供应商不习惯指出他们的芯片或产品在竞争中不足的地方，因此结果通常是经过精心挑选、调整和优化的，以尽可能以最佳方式呈现它们。这些比较通常不会引起竞争对手芯片制造商的回应，但就AMD新推出的MI300XGPU而言，英伟达认为有必要大声疾呼。这位加速器专家拒绝了AMD基准测试的准确性和相关性。到周五，AMD已经做出了回应，分享了进一步的优化数据，即使考虑到英伟达的优化软件库和对较低精度的支持，AMD也声称具有性能优势。为什么 Nvidia 如此努力在本周早些时候的AMD发布会上，这家芯片制造商声称其MI300X（该芯片的GPU变体）在推断Meta的Llama 2 700亿参数模型时，能够实现比H100低40%的延迟。根据 Nvidia 的说法，问题在于 AMD 的基准测试没有利用其优化的软件或 H100 对 FP8 数据类型的支持，而是在 FP16 上使用 vLLM 进行。一般来说，精度较低的数据类型会以准确性换取性能。换句话说，英伟达表示AMD阻碍了H100。英伟达声称，当使用芯片制造商首选的软件堆栈和FP8精度时，其H100的性能优于AMD的MI8X 英伟达声称，当使用其闭源 TensorRT LLM 框架和 FP8 进行基准测试时，H100 的速度实际上是 MI300X 的两倍。英伟达还认为，AMD通过使用1的批量大小来呈现性能的最佳方案，换句话说，就是一次处理一个推理请求。英伟达认为，这是不现实的，因为大多数云提供商会用延迟来换取更大的批量大小。使用英伟达优化的软件堆栈，它表示，具有八个加速器的DGX H100节点能够处理14个批量大小，而配备八个AMD的MI300X的类似节点需要处理一个。SemiAnalysis首席分析师迪伦·帕特尔（Dylan Patel）也认为，单批次延迟是一个“毫无意义”的指标。然而，他确实认为英伟达的博客文章承认AMD的最新加速器吓坏了它。“英伟达显然受到AMD的MI300X的表现以及来自其两个最大客户Microsoft和Meta的批量订单的威胁，”他告诉The Register。“在游戏领域，英伟达在几代人中都没有如此公开地将自己与AMD进行比较，因为AMD没有竞争力。当AMD赢得数据中心的胜利时，他们也从未关心过数据中心。但现在，他们必须反击，因为AMD正在赢得多个云领域的交易。AMD的反驳在英伟达帖子发布后的一天内，AMD就发表了自己的博客文章，认为英伟达的基准测试不是同类比较。除了使用自己优化的软件堆栈外，AMD还指出，英伟达正在将H100的FP8性能与FP16的MI300X进行比较。每当精度减半时，芯片的浮点运算就会增加一倍，因此这种差异不容小觑。MI300X 支持 FP8。然而，用于AMD测试的vLLM还不支持数据类型，因此为了在MI300X上进行推理，我们目前只能使用FP16基准测试。最后，AMD呼吁英伟达将AMD的性能数据从相对延迟反转为绝对吞吐量。虽然AMD的博客文章没有解决英伟达对单批次延迟的批评，但一位发言人告诉The Register，这是标准做法。“在衡量最低延迟性能时，批处理大小 1 是标准，而最大批处理大小用于突出最高的吞吐量性能。在测量吞吐量时，我们通常会将批次设置为符合客户 SLA 的最大大小。该发言人补充说，AMD的发布日性能声明确实包括1760亿参数Bloom模型在“最大批量大小”下的吞吐量性能。在这种情况下，AMD声称比Nvidia的H100有1.6倍的优势，但正如我们稍后将要介绍的那样，这在很大程度上要归功于MI300X更强大的内存配置。即使使用英伟达首选的软件堆栈，AMD表示其MI300X在FP16 AI推理中的性能也提高了30% 除了挑选英伟达的博客文章和性能声明外，AMD还展示了利用新优化的更新性能数据。“自从我们在11月记录了我们在发布会上使用的数据以来，我们已经取得了很大的进展，”该帖子写道。 AMD声称，当在FP16精度下使用通用vLLM框架时，这些改进将MI300X在Llama 2 70B中的延迟领先优势从1.4倍提高到2.1倍。即使在配备 H100 的节点上使用 Nvidia 的 TensorRT-LLM 框架，AMD 声称 MI300X 平台在 FP16 时仍能提供 30% 的延迟改善。甚至在FP16的MI300X与FP8的H100和Nvidia的首选软件堆栈的竞争中，AMD声称能够实现可比的性能。英伟达没有直接回答我们关于AMD最新博客文章的问题，而是将我们引导至其GitHub页面，以获取有关关键基准测试的详细信息。软件在人工智能中的作用越来越大英伟达和AMD的基准测试之争凸显了几个重要因素，包括软件库和框架在提高AI性能方面所发挥的作用。英伟达的主要论点之一是，通过使用 vLLM 而不是 TensorRT-LLM，H100 处于劣势。TensorRT-LLM 于 9 月发布，并于 10 月下旬发布，是软件功能的组合，包括深度学习编译器、优化的内核、预处理和后处理步骤，以及多 GPU 和多节点通信原语。使用优化的软件，英伟达声称，在运行 60 亿参数的 GPT-J 模型时，它能够有效地将 H100 的推理性能提高一倍。与此同时，在 Llama 2 70B 中，英伟达声称性能提升了 77%。AMD在本月早些时候推出ROCm 6框架时也提出了类似的要求。这家芯片制造商声称，由于对 vLLM、HIP Graph 和 Flash Attention 的优化，其最新的 AI 框架能够将 LLM 性能提高 1.3 倍到 2.6 倍。与在 ROCm 5 上运行的 MI250X 相比，AMD 认为在新软件框架上运行的 MI300X 速度提高了 8 倍。但是，尽管软件作为性能的推动因素不容忽视，但硬件仍然是一个主要因素，正如当前和即将推出的加速器上对更快、更大容量内存配置的推动所证明的那样。AMD的内存优势在FP8和FP16m中，AMD的MI300X比H100拥有约30%的性能优势。然而，AI 推理工作负载非常复杂，性能取决于多种因素，包括 FLOPS、精度、内存容量、内存带宽、互连带宽和模型大小，仅举几例。AMD 最大的优势不是浮点性能，而是内存。MI300X 的高带宽内存（HBM）速度提高了 55%，提供 5.2TB/秒，与 H100 的 80GB 相比，它的容量是 192GB 的两倍多。这对于 AI 推理很重要，因为模型的大小与运行模型所需的内存量成正比。在 FP16 中，您看到的是每个参数 16 位或 2 个字节。因此，对于 Llama 70B，您需要大约 140GB 的空间以及 KV 缓存空间，这有助于加速推理工作负载，但需要额外的内存。H200 和 Gaudi3 即将到来如果你需要更多证据来证明内存是这里的限制因素，只需看看 Nvidia 的下一代 GPU H200 即可。该器件将于新年第一季度推出，将拥有 141GB 的 HBM3e，适用于每秒 4.8TB 的带宽。然而，就FLOPS而言，该芯片并没有提供任何明显的性能提升。深入研究规格表显示，其性能与它所取代的 H100 相同。尽管如此，英伟达声称，与H100相比，H200在Llama 2 70B中的推理性能大约是H100的两倍。虽然MI300X仍然比H200拥有更多的内存和带宽，但利润要窄得多。“客户选择英伟达全栈 AI 平台是因为它无与伦比的性能和多功能性。我们通过技术堆栈的每一层（包括芯片、系统和软件）的创新来持续提高性能，“一位发言人告诉The Register。为此，H200并不是英伟达明年初推出的唯一GPU。卫冕 GPU 冠军最近从 2024 年的 B100 开始，转向加速器和网络设备的年度发布节奏。虽然我们对这款芯片了解不多，但可以肯定的是，它将比其前身更快、更好地适应 AI 工作负载。英特尔即将推出的 Gaudi3 加速器也是如此。英特尔没有分享太多关于哈瓦那实验室第三代芯片的信息，但我们确实知道它将拥有其前身的 1.5 倍的内存带宽。该芯片还将使网络性能翻倍，据说可提供 4 倍的大脑浮动 16 （BF16）性能。后者是一个特别奇怪的说法，因为英特尔不会告诉我们 Gaudi2 的 BF16 性能到底是多少——而是更愿意谈论现实世界的性能。英特尔拒绝了我们对其竞争对手的基准测试恶作剧进行权衡的提议。无论如何，AMD的MI300X在新的一年里不仅要与Nvidia竞争。因此，在 FP16 上，AMD 的 MI300X 自动具有优势，因为整个模型可以放入单个加速器的内存中，并为 KV 缓存留出足够的空间。另一方面，H100 处于劣势，因为该模型需要分布在多个加速器上。另一方面，在 FP8 中，Llama 2 70B 只需要 H100 的 70GB 内存中的大约 80GB。虽然可以将 700 亿个参数的模型放入单个 H100 的内存中，但 Patel 指出，它留给 KV 缓存的空间非常小。他解释说，这严重限制了批量大小，即可以处理的请求数量。从英伟达的博客文章中，我们知道这家芯片制造商并不认为批量大小是现实的。在系统层面，这一点尤为明显，尤其是对于更大的模型，例如AMD性能声明中强调的1760亿参数Bloom模型。AMD 的 MI300X 平台可以支持多达 8 个加速器的系统，总容量为 1.5TB HBM。同时，英伟达的HGX平台最高可达640GB。正如 SemiAnalysis 在其 MI300X 发布报道中指出的那样，在 FP16 上，Bloom 需要 352GB 内存——让 AMD 为更大的批量提供更多内存。
- 2023年12月25日
- 11 阅读
- 0 评论
- 0 点赞

1
2
3