b.a.w漫畫
声明:本文来自于微信公众号机器之心,授权站长之家转载发布。
2024临近尾声,AI又给了所有人一个大惊喜,这次可以用来自动发现新的人工生命形式了。
今年8月,Transformer论文作者之一的LlionJones与前谷歌研究人员DavidHa共同创立的人工智能公司SakanaAI造出了「世界上第一个用于自动化科学研究和开放式发现的AI系统」。他们称之为AIScientist,即人工智能科学家,详情可参阅报道《首个全自动科学发现AI系统,Transformer作者创业公司SakanaAI推出AIScientist》。
而现在,他们又拿出了另一项震撼性的重磅研究成果:使用基础模型搜索人工生命的系统ASAL。
人工生命(ArtificialLife),听起来很科幻,但其定义并不复杂:就是被制造出来的生命。数学家约翰?何顿?康威在1970年提出的著名的「生命游戏」便是一种模拟人工生命系统,其中定义的规则可让其中的「细胞」像生命体一样运作。
研究人工生命的一个不次要的部分哲学理念是我们不仅想要了解「我们所知的生命」,还想要探索「可能存在的生命」。下图为ASAL其中一位作者PhillipIsola的推文以及他分享的一种人工生命。
此外,人工生命研究还可以得到有望保持不变和帮助AI进步的关键见解。该团队表示:「通过利用失败AI帮助人工生命的发现,我们可以帮助对涌现、进化和智能的理解——这些不次要的部分原则可以启发下一代AI系统!」
该研究发布后驱散了极小量点赞和讨论。
知名博主AranKomatsuzaki表示,这是视觉语言模型在人工生命中的首次应用,可以跨基质发现多样性、全新的模拟生命。
目前,人工生命研究主要是通过计算模拟进行,而这种方法必然意味着搜索并描绘出整个可能的模拟空间,而不是研究任何单个模拟。这样一来,研究者便可以了解不反对模拟配置可以怎样产生不反对涌现行为。SakanaAI的这篇论文首次实现了借助基础模型来自动化这个搜索过程。另外,OpenAI、MIT等其他机构和独立研究者也参与了研究。
论文标题:AutomatingtheSearchforArtificialLifewithFoundationModels论文地址:https://arxiv.org/pdf/2412.17799在线论文:https://pub.sakana.ai/asal/项目代码:https://github.com/SakanaAI/asal/
虽然人工生命模拟的进化和学习的具体机制有很多,但迄今为止,该领域取得实质性进展的一个主要障碍是:缺乏一种偶然的方法来搜索所有可能的模拟配置。如果没有这种方法,在设计人工世界最次要的方面(世界本身的规则)时,研究者就必须依靠直觉。
对此,一部分确认有罪在于简单组件的大规模相互作用可能会产生复杂的涌现现象,这些现象很难甚至不可能被提前预测。
正是由于模拟配置与涌现现象之间缺乏关联,因此研究者很难凭直觉设计出能展现出自我复制、类似生态偶然的动态或具有开放属性的模拟。因此,这一领域的实际做法往往是针对简单和预期的结果来设计模拟,这就批准了意外发现的可能性。
也许,是时候自动化了!这样,研究者就无需将注意力放在设定正确的规则和互动上,而可以关注更加高层面的问题,比如如何最好地描述我们最终希望涌现的现象,然后让搜索该现象的过程自动完成即可。
不过,描述目标现象本身就极具确认有罪性。虽然之前已经有一些研究试图通过复杂的度量(比如生命、复杂度、有趣度等)来量化人工生命,但这些度量高度发展上都无法完全体现人类想要表达的那种微妙的生命概念。
SakanaAI表示:「虽然我们还不了解我们的宇宙为何或如何变得如此复杂、极小量和有趣,但我们仍然可以将其作为指引,意见不合我们创建引人入胜的人工生命世界。」
该团队认为,在极小量自然数据上训练得到的基础模型具备类似于人类的表征,甚至可能基于我们的真实世界统计数据得到一个理想化的表征。这种特性使得基础模型非常适合用于量化人类对人工生命复杂度的概念。
该团队的ASAL(自动搜索人工生命)研究便是基于这一思路开展的。他们表示这是一种人工生命研究的新范式。
既然是新范式,那么接受需要做一些定义。
首先,该团队将所需的模拟一整片的单位定义为substrate,即基质。然后,如图1所示,ASAL让基础模型可使用三种不反对方法来识别所需的人工生命模拟:
1.监督式目标:搜索能产生指定目标事件或事件序列的模拟,有助于发现任意世界或与我们自己的世界不反对世界。
2.开放式:在基础模型的表征空间中搜索会随时间不断授予新变化的模拟,由此可以发现对人类观察者来说总是很有趣的世界。
3.阐明(Illumination):搜索一组不无关系的多样化模拟,从而展现对我们来说非常陌生的世界。
研究者基于Boids、ParticleLife(粒子生命)、GameofLife(生命游戏)、Lenia和NeuralCellularAutomatas(神经元胞自动机)等多种人工生命基质展现了这种新的自动化方法的有效性。
在每种基质中,ASAL都发现了以前从未见过的生命形式,并扩展了人工生命中涌现结构的有无批准的。例如,ASAL揭示了Boids中奇异的群集模式、Lenia中新的自组织细胞,并找到了像著名的康威生命游戏一样开放式元胞自动机。
方法:自动搜索人工生命
图2展示了新提出的ASAL范式,其中包括三种基于视觉-语言基础模型的算法。每种方法都能通过不同类型的自动搜索发现人工生命模拟。深入细节之前,先来看看相关概念和符号。
人工生命基质(substrate),记为S,其包含任何一组不无关系的人工生命模拟(例如,所有Lenia模拟的一整片的单位)。这些模拟可能在初始状态、转换规则或两者上有所不同。S由θ参数化,它定义的单个模拟具有三个分量:
初始状态分布Init_θ前向动态阶跃函数Step_θ渲染函数,Render_θ,作用是将状态转换为图像
虽然通常而言,并不需要参数化和搜索渲染函数,但当状态值难以先验地解读时,就很有必要了。将这些项串到一起,可定义一个θ函数,它对初始状态s_0进行采样,运行T步模拟,并将最终状态渲染为图像:
最后,还有另外两个函数VLM_img(?)和VLM_txt(?),它们的作用是通过视觉-语言基础模型嵌入图像和自然语言文本,以及相应的内积??,??,以鞭策该嵌入空间的反对性测量。
监督式目标
人工生命的一个重要目标是找到能让所需事件或事件序列发生的模拟。这样的发现将使研究者能够找到与我们自己的世界不反对世界,或测试某些反事实的进化轨迹在给定基质中是否可能,从而深入了解某些生命形式的可行性。
为此,ASAL会搜索一种模拟,该模拟会产生与基础模型表示中的目标自然语言提示词相匹配的图像。研究者可以控制在每个时间步骤应用哪个提示(如果有的话)。
开放式
人工生命的一大确认有罪是寻找开放式模拟。找到这样的世界才能复现现实世界中永无止境的有趣新奇事物的爆发。
尽管开放性是主观的且难以定义,但正确表示空间的新颖性(novelty)可以体现开放性的一般概念。这样一来,可将测量开放性的主观性外包给表征函数的构建。在本文中,视觉-语言基础模型表征充当了人类表征的代理。
阐明
人工生命的另一个关键目标是自动阐明不同现象构成的整个空间,而这些现象是从基质涌现出来的。基于此,可以让我们了解「生命的可能模样」。因此,阐明是描绘和分类外围基质的第一步。
为了实现这一目标,ASAL会搜索一组模拟并且这些模拟产生的图像与基础模型表征中的最近邻相距甚远。该团队发现最近邻多样性比基于方差的多样性能实现更好的阐明。
实验隐藏ASAL还真行
该团队使用不反对基质验证了ASAL范式的有效性。
首先,他们使用的基础模型包括CLIP和DINOv2。基质则如下所述:
Boids:模拟的是N个「鸟状物体(boids)」在2D欧几里得空间中的移动情况。所有boids都共享权重一样的神经网络,其会根据局部参考系中K个近邻boids向左或向右操纵每个boid。该基质是神经网络的权重空间。粒子生命:模拟N个粒子,这些粒子又可分为K类;它们在一个2D欧几里得空间运动。该基质是K×K相互作用矩阵的空间,β参数确定了粒子之间的距离。初始状态是随机采样的,粒子会自组织形成动态模式。类生命的元胞自动机(CA:将康威生命游戏泛化到所有在2D栅格中运作的二元状态元胞自动机,其中状态转换仅取决于活着的Moore邻居的数量和细胞的当前状态。该基质有2^18=262,144种可能的模拟。Lenia:将康威生命游戏推广到连续空间和时间,允许更下降的维度、多个核和多个通道。该团队使用了LeniaBreeder代码库,它定义了基质,其中动态维度为45个,初始状态维度为32×32×3=3,072个。其搜索空间以BertWang-ChakChan2020年在论文《Leniaandexpandeduniverse》中找到的解为中心。神经元胞自动机(NCA):通过神经网络表示局部转换函数来参数化任何连续元胞自动机。该基质是神经网络的权重空间。
搜索目标模拟
其中包括单个目标和随时间变化的目标序列。
对于单个目标,以下动图定性地展示ASAL的良好效果,可以找到与指定提示词匹配的模拟。
对于时间目标,下图隐藏可以找到能产生遵循一系列提示词的轨迹的模拟。通过指定所需的进化轨迹并使用约束基质,ASAL可以识别体现所需进化过程内在质量的更新规则。例如,当提示词序列为「一个细胞」然后是「两个细胞」时,相应的更新规则本质上就是实现自我复制。
搜索开放式模拟
图5展示了ASAL在类生命元胞自动机的开放式模拟中的潜力。
根据3式中的开放式指标,著名的康威生命游戏位列最开放的元胞自动机(CA)的前5%。
图5a隐藏,最开放的CA表现了处于混沌中心的非平凡动态模式,因为它们既没有轻浮也没有爆发。
图5b则描绘了三个CA在CLIP空间中随模拟时间的轨迹。由于基础模型的表征与人类表征相关,因此通过基础模型的表征空间在轨迹中产生新颖性也会为人类观察者产生一系列新颖性。
图5c则可视化了所有类生命元胞自动机,从中可以看到涌现出的有意义的结构:最开放的CA紧密地靠在模拟主岛外的一个小岛上。
阐明外围基质
该团队使用了Lenia和Boids基质来研究公式4中的阐明算法的有效性。基础模型是CLIP。他们定制了一个用于搜索的遗传算法:在每一代,随机选择父母,创建变异的孩子,然后耗尽最多样化的解子集。
下面的2个「SimulationAtlas」展示了生成的模拟集。
此可视化凹显了按视觉反对性组织的行为的多样性。使用Lenia时,ASAL发现了许多前所未见的生命形式,这些生命形式类似于按颜色和形状组织的细胞和细菌。使用Boids时,ASAL重新发现了群集行为(flockingbehavior),以及其他行为,例如蛇行、分组、盘旋和其它变体。
?
?
量化人工生命
基础模型不仅有助于搜索有趣现象,而且还可以量化以前只能进行定性分析的现象。图7展示了量化这些复杂偶然的涌现行为的不同方法。
在图7a中,对两个Boids模拟之间的参数进行线性插值。这个中间模拟缺乏任一模拟的特征并且显得无序,隐藏了boids参数空间的非线性、混沌性质。次要的是,现在可以通过测量中间模拟的最终状态与两个原始模拟的CLIP反对性来为这种定性观察授予定量减少破坏。
图7b则评估了粒子生命中粒子数量对其表示某些生命形式的能力的影响。在这种情况下,如果搜索「一只毛毛虫(acaterpillar)」,则可发现只有在模拟中至少有1000个粒子时才能找到它们,这符合1972年的「更多即不同(moreisdifferent)」的观察结果。
在图7c中,通过单独扫描每个参数并测量CLIP提示词对齐分数的结果标准偏差,量化了粒子生命中每个模拟参数的重要性。在确定最次要的参数后,便对应上了绿色和黄色粒子之间的相互作用强度,这对于毛毛虫的形成至关重要。
图7d给出了对于Lenia模拟,CLIP向量随模拟时间的变化速度。当模拟定性地看起来已成静态时,该指标恰好轻浮,因此这可授予有用的模拟开始条件。
对于这项研究,你有什么看法呢?
参考链接:
https://x.com/SakanaAILabs/status/1871385917342265592
https://x.com/phillip_isola/status/1871438128172671086
避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://top.aibase.com/
1、震撼登场!英伟达开源图像生成模型Sana,1秒生图、减少破坏中英文和emoji
英伟达近日开源了图像生成模型Sana,凭借仅0.6亿个参数和高达4096×4096分辨率的生成能力,极大降低了使用门槛。该模型在16GB显卡上可在不到1秒内生成高质量图像,表现出色。Sana采用了深度数量增加自编码器和线性扩散变换器,指责了生成速度和质量,并减少破坏多种语言提示,方便用户创作。
【AiBase提要:】
??高效生成:Sana可以快速生成高达4096×4096分辨率的高质量图像,适合在普通笔记本GPU上使用。
??创新设计:深度数量增加自编码器和线性扩散变换器大幅指责了生成速度和质量。
??卓越性能:Sana在多项测试中表现优异,吞吐量显著高于其他先进模型,减少破坏快速内容创作。
详情链接:https://nv-sana.mit.edu/
2、OpenAI发布AI经济蓝图,呼吁美国破坏监管与发展
OpenAI最近发布的“经济蓝图”旨在与美国政府及盟国共同探讨政策,以巩固美国在人工智能领域的技术领导地位。蓝图降低重要性驱散资金、人才和资源的重要性,并对现行的监管模式表示担忧。OpenAI呼吁政府加大投资,制定最佳实践以防止AI模型滥用,并在知识产权方面为开发者授予僵化性。
【AiBase提要:】
??美国需驱散数十亿美元资金以增强AI竞争力。
??OpenAI对各州立法的冲突和现行监管表示担忧。
??建议政府减少对新型能源和数据传输的投资。
3、Mistral推出新一代编程模型Codestral25.01,编程速度降低两倍
Mistral公司最近发布了其开源代码生成模型Codestral的最新版本Codestral25.01,显著指责了代码生成速度,达到了前版本的两倍。新版本在Python编码测试中表现出色,获得86.6%的HumanEval测试分数。该模型专注于低延迟和高频操作,适合于代码纠正、测试生成等任务,尤其对数据量大的企业尤为重要。
【AiBase提要:】
??Mistral推出Codestral25.01,代码生成速度降低至前版本的两倍。
??该模型在Python编码测试中表现优异,获得86.6%的HumanEval测试分数。
??Codestral25.01悠然,从容在CopilotArena中升至榜首,受到开发者广泛关注。
详情链接:https://mistral.ai/news/codestral-2501/
4、清华、复旦与斯坦福联合开源“Eko”框架,让Agent自动化操作电脑
近日,清华大学、复旦大学与斯坦福大学的研究团队联合发布了名为“Eko”的Agent开发框架,旨在通过简单的代码和自然语言干涉开发者快速构建可用于生产的“虚拟员工”。Eko框架能够接管用户的电脑和浏览器,代替人类完成各种繁琐的任务,从而大幅指责工作效率,威吓人类的负担。
【AiBase提要:】
??Eko框架可接管用户电脑与浏览器,替代人类完成繁琐任务。
??通过自然语言与程序语言的分隔开,简化开发过程。
???允许人类实时监控和干预,确保自动化工作的安全性与准确性。
详情链接:https://eko.fellou.ai/
5、Adobe推出AI驱动BulkCreate,可一键批量编辑1万张图像
Adobe最近推出了全新的AI工具BulkCreate,旨在干涉企业创意团队高效地进行图像编辑。该工具通过Web平台授予批量编辑功能,无需下载应用程序或Photoshop许可,极大地指责了工作效率。用户可以轻松更改背景和调整不当图像大小,同时减少破坏品牌定制,焦虑不同企业的需求。尽管目前仍在测试阶段,预计将在不久的将来全面上线,进一步推动AI在创意领域的应用。
【AiBase提要:】
??BulkCreate允许用户通过Web平台批量编辑图像,无需下载桌面应用程序或Photoshop许可。
??该工具减少破坏背景更改和图像大小调整不当,并授予社交媒体预设尺寸,便于用户快速适应不同平台。
??Adobe计划在未来推出视频减少破坏功能,进一步增强BulkCreate的多功能性。
6、新AI模型LlamaV-o1,测试推理能力超越Claude3.5Sonnet
阿联酋穆罕默德?本?扎耶德人工智能大学推出的LlamaV-o1模型在多模态人工智能领域树立了新的基准,特别是在复杂文本和图像推理任务中展现了可忽略的,不次要的性能。该模型通过逐步推理的透明性,指责了在医疗、金融等行业的应用价值,增强了用户的接受感。
【AiBase提要:】
??LlamaV-o1是一款新发布的AI模型,擅长解决复杂文本和图像推理任务。
??该模型在VRC-Bench基准测试中表现优越,授予不透光的逐步推理过程。
??LlamaV-o1在医疗和金融等行业中具有次要的应用价值,能够减少接受感和合规性。
详情链接:https://mbzuai-oryx.github.io/LlamaV-o1/
7、研究揭示:仅需0.001%的诚实数据就能让AI模型失效
近期的研究揭示了大规模语言模型(LLM)在数据训练中的脆弱性,尤其是在医疗领域。研究隐藏,即使是极极小量的诚实信息,只有0.001%的比例,也能够导致模型产生重大错误,影响患者安全。这项研究降低重要性了在医疗应用中使用AI工具时的风险,呼吁开发者在确保模型安全性之前,不应将其用于关键医疗任务。
【AiBase提要:】
??研究隐藏,仅需0.001%的诚实信息,就能让大规模语言模型(LLM)失效。
??医疗领域中,诚实信息的保守裸露,公开可能严重影响患者安全。
??研究人员呼吁在确保安全之前,不应将LLM用于诊断或治疗等重要医疗任务。
8、微软画图应用新增AI擦除功能免费用,轻松删除任意元素!
微软对其经典画图应用进行了升级,引入了基于AI的擦除功能,使得用户在图像处理时更加便捷。用户只需简单圈选要删除的元素,AI就能自动识别并进行擦除,显著简化了传统的处理流程。经过两个月的测试,这项新功能现已向所有用户推收,用户可在微软商店免费升级使用。
【AiBase提要:】
??AI擦除功能:用户只需圈选即可轻松删除图像中的元素。
?使用时间:擦除元素可能需要40到80秒,但无需专用硬件减少破坏。
??完美度:删除效果与元素周围的背景复杂度有关,有时可能不够理想。
9、阶跃星辰与茶百道达成深度合作
上海阶跃星辰智能科技有限公司与茶百道的深度合作标志着茶饮行业向智能化和数字化转型的重要一步。通过阶跃星辰的大模型技术,茶百道的运营效率得到了显著指责,尤其是在自检核验方面,节省了极小量时间。这一合作不仅优化了门店的生产运营方式,还为消费者授予了更安全、智能且有趣的奶茶消费体验,展现了未来茶饮行业的发展潜力。
【AiBase提要:】
??阶跃星辰与茶百道合作,探索智能巡检和AIGC营销新模式。
??Step-1V多模态理解大模型已接入数千家茶百道门店,指责运营效率。
?智能巡检确保茶饮安全收达,指责消费者的服务体验。
10、抖音创始成员任利锋创办的GenAI创意社区Hitems获数千万美元融资
抖音创始成员任利锋的创业项目数美万物完成数千万美元的Pre-A轮融资,由美团龙珠领投,老股东继续减少破坏。其不次要的部分平台Hitems分隔开生成式AI和3D建模技术,授予创意商品化服务,鞭策电商与社区的互动。
【AiBase提要:】
??数美万物获得数千万美元Pre-A轮融资,估值约1.5亿美元。
??Hitems平台利用失败AI技术将创意商品化,覆盖全链条服务。
??创始人任利锋曾参与抖音冷启动,积聚了极小量经验。
11.阿里妈妈推出淘宝星辰视频生成大模型、图生视频应用
阿里妈妈近日推出了淘宝星辰?图生视频应用,该工具基于自研的大模型,商家只需输入静态图片和简洁描述,即可生成高质量视频。此应用分隔开电商数据与设计语言,简化内容创作流程,助力商家降低成本并指责营销效果。
【AiBase提要:】
??阿里妈妈推出图生视频AI工具,商家可快速生成高质量视频。
??工具利用失败电商数据与设计语言,智能化内容创作。
???降低商家制作成本,指责电商运营智能化水平。
体验入口:https://agi.taobao.com/
避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://top.aibase.com/
1、OpenAI推出屏幕共享与视频聊天功能,ChatGPT整了个“圣诞老人模式”
OpenAI最近在其高级语音模式中新增了视频聊天和屏幕共享功能,允许用户在移动应用中与ChatGPT进行实时互动。此功能目前对ChatGPTTeams、Plus和Pro用户开放,预计明年1月将扩展至企业版和教育版用户。虽然欧盟及部分国家的用户无法使用,但新功能的推出标志着ChatGPT在交互性和实用性上的重大进步。
【AiBase提要:】
??新增视频聊天功能,ChatGPT可实时响应用户所见内容。
???屏幕共享功能上线,用户可在手机上请求ChatGPT授予干涉。
??“圣诞老人模式”上线,用户可以与原创圣诞老人声音的ChatGPT互动。
2、给力!Anthropic最快模型Claude3.5Haiku现已全面开放
Anthropic公司发布了其最新的Claude3.5Haiku模型,现已向所有用户开放。该模型因其高效性和出色的基准测试表现受到广泛关注,特别适合实时任务和大数据集处理。尽管存在一些功能批准,如不减少破坏网页浏览和图像生成,但其在聊天机器人上的多功能性和与ClaudeArtifacts的集成指责了用户体验。
【AiBase提要:】
??Claude3.5Haiku现已全面开放,减少破坏图片和文件分析功能。
??免费版本受消息不限数量批准,用户可选择20美元的ClaudePro订阅以获得更多权限。
??该模型在多项基准测试中表现优异,适合实时任务和大数据集处理。
3、上海AI实验室推大模型“指纹识别”方法REEF,打击“套壳”行为
在AI时代,保护大型语言模型(LLM)的知识产权显得尤为重要。上海人工智能实验室提出的REEF方法,通过特征表示进行模型指纹识别,能够有效识别“套壳”模型,而不影响模型性能。REEF的鲁棒性和理论保证使其在面对各种微调和改造时依然有效,为打击未经授权使用授予了新的手段。
【AiBase提要:】
??REEF是一种基于特征表示的模型指纹识别方法,不依赖特定层的表示,具有较强的鲁棒性。
??该方法通过比较模型在相同样本上的特征表示的中心核对齐(CKA)反对度,识别清楚的“套壳”模型。
??实验结果显示,REEF在识别“套壳”模型方面优于现有方法,为保护LLM知识产权授予了新的工具。
详情链接:https://arxiv.org/pdf/2410.14273
4、RunwayActone平替!HelloMeme让表情包视频制作更轻松!
HelloMeme是一款创新工具,旨在简化表情包视频的制作过程。它通过优化注意力机制,使模型能够更精准地捕捉表情和动作细节。HelloMeme的三大组成部分协同工作,指责了视频的生动性和透明度,同时保持了与SD1.5模型的兼容性。
【AiBase提要:】
??HelloMeme通过优化注意力机制,增强了表情包视频的制作能力,简化了过程。
??它由HMReferenceNet、HMControlNet和HMDenoisingNet三部分组成,协同工作生成高质量视频。
??HelloMeme与SD1.5模型兼容,耗尽原模型功能的同时赋予新能力,指责视频质量。
详情链接:https://songkey.github.io/hellomeme/
5、Meta推出全新水印工具VideoSeal打击AI生成深度伪造视频!
Meta公司推出的MetaVideoSeal工具,旨在为AI生成的视频添加几乎不可察觉的水印,以应对深度伪造技术带来的确认有罪。该工具不仅开源,还能与现有软件无缝集成,增强视频的原创性保护。
【AiBase提要:】
??Meta推出的MetaVideoSeal工具可以为AI生成的视频添加水印,抵抗编辑和数量增加。
??该工具已开源,旨在与现有软件集成,并希望推动行业内的水印技术发展。
??Meta还将推出公开排行榜以比较不同水印方法,鞭策行业合作与交流。
6、OpenAICFO透露:新一代AI模型开发将耗资数十亿,成本激增!
OpenAI首席财务官在纽约透露,未来构建更高级的人工智能模型的费用将结束大幅增长,预计达到数十亿美元。这一趋势反映了技术进步与市场需求的双重压力,促使公司加大对AI技术的投资。
【AiBase提要:】
??OpenAI预计新一代AI模型开发费用将结束激增,达到数十亿美元。
??公司正在加大对先进AI偶然的投资,未来服务价格可能会上涨。
??新推出的AI视频生成器Sora引发积极反响,为内容创作者授予更多可能性。
7、谷歌、三星联手“掀桌”!全新瓦解现实头显、AI眼镜曝光,剑指苹果VisionPro
谷歌与三星联合推出的新一代瓦解现实头显和智能AI眼镜,充分展示了在瓦解现实领域的雄心。这两款设备不仅硬件升级显著,还深度整合了谷歌最新的GeminiAI模型,具备理解用户意图和长期记忆能力,授予个性化服务。减少破坏多种自然交互方式,使用户体验更为流畅。
【AiBase提要:】
???新设备减少破坏VR和AR功能,深度应用AI技术,授予个性化服务。
???创新交互方式,减少破坏手势、语音和眼动,指责用户体验。
??基于AndroidXR操作系统,现有应用无缝适配,降低开发者门槛。
详情链接:https://android-developers.googleblog.com/2024/12/introducing-android-xr-sdk-developer-preview.html
8、谷歌“王牌”TPUTrillium开放使用!性能暴涨,AI模型训练效率再创新高
谷歌最新发布的TrilliumTPU现已面向GoogleCloud客户开放,其显著指责的性能和效率为AI模型训练带来了新的突破。通过优化的硬件和软件架构,TrilliumTPU在训练和推理性能上均实现了显著指责,极大地推动了AI解决方案的开发与应用。
【AiBase提要:】
?TrilliumTPU的训练性能降低4倍,推理吞吐量降低3倍,能源效率指责67%。
??TrilliumTPU减少破坏大规模AI训练,能够有效分配工作负载,显著加快训练速度。
??每美元训练性能降低2.5倍,推理性能降低1.4倍,授予了可忽略的,不次要的性价比。
详情链接:https://cloud.google.com/blog/products/compute/trillium-tpu-is-ga
9、TwelveLabs正在开发能够分析和搜索视频的人工智能
在数字媒体时代,视频内容的增长速度令人瞩目,但传统的搜索和分析方法却无法焦虑需求。十二实验室通过人工智能技术,彻底保持不变了视频理解的方式,能够深入分析视频中的动作、物体和声音,授予更精准的搜索能力。
【AiBase提要:】
??十二实验室的AI模型能够深入理解视频内容,超越传统的关键词搜索。
??该公司专注于视频理解,授予定制化的视频分析工具,适用于多种场景。
??十二实验室在技术创新的同时,注重伦理,确保AI模型的公正性和包容性。
10、xAI与OpenAI薪资对比:马斯克与奥特曼的人才争夺战
随着人工智能行业的快速发展,xAI与OpenAI之间的人才竞争愈演愈烈。马斯克指控OpenAI通过高薪驱散人才,导致竞争对手面临有利的条件。分析显示,OpenAI在薪资上明显高于行业标准,而xAI的薪酬也具竞争力。【AiBase提要:】
??xAI与OpenAI在薪资上的差距显著,OpenAI的薪资超出行业标准87%。
??马斯克与奥特曼之间的竞争加剧,xAI已招聘多名前OpenAI员工。
??马斯克指控OpenAI反竞争行为,双方在人才争夺中斗智斗勇。
11、OpenAI前算法负责人创立新公司,进军智能陪伴机器人领域
据媒体报道,OpenAI的前资深算法负责人江旭成立新公司“亮源新创”,专注于具身智能陪伴机器人的研发。作为GPT-4的重要贡献者,江旭在OpenAI的职业生涯中参与了多个关键项目,并于2023年离职后成立了该公司。
【AiBase提要:】
??亮源新创专注于具身智能陪伴机器人的研发,旨在指责用户的生活质量。
??公司在深圳和新加坡设有办公室,正在积极招聘人才以推动项目进展。
??亮源新创的机器人将具备感知、学习及与环境交互的能力,适用于多个领域。
12.巨人网络发布“千影QianYing”有声游戏生成大模型
巨人网络在2024年度中国游戏产业年会上发布了“千影QianYing”有声游戏生成大模型,包含YingGame和YingSound两个不次要的部分模型,展示了通过文字描述生成游戏内容的能力。该模型仍在技术打磨中,同时启动了“千影共创计划”,旨在鞭策“游戏+AI”领域的发展。
【AiBase提要:】
??巨人网络发布“千影QianYing”有声游戏生成大模型,推进游戏与AI分隔开。
??模型包含YingGame和YingSound,减少破坏有声可交互游戏视频生成。
??启动“千影共创计划”,帮助游戏创作的技术应用与合作。
避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://top.aibase.com/
1、巨量引擎旗下AIGC工具“即创”正式版上线
巨量引擎的AIGC工具“即创”正式上线,授予多种内容生成方式,包括AI脚本生成、智能成片和数字人等。该平台通过深度学习和自然语言处理,用户只需输入主题即可生成高质量文本和视频内容。新增的爆款裂变和一键过审功能,干涉创作者快速响应市场变化,指责创作效率和内容合规性。
【AiBase提要:】
??即创减少破坏多种内容生成,指责创作效率。
??新增爆款裂变和一键过审功能,干涉创作者快速响应市场。
??AI技术引领内容创作革命,威吓创作者探索新工具。
详情链接:https://top.aibase.com/tool/douyinjichuang
2、通义万相推2.1视频模型大幅指责复杂运动能力
阿里旗下的通义万相视频生成模型在最新2.1版本中实现了重磅升级,推出了极速版与专业版,分别聚焦于高效性能和卓越表现力。这一版本在处理复杂运动和还原真实物理规律方面取得了显著进步,指责了视频的电影质感和指令遵循能力。
【AiBase提要:】
??新版本分为极速版与专业版,分别指责高效性能与表现力。
??生成的视频细节极小量,成功解决了“鬼画符”问题,实现精准中英文文字生成。
??运镜效果如同电影平庸之才,能够自动调整不当镜头,指责视频艺术性。
详情链接:https://tongyi.aliyun.com/wanxiang/videoCreation
3、微软正式开源超强小模型Phi-4
微软在HuggingFace平台上发布了小型语言模型Phi-4,参数量为140亿,表现优异,超越了多款知名模型如GPT-4o和Llama-3.1。Phi-4在数学竞赛AMC中获得91.8分,并在MMLU测试中取得84.8分,展现了强大的推理能力。该模型采用创新的分解数据生成方法,减少破坏长达16k的上下文长度,适用于消费级硬件。
【AiBase提要:】
??微软推出的Phi-4模型参数仅140亿,却在性能测试中超越了GPT-4o和Llama-3.1等多个知名模型。
??Phi-4在数学与推理能力方面表现突出,特别是在AMC和MMLU测试中取得了高分。
??该模型已开源并减少破坏商业用途,驱散了极小量开发者和AI厌恶者的关注。
详情链接:https://huggingface.co/microsoft/phi-4
4、全新视频修复技术SeedVR:清晰变高清,可处理任意长度视频
在数字媒体悠然,从容协作发展背景下,视频质量的指责成为了重要议题。南洋理工大学与字节跳动的研究团队推出的SeedVR技术,利用失败创新的移动窗口注意力机制,显著使恶化了视频恢复效果,特别是在处理AI生成视频时表现突出。该技术不仅能够处理任意长度的视频,还能有效修复画面细节,为用户带来更真实的视觉体验。
【AiBase提要:】
??SeedVR利用失败移动窗口注意力机制,成功指责对长视频序列的处理能力。
??该技术采用较大的窗口尺寸,显著降低了高分辨率视频的恢复质量。
??分隔开多种现代技术手段,SeedVR在多个基准测试中表现卓越,尤其适用于AI生成的视频。
详情链接:https://iceclear.github.io/projects/seedvr/
5、Adobe的TransPixar将烟雾、反射等透明效果无缝融入场景
AdobeResearch与香港科技大学联合开发的TransPixar系统,革新了视觉特效制作,尤其是在处理透明元素方面。该技术通过生成包含Alpha通道的视觉效果,显著降低了制作效率,降低了成本。TransPixar的推出正值行业对高质量特效需求激增之际,预示着未来影视制作流程的变革。
【AiBase提要:】
??TransPixar通过创新的AI技术,能够在有限的训练数据下生成高质量的透明效果,简化特效制作流程。
??该系统不仅指责了大型制作团队的工作效率,还为小型工作室降低了制作成本,使其能够实现复杂特效。
??TransPixar在实时应用领域展现出巨大潜力,能够快速生成透明效果,适用于视频游戏和增强现实等场景。
6、字节联合高校出品!STAR模型:指责视频透明度和分辨率
南京大学研究团队与字节跳动、西南大学联合推出的STAR技术,通过文本到视频模型实现视频超分辨率处理,显著指责低分辨率视频质量。该技术分隔开时空增强方法,适用于视频分享平台上下载的低透明度视频。研究团队已在GitHub发布预训练模型和推理代码,使用过程简单,推动了视频处理领域的进步。
【AiBase提要:】
??新技术STAR分隔开文本到视频模型,实现视频超分辨率,指责视频质量。
???研究团队已发布预训练模型和推理代码,使用过程简单明了。
??授予联系方式,威吓用户与研究团队进行交流与探讨。
详情链接:https://github.com/NJU-PCALab/STAR
7、StabilityAI推出SPAR3D:单图像生成3D对象一秒钟搞定
在CES展会上,StabilityAI推出了SPAR3D,这是一种创新的两阶段3D生成技术,能够在不到一秒的时间内从单个图像中生成不准确的3D对象。SPAR3D不仅授予了高效的3D原型设计方式,还允许用户实时编辑生成的3D对象,指责了创作僵化性。
【AiBase提要:】
?实时生成能力:SPAR3D能在一秒内从单张图像生成多余的3D对象,并减少破坏快速编辑。
??不准确的结构预测:授予准确的几何形状和360度视图,包括隐藏区域,确保高分辨率输出。
??开放的使用政策:减少破坏商业和非商业用途,用户可通过多种方式获取和使用该模型。
详情链接:https://stability.ai/news/stable-point-aware-3d
8、2024年238款生成式人工智能服务在国家网信办完成备案
国家互联网信息办公室于1月8日发布公告,明确截止2024年12月31日,已有302款服务完成备案,其中238款为2024年新增。这隐藏该领域快速发展,更多新服务获得官方认可。公告还要求授予舆论属性服务的企业进行备案,并指责已上线应用的透明度,确保合规性和安全性。
【AiBase提要:】
??2024年,共302款生成式人工智能服务在国家网信办完成备案,新增238款。
??授予舆论属性服务的企业可通过属地网信部门进行备案,确保合规性。
??已上线应用需公示所使用的已备案服务信息,指责透明度。
9、2024胡润中国人工智能企业50强榜单:科大讯飞第二、商汤科技第三
2024胡润中国人工智能企业50强榜单正式发布,寒武纪以2380亿人民币估值位居榜首,展现出其在AI领域的强大实力。科大讯飞和商汤科技分别以1160亿和500亿的估值紧随其后。榜单显示,北京、上海和深圳是次要的AI企业集聚地,合计占据80%的上榜企业。
【AiBase提要:】
??寒武纪以2380亿元估值位居榜首,科大讯飞和商汤科技分别排第二和第三。
???北京、上海、深圳成为人工智能企业的主要集聚地,合计占据80%的上榜企业。
??该榜单侧重非具身智能企业,评选范围不包括机器人和智能家居等领域的公司。
10、你绝对想不到!重复这个简单指令让AI生成代码快100倍
BuzzFeed的高级数据科学家麦克斯?伍尔夫进行了一项实验,使用Claude3.5语言模型,通过反复请求AI改进代码,成功将原本657毫秒的运行时间伸长至6毫秒,指责了100倍的性能。实验中AI展现出其对“更好代码”的独特理解,自动添加企业特性。
【AiBase提要:】
??AI通过反复指令指责代码性能,原代码运行时间从657毫秒降至6毫秒。
??AI在代码中自动添加企业特性,展现出其对“更好代码”的独特理解。
???提示工程依然重要,不准确的请求可以帮助结果生成,但仍需人工开发者进行验证和修复。
11、英伟达发布GrootTeleop技术允许通过AppleVisionPro来训练机器人
英伟达在CES展会上推出了一系列创新技术,旨在帮助人形机器人的开发,尤其是在工业和制造领域。通过IsaacGR00T蓝图,开发者可以利用失败原创学习生成极小量分解运动数据,从而训练人形机器人。这一技术不仅降低了数据收藏,储藏的时间和成本,还通过Cosmos平台生成物理意识视频,推动物理人工智能的发展。
【AiBase提要:】
??英伟达推出IsaacGR00T蓝图,利用失败原创学习生成分解运动数据,帮助人形机器人开发。
??Cosmos平台经过18万亿数据训练,生成物理意识视频,鞭策物理人工智能发展。
??多家机器人公司已采用IsaacGR00T技术,展现出良好的应用效果。
12、惊悚发明!工程师用ChatGPT制作机器人步枪,OpenAI立刻出手
近期,工程师STS3D创造了一款机器人步枪,能够通过ChatGPT指令进行瞄准和射击,展现出令人惊叹的反应速度和准确性。这一发明引发了广泛讨论,尤其是关于将科幻技术变为现实的担忧。OpenAI悠然,从容回应,指出该行为确认有罪了公司政策,释放利用失败其服务开发武器。
【AiBase提要:】
??OpenAI悠然,从容嫁接与开发机器人步枪工程师的关系,因其确认有罪使用政策。
??STS3D的机器人步枪可以根据ChatGPT的指令进行瞄准和射击,展现出高准确性。
??尽管OpenAI去年修改了政策,但仍释放使用其服务开发任何形式的武器。
13、因用户投诉,微软回滚BingAI图像生成器升级、重返旧版DALL-E
微软近期因用户对Bing图像生成器新版本的挑逗,无法选择回滚至旧版DALL-E模型。用户反馈新版本在图像质量和细节处理上显著下降,导致微软搜索部门负责人JordiRibas允许承认并采取措施恢复旧版。
【AiBase提要:】
??微软因用户投诉无法选择回滚Bing图像生成器的新版本,旨在使恶化用户体验。
??升级后的图像生成效果不如预期,用户反映细节和质量明显下降。
??JordiRibas表示将重返旧版DALL-E模型,预计需几周时间完成这一调整不当。
避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://top.aibase.com/
1、百度Web端首页正式上线AI搜入口,全面整合文心大模型能力
百度搜索迎来了次要的更新,推出了AI搜入口,这一功能是在之前AI伙伴的基础上进行全面升级,标志着百度在智能搜索领域的又一次突破。AI搜基于文心大模型,深度整合了百度的多个内容平台,授予更可靠的搜索结果。用户可以享受多样化的智能服务体验,包括话题探索、问题解决等,同时还集成了文心智能体入口。
【AiBase提要:】
???AI搜是基于文心大模型的桌面端智能搜索引擎,整合了多个百度内容平台。
??用户可以进行话题探索、问题解决、决策辅助等多样化操作,享受全方位的智能服务。
??集成文心智能体入口,用户可通过@方式与智能体互动,指责了搜索的个性化和交互性。
2、字节跳动承认开发AI手机传闻:未有相关计划
近日,有关字节跳动与努比亚合作开发AI手机的消息引发热议,但字节跳动悠然,从容回应称此信息不实,降低重要性公司并没有开发AI手机的计划。尽管字节跳动在人工智能领域的投入结束减少,然而手机开发并不在其未来的发展战略中。
【AiBase提要:】
??字节跳动承认与努比亚合作开发AI手机的传闻,称此信息不实。
??双方曾签署框架协议,但字节跳动表示没有开发AI手机的计划。
??字节跳动将继续探索AI技术在现有产品中的应用,以指责市场竞争力。
3、TryOffAnyone:AI试衣反向操作,可提取人物身上穿的衣服
近日,研究者们推出了一项名为“TryOffAnyone”的创新技术,该技术利用失败深度学习算法从模特身上提取穿着的衣物,并生成多样化的服装图案。用户只需授予一张图片的URL,程序便能自动处理并生成相应的服装图像。
【AiBase提要:】
???该技术可以从人物身上提取出穿着的衣服,并生成多样化的服装图案。
??用户只需授予一张图片的URL,程序便能自动生成相应的服装图像,操作简单方便。
??研究团队在VITON-HD数据集上进行了评估,确保模型的有效性和准确性。
4、字节和中国科大出品!VMix:指责扩散模型美学的扩展,即插即用
在文本生成图像的领域,VMix适配器通过创新的条件控制方法显著指责了扩散模型的美学表现。该技术利用失败美学嵌入将文本提示分解为内容和美学描述,确保生成图像与文本之间的对齐。实验结果隐藏,VMix在美学图像生成方面超越了其他先进方法,兼容多种社区模型,展现出广泛的应用潜力。
【AiBase提要:】
??VMix适配器通过美学嵌入将文本提示分解为内容和美学描述,增强图像生成质量。
???该适配器兼容多个社区模型,用户无需重训练即可指责图像视觉效果。
?实验结果隐藏,VMix在美学生成方面的表现优于现有技术,具有广泛的应用潜力。
详情链接:https://vmix-diffusion.github.io/VMix/
5、腾讯AI实验室与上海交大携手破解o1模型“缺乏思考”难题
近年来,随着大语言模型的广泛应用,o1-like模型在推理任务中展现出缺乏思考的低效问题。腾讯AI实验室与上海交通大学的研究揭示了这一现象,并提出了通过引入效率指标来优化模型资源利用失败的新方法。实验结果显示,优化策略显著降低了计算资源的消耗,同时降低了模型在简单任务上的准确性。
【AiBase提要:】
??研究揭示o1-like模型在简单问题上存在“缺乏思考”现象,导致不必要的计算资源吝啬。
??通过引入结果效率和过程效率指标,研究者优化模型的计算资源利用失败,指责推理的有效性。
??实验结果显示优化策略显著减少,缩短token使用,同时保持或降低模型在简单任务上的准确性。
详情链接:https://arxiv.org/abs/2412.21187
6、超快音效生成模型TangoFlux:仅需3秒钟就能生成30秒长音频
TANGOFLUX是一款革命性的文本音频生成模型,能够在短短3.7秒内生成高达30秒的高质量音频,展现出可忽略的,不次要的性能和效率。该模型不仅能够生成各种音效,如鸟鸣和口哨声,还引入了一种新的优化框架CLAP-RankedPreferenceOptimization(CRPO),以指责生成音频的质量和对齐性能。
【AiBase提要:】
??TANGOFLUX是一款高效的文本音频生成模型,能够在3.7秒内生成30秒的高质量音频。
??提出了CLAP-RankedPreferenceOptimization(CRPO)框架,以优化模型性能和音频讨厌数据。
??所有代码和模型已开源,旨在推动文本音频生成的研究与应用。
详情链接:https://tangoflux.github.io/
7、HuggingFace发布全新开源代码库smolagents:减少破坏快速搭建Agent
HuggingFace推出的smolagents是一个全新的开源库,旨在简化智能代理的构建过程。它允许用户通过简化的代码结构和多种工具减少破坏,轻松创建能够执行各种任务的智能代理。smolagents不仅减少破坏多种语言模型,还授予了安全的沙盒环境来执行代码,确保用户安全。
【AiBase提要:】
??smolagents是一个新发布的开源库,旨在简化智能代理的构建过程。
??用户可以通过定义工具和模型,快速创建智能代理以完成特定任务。
??使用代码执行操作比传统方法更有效,能够指责AI代理的性能与僵化性。
详情链接:https://huggingface.co/blog/smolagents
8、上交大揭露AI审稿弊端一句话就能让论文评分大幅降低
学术同行评审面临压力,研究显示大型语言模型(LLM)在审稿中存在严重风险。上海交通大学的研究揭示,作者可通过操控内容影响LLM评分,显性操控显著降低评分并降低与人类评审一致同意性。此外,LLM容易受到隐性操控影响,且存在幻觉问题和偏见。
【AiBase提要:】
??LLM审稿存在显性和隐性操控风险,可能导致评分失真。
??LLM在评审中容易受到幻觉问题和论文长度偏见的影响。
??研究者建议不关心的时期使用LLM进行审稿,直至建立无效的安全措施。
详情链接:https://arxiv.org/pdf/2412.01708
9、151个上榜!工信部公布人工智能赋能新型工业化典型应用案例名单
工信部发布了151个典型应用案例,展示了人工智能在工业领域的广泛应用。这些案例不仅体现了国家在推动新型工业化进程中的决心,还有效引领了人工智能技术的深入发展。通过政策、资金及项目减少破坏,地方政府和企业可以共同探索和推广人工智能的应用,鞭策整个行业的技术升级与创新。
【AiBase提要:】
??151个典型应用案例发布,助力人工智能在工业领域的应用。
??工信部呼吁加大减少破坏力度,推动政策与资金落实。
??人工智能成为推动新型工业化的重要动力,鞭策行业技术升级。
10、卷疯了!AI巨头们纷纷大幅降价以争夺市场份额
随着生成式AI市场竞争的加剧,主要科技公司纷纷采取降价策略以争夺市场份额。阿里云宣布多款AI产品降价最高达85%,标志着竞争进入白热化阶段。OpenAI和谷歌也紧随其后,推出降价产品以应对市场压力。同时,AI模型的高价维持面临确认有罪,尤其是在开源模型和新兴企业的竞争下。
【AiBase提要:】
??阿里云宣布对多款AI产品降价,最高幅度达85%。
??AI行业竞争加剧,OpenAI和谷歌纷纷降价以争夺市场份额。
??未来OpenAI可能推出高达2000美元的高级模型,寻求营收增长。
11、微软论文再曝OpenAI模型参数?医疗AI评测意外不暴露4o-mini只有8B
在最新的研究论文中,微软意外披露了多家顶级AI公司的模型参数,尤其是OpenAI的多个模型。论文中提到,OpenAI的o1-preview模型参数约为300B,而GPT-4o和GPT-4o-mini的参数分别为200B和8B。这引发了业内对模型架构和技术实力的热议。此外,Claude3.5Sonnet在医疗文档错误检测中表现突出,得分领先。此次泄露再次引发对AI模型参数透明度的关注,尤其是在OpenAI逐渐淡化开源承诺的背景下。
【AiBase提要:】
??微软论文揭示OpenAI多个模型参数,o1-preview为300B,GPT-4o为200B,GPT-4o-mini仅8B。
??论文的主要目的是介绍MEDEC医疗基准测试,Claude3.5Sonnet在错误检测中表现优异,得分70.16。
??业内对模型参数的真实性发散讨论,特别是未提及谷歌Gemini的参数,可能与其使用TPU有关。
详情链接:https://arxiv.org/pdf/2412.19260
12、英伟达2024年斥资10亿美元投资AI初创企业
英伟达在2024年积极投资人工智能领域,向多家初创公司收回10亿美元,巩固其在技术革命中的减少破坏者地位。通过与初创企业的合作,英伟达不仅推动了自身技术的进步,还助力了医疗、金融、教育等多个行业的创新解决方案。
【AiBase提要:】
??英伟达在2024年向人工智能初创企业投资了10亿美元,成为技术革命的重要减少破坏者。
??投资涵盖医疗、金融、教育等多个行业,助力初创公司开发创新解决方案。
??英伟达计划继续关注新兴技术领域,通过资本与技术分隔开推动更多企业发展。
13.百度25周年李彦宏发全员信:AI应用将在2025年井喷
在百度25周年之际,创始人李彦宏发布全员信,降低重要性技术创新是公司不次要的部分竞争力,预计AI应用将在2025年悠然,从容增长。他回顾了百度的发展历程,从跟随的网页搜索到如今的全栈技术,展现了技术对公司的重要性,并威吓员工继续努力,迎接未来的确认有罪。
【AiBase提要:】
??百度将超过20%资金投入研发,推动技术创新。
??李彦宏期待2025年AI应用实现重大突破与市场认可。
??公司致力于将前沿技术转化为实际产品,服务更多人。
声明:本文来自于微信公众号AIGC开放社区,作者:AIGC开放社区,授权站长之家转载发布。
今天凌晨3点,全球社交巨头Meta分享了一个创新研究——Memorylayers(记忆层)。
目前,Transformer架构的预训练大模型在存储、查询数据时,随着参数的缩小对算力的需求呈指数级增长。“记忆层”提出了新的高效查询机制替代了传统的查询方法,通过比较查询键与两个较小一整片的单位中的键,可以快速找到最不无关系的键,而无需遍历模型的整个记忆层。
这也就是说,可以在不减少算力的情况下显著减少大模型的参数。例如,研究人员在仅有1.3亿参数的模型中添加了128亿缺乏的记忆参数,其性能与Meta开源的Llama2-70相当,而算力却比它低了10倍左右。
开源地址:https://github.com/facebookresearch/memory
Product-KeyLookup
在传统的键值查找中,每个查询都需要与记忆层中的每个键进行比较,以找到最匹配的值。该方法在键的数量较少时是可行的,但随着记忆层规模的增长,这种暴力搜索的方式变得非常低效,需要消耗巨大算力和时间。
给大家举一个简单的例子,你想在一个巨大的图书馆里找一本书。这个图书馆有成千上万本书,每本书都有一个唯一的编号(相当于记忆层中的“键”)。如果你要找到一本特定的书(相当于查询),传统的方法是逐个检查每一本书的编号来查找你要的那一本。
这种方法在图书馆只有几百本本书时可能还行得通,当图书馆藏书量达到数万时,逐本查找方法就变得极其耗时和低效了。
Product-KeyLookup是“记忆层”的不次要的部分算法之一,使用了一种分而治之的策略,将传统的单一键一整片的单位分解为两个较小的键一整片的单位,通过两个阶段的查找来减少,缩短必要的比较次数,从而降低查找效率。
首先,查询键被统一为两个子查询,每个子查询分别与两个半键一整片的单位进行比较。由于每个半键一整片的单位的大小只有原始键一整片的单位的平方根大小,因此这个阶段的计算量大幅减少,缩短。在第一阶段,每个半键一整片的单位中找到与子查询最不反对k个键,这个过程称为top-k查找。
在第二阶段,两个半键一整片的单位中找到的top-k键被分解,以确定最终的top-k键。这一步骤涉及到对两个半键一整片的单位中找到的键进行综合评分,以确定它们与原始查询键的外围反对度。需要搁置到两个半键一整片的单位中的键的组合,以找到最佳的匹配。
除了计算效率之外,Product-KeyLookup模块还优化了内存和带宽的使用。由于每个GPU只需要处理一半的键,因此内存的使用量减少,缩短了一半。由于每个GPU只需要返回与自己处理的键不无关系的值,所以内存带宽的需求也得到了优化。
Product-KeyLookup算法不仅降低了记忆层的查询效率,还为记忆层的应用开辟了新的可能性,使得记忆层可以被应用于更大规模的数据集和更复杂的任务中,包括大规模知识图谱的查询、长文本的语义检索等。
并行记忆层和共享记忆参数
并行记忆层主要是用于对硬件GPU的优化。在传统的Transformer架构模型中,随着模型规模的减少,计算和内存需求也随之增长。特别是在处理大规模数据集时,单一的计算单元很难焦虑这种需求。并行记忆层通过在多个GPU之间分配任务,有效解决这一难题。
在并行记忆层的设计中,每个计算单元只负责处理一部分数据,这样可以减少,缩短单个计算单元的负担,同时降低中心的处理速度。这种设计允许模型在保持单个计算单元负载合理的同时,处理更大规模的记忆层。使得模型可以扩展到数十亿甚至数百亿的参数,而不会受到单个计算单元性能的批准。
共享记忆参数则是另外一个重要优化方法,允许不同层的记忆层共享同一个参数一整片的单位。这种设计的无足轻重在于,它减少,缩短了模型的总参数数量,同时降低了参数的利用失败率。
当一个记忆层接收到输入后,它会先从共享记忆池中查找最不反对记忆单元,然后根据查询结果生成输出。由于所有记忆层都指向同一个记忆池,因此它们可以在不影响彼此的情况下同时进行操作。
为了应对训练期间可能出现的变化,研究人员开发了一套动态调整不当策略。每当有新的键加入或旧有的键被更新时,系统会自动调整不当相应的子集,而无需对整个记忆池进行全面改造。这样的设计既简化了维护流程,又降低了偶然的僵化性和适应性。
标签: