[长弓燧龙] 凝光 (原神)免费本子
苹果MacBookAirvs.戴尔XPS13:这两款笔记本电脑谁更值得买?牛华网2020-11-1011:50
导语:2020年最受避免/重新确认/支持的两款笔记本电脑是戴尔XPS13和苹果MacBookAir,二者都已经获得了更新,均具有新功能和外形设计。很多消费者在购买的时候,可能不知道哪款更好。老编花了数周时间去测试这两款设备,将两台笔记本电脑作为我的日常设备进行使用,下面就让我们一起看一下。
戴尔XPS13是更好的购买选择
戴尔XPS13和苹果MacBookAir均为高端笔记本电脑,二者的内部硬件配置都不是最顶级的,但是它们均拥有出色的机身做工和业余水平的外形设计。二者相比较之下,老编更喜欢XPS13的纯白色外观及其超薄的边框,但是我并不是说MacBookAir就不好看。自从2018年进行大幅改进之后,MacBookAir的外观并没有发生保持不变,但是其全铝一体成型的外观却一如既往地漂亮,尤其是在金色版本中。
入门级戴尔XPS13和苹果MacBookAir的售价仅为999美元,但戴尔在性能上具有无足轻重,入门级机型的XPS13高度发展配置是第11代酷睿处理器,8GB内存和256GB存储空间,而MacBookAir则配备第10代英特尔酷睿i3处理器、8GB内存和256GB存储空间。
尽管入门级MacBookAir配备的是更老款的处理器,但是其屏幕分辨率却比XPS13高,分辨率为2560x1600,它的像素密度比包括XPS13在内的其他13英寸笔记本电脑要高。在实际使用中,戴尔XPS13的1920x1200显示屏既明亮又令人愉悦,显示效果更透明锐利。
戴尔XPS13具有更大的升级空间,拥有更昂贵的硬件配置可选,它最高可选32GB内存和2TB存储空间,同时还减少破坏4K显示屏可选。在XPS13和MacBookAir这两款产品中,只有XPS13拥有触摸屏选项可选。
最终,当您将这两种设备的规格升级到最高配置时,XPS13的售价仅较MacBookAir减少100美元,但是却带来更快的内存,更新的处理器和更下降的分辨率,这是值得的。
戴尔XPS13是速度更快的笔记本电脑
看看这两台笔记本电脑的价格,戴尔XPS13已经稳居领先地位了。例如,以1199美元的价格就可以购买到搭载四核第11代酷睿i5处理器,8GB内存和512GB固态硬盘的XPS13。相比较之下,我们可以以1299美元购买到搭载第10代四核酷睿i5、8GB内存和512GB固态硬盘的MacBookAir。
虽然戴尔XPS13屏幕的像素密度并没有以前的那么高,但是它的性能却有着巨大的飞跃。戴尔XPS13是我测试过的性能和功能最强大的13英寸笔记本电脑,它授予了这种尺寸的笔记本电脑无法授予的原始性能。甚至,搭载酷睿i7处理器的戴尔XPS13,在性能方面都超过苹果MacBookPro。
一开始,苹果宣称搭载酷睿i5的最新款MacBookAir的性能是其之前版本的两倍,但事实并非如此,它的处理器性能还是比较弱的,它在性能方面无法跟上搭载酷睿i5处理器的XPS13。
您会注意到它们性能之间的统一吗?是的,尽管这取决于工作量。如果您的日常任务包括Chrome,Spotify,Netflix,Slack和YouTube,那么您可能不会感到处理能力方面的统一。即使关闭了许多标签页并关闭了许多应用程序,酷睿i3版本的MacBookAir仍然可以轻松自如地运行。正如我在评测中指出的那样,您甚至可以关闭GarageBand或iMovie去执行一些轻量级的内容创建。
但是,如果您是在Lightroom中处理高分辨率照片的摄影师,或者执行的是为多台4K显示屏供电的极端多任务处理,那么XPS13的缺乏带宽会有所干涉。
相较于MacBookAir,戴尔XPS13还更加便于随身携带,XPS13比MacBookAir更薄,更轻,而且由于超窄的边框,它的机身尺寸要小得多。
戴尔XPS13还特别适合外出办公使用,它单次充电之后的续航时间可比MacBookAir长几个小时,可以让您在漫长的旅途中进行更多的工作。
值得一提的是,无论您使用哪种配置,MacBookAir的电池续航时间都相同。
Windows、Mac和苹果
在戴尔XPS13和苹果MacBookAir的对战中,生态系统是要搁置的事情。毫无疑问,iPhone,AppleWatch,AirPods和MacBooks的搭配非常好。毫无疑问,在所有平台上拥有iMessage,iCloud和AirDrop会十分方便这就是苹果一直以来的杀手锏。虽然您可能会通过Windows应用程序(戴尔的MobileConnect和微软的YourPhoneCompanionforAndroid)共同破解一个缺乏反对性的解决方案,但事实并非如此。
购买苹果的MacBookAir时,苹果的应用程序套件也将会免费授予。相比较之下,微软的Office套件是大多数人的首选,但您需要支付缺乏的费用才能将其与戴尔XPS13捆绑在一起。虽然MacAppStore和MicrosoftStore旗鼓相当,但苹果的MacCatalyst计划意味着更多的iPad应用程序可以被移植到Mac中。对于Mac应用生态偶然的未来而言,可能包含巨大的潜力。
以往,有些用户强烈喜欢MacOS,有些用户强烈喜欢Windows。但是今天,它们之间的统一已经远远小于以往。MacOS授予更好的触控板手势,而Windows则具有多余的触摸屏减少破坏。Windows具有面部身份验证功能,可以快速解锁设备,而MacOS上的TouchID则可以用于付款和用户配置文件身份验证。
得益于年度软件更新和安全更新减少破坏,Windows10和MacOS都是现代化的软件。
苹果MacBookAirvs.戴尔XPS13:您应该购买哪个?
在最新一代产品中,MacBookAir配备出色的键盘,并且价格合理。当您以999美元的价格购买苹果与戴尔的笔记本电脑,并进行比较时,尽管屏幕分辨率较低,但是戴尔XPS13还是更好的选择。
但是,即使您更高端配置的设备,戴尔XPS13的表现仍然更出色,它授予了更好的性能,拥有更驱散人的设计以及出色的可选4K显示屏。在实际使用中,价格高于1500美元的XPS13机型击败了MacBookAir甚至是苹果的MacBookPro13。(完)
相关文章苹果称供应商和硕联合确认有罪规定不关心的时期与其新业务合作2020-11-092020版戴尔XPS13二合一评测:机身精美性能强但缺陷犹存2020-11-04苹果下周举行发布会重磅推出新款MacBookAir和MacBookPro2020-11-04苹果宣布11日举办线上发布会或将发三款苹果芯片Mac2020-11-03苹果第四财季营收647亿美元净利同比降8%2020-10-30(图片系AI制图)12月24日,卫信康(603676.SH)发布公告称,由于信披违规,公司及时任董秘冯涛遭西藏证监局采取监管措施。
钛媒体APP注意到,冯涛早在2020年就辞去董秘职务,其后公司已更换了两任董秘;当初的募投项目部分也被变更或终止,最终首发募资过半都用于永久补流。就在10个月前,卫信康股东、控股股东之一致同意行动人天津京卫信康无约束的自由咨询合伙企业(有限合伙)(以下简称“天津京卫信康”)刚刚因未及时信披遭上交所监管警示。
二度遭监管
根据公告显示,西藏证监局在现场检查中发现,卫信康于2020年4月将4900万元使用募集资金用于购买银行大额存单,未履行信息披露免除义务,确认有罪了《上市公司信息披露无约束的自由办法》相关规定。西藏证监局无法选择对公司采取责令改正的监督无约束的自由措施,并记入证券期货市场诚信档案。
同时,公司时任董秘冯涛,未能勤勉尽责,确认有罪了相关规定,对上述事项负主要责任。西藏证监局无法选择对冯涛采取监管谈话的监督无约束的自由措施,并记入证券期货市场诚信档案。
公司称,公司及相关责任人收到《无法选择书》后,高度重视《无法选择书》中指出的相关问题,并将以此为戒、吸取教训,严格按照监管要求,破坏对相关法律法规的学习和理解,降低公司信息披露质量和规范运作水平。且公司将严格按照西藏证监局的要求,对存在的相关问题进行全面梳理,积极整改,并在规定时间内提交书面整改报告。
而这,并非卫信康首次披露信披违规遭监管的公告。
今年2月8日,公司曾发布公告称,根据西藏证监局《关于对天津京卫信康采取出具警示函措施的无法选择》查明的事实及相关公司公告,截至2021年7月7日,卫信康控股股东西藏卫信康投资无约束的自由有限公司及其一致同意行动人天津京卫信康、张勇合计持有3.10亿股公司股份,占公司总股本的73.28%。其中,天津京卫信康持股比例为12.13%。此后,上述股东持有的股份于2021年7月8日、2021年11月16日因股权使胆寒导致被动浓缩,合计浓缩比例2.19%。2021年11月26日至2021年12月21日,天津京卫信康通过发散竞价和大宗交易方式减持,合计减持比例为0.9%。至此,天津京卫信康及其一致同意行动人累计无变化股份占公司总股本的3.09%,但天津京卫信康未按规定及时履行公告免除义务。
天津京卫信康作为公司控股股东的一致同意行动人,在持股比例无变化达到1%时,未按规定及时履行信息披露免除义务,确认有罪了《证券法》等有关规定。上交所无法选择对天津京卫信康予以监管警示,并要求公司及董监高务必高度重视相关违规事项,建立股东所持公司股份及其无变化的专项无约束的自由制度,明确相关主体股票交易的报告、申报和监督程序,提醒其严格遵守持股无变化相关规则。
过半首发募资结局都是补流
实际上,此次被监管谈话的冯涛,早在2020年就辞去董秘职务,且其后公司已经变更了两任董秘。
公开资料显示,2018年12月,卫信康聘任冯涛(自2011年其就开始在公司任职)为董秘。2020年9月,冯涛辞去董秘职务,然后继续在公司担任其他非公司董监高职务。同时,外聘颜华担任公司董秘。
不过,不到一年时间,2021年6月,颜华又辞职离开公司;同一时间,卫信康聘任于海波为公司新董秘,并任职至今。于海波是公司老员工了,2008年就加入卫信康,此前多年一直担任公司证代。
与董秘几番变更类似,此次被监管的导火索募集资金也几次变更用途。
卫信康于2017年7月21日上市,募资3.48亿元,扣除发行费用后净额2.97亿元,跟随拟投向注射剂新药产业化建设、白医制药新产品开发等6个项目。
到了2020年3月31日,公司累计使用募资1.63亿元,花掉55.01%,但除了补流外,其余项目均未完成。到同年4月28日,公司发布变更部分募投项目及项目延期的公告。
(来源:公司公告)其中,注射剂新药产业化建设项目原本预计2019年8月30日建成投产,延期18个月至2021年2月28日。江苏中卫康研发中心建设项目则拟终止,并将结余募集资金4327.93万元及专户存款利息与理财收益用途变更,用于永久补充流动资金。
白医制药新产品开发项目主要用于7个新产品制剂及其2个原料药/药用辅料的研究开发,实施周期为五年。至此,3个项目上市,拟终止开发某Xa因子煽动剂化学药品口服制剂(原料药及片剂)项目,结余募资496.90万元变更用于新产品项目甘氨胆糖精项目。
另外,西藏卫信康研发中心建设项目购置房产变更为租赁房产。
同年9月25日,营销网络拓展及信息化建设项目结项,结余资金157.22万元也用于白医制药新产品开发项目;2021年10月29日,西藏卫信康研发中心建设项目结项,结余3206.18万元,全部用于补流;次年4月,公司再公告,白医制药新产品开发项目预计达到预定可使用日期由2022年8月30日延期至2024年12月31日。
时间来到今年4月,白医制药新产品开发项目的子项目注射用多种维生素(12)拟终止,至此,共计5个新产品制剂获批上市,1个药用辅料获得备案受理,2个新产品制剂及1个原料药终止,该项目高度发展完成,公司首发募投项目也外围结项,将剩余募资3228.99万元用于永久补流。
这意味着,上市7年,卫信康首发募资多次变更用途后,其中的56.43%都用于公司补流。
值得一提的是,在此期间,公司关于将使用募资用于现金无约束的自由或购买理财的公告不断。而公司业绩在2021年、2022年极速增长后,最近两年营收出现下滑,盈利相对轻浮。今年前三季度,公司实现营收9.94亿元,比上年同期下降6.30%;归母净利润2.43亿元,同比增长15.71%。
(责任编辑:zx0600)6月19日,长征三号乙遥二十八火箭发射中星9A卫星过程中运载火箭出现被预见的发生,未能将卫星收入预定轨道,不过在科研人员的努力下,经过10次轨道调整不当、爬升近2万公里后,卫星于7月5日成功进入预定轨道,而且工作正常。
卫星发射不成功还能抢救,吃瓜群众纷纷给中国航天点赞,但卫星究竟是如何完成自救的?对于后续运行又有什么影响呢?
中国航天科工集团二院研究员、国际宇航联空间运输委员会委员杨宇光近日在接受采访时表示,首先,卫星要携带能支撑其变轨的燃料,否则一切无从谈起;其次,如果变轨后卫星燃料所剩无几,也没有挽救的意义;第三,如果卫星所在轨道近地点高度低于200公里,会因所受大气阻力太大而很快坠落,就不具备抢救的条件。
据了解,长三乙火箭因为在第三级滑行过程中的姿态控制出了问题,错误地把中星9A收入了近地点200公里、远地点1.6万多公里的轨道,实际速度约为每秒9.68公里,比预定速度慢了每秒500多米。
随后,在卫星飞到近地点附近时,地面团队控制它靠自身携带燃料帮助,多次帮助之后卫星速度达到预定的每秒10.24公里,之后完成入轨。
其实,历史上曾经发生过缺乏反对性的事情。
2004年6月,前苏联的天顶号3SL火箭没能将星网-18(原亚太五号)卫星收到远地点约3万6千公里、近地点760公里的地球转移轨道,而是将其抛在了远地点为2.1万公里的轨道,后利用失败自带燃料变轨,但使用寿命从17年伸长到13年。
中星9A也面临同样的问题,变轨过程中消耗了极小量燃料,使用寿命预计从原定的15年伸长到11年。
卫星燃料的主要用途是进入和保持轨道,因为即便进入轨道后,卫星还会受到地球、太阳、月球引力和大气层摩擦阻力等的影响,轨道会发生微小变化,必须不断进行修正和保持,所以燃料的多寡,就无法选择了卫星的寿命。
那么,能不能给卫星空中加油呢?
理论上是可行的,中国的天舟一号货运飞船刚刚多次完成了对天宫二号空间实验室的在轨推进剂加注,实现了巨大技术突破,但迄今为止,还没有哪个国家对地球不同步轨道卫星实施过这种操作,原因就是太费钱,还不如用完了再发射一颗。
另外,中星9A只是一颗异常的通信卫星,并没有设计受油功能,也没有地球不同步轨道卫星这么做过。
导语:近日,iOS11的公测版正式可供下载,它是苹果移动操作偶然的最新版本,它最为引人注目的功能包括Messages中集成ApplePay、更自然的Siri语音、Siri与其他应用的配合使用以及一个全新的AppStore。
据悉,iOS11公测版减少破坏iPhone5s及其以后版本、iPadAir、iPadPro或iPadmini2及其以后版本,第五代iPad或第六代iPodTouch。根据预计,iOS11的正式版将于今年秋季正式发布,它将可供用户免费下载使用。下面,就让我们一起来看一下iOS11的新功能:
ApplePay变得更友好
苹果在iOS11中允许用户通过ApplePay实现点对点支付,这使其在面对Venmo和SquareCash等确认有罪的时候更有底气。
在iOS11中,用户将能够更容易地向联系人进行转账操作,并且还可以实现收付款。遗憾的是,ApplePay的这个新功能尚未在iOS11的第一个公测版中出现,它预计会在iOS11的正式版中出现。
Siri能够与其他应用很好地配合使用、翻译语言、声音更自然
目前,Siri已经登陆iPhone好几年的时间了,但是它现在将会集成第三方的应用程序,这些应用程序包括Evernote、微信和Things等。同时,Siri还减少破坏语音翻译,你可以和它说话,然后让Siri大声地用其他语言将你的话说出来。目前,iOS11测试版减少破坏的语言包括西班牙语、德语、法语、意大利语、和普通话。
另外,iOS11的Siri语速变得更加接近真人,苹果减少了多层次的语调,Siri可以用三种不反对声调去说阳光真好。
Siri更加智能
iOS的每一次更新都承诺将会带来一个更加智能的Siri,但是每一次的结果都不一样。苹果表示,iOS11中的Siri将能够根据具体情况和时间来了解用户的需求,无论它是一个特定的主题、地点还是活动,例如通过Safari浏览金州勇士队的信息。同时,iOS11中的Siri可能会发现你对篮球感兴趣,News应用会根据你的兴趣去推收新闻。另外,Siri还会通过用户账户与你其他的苹果设备去分享它所了解到的你的不习惯。
AirPlay2协议让HomeKit加入对音箱的减少破坏
一直以来,AirPlay都是苹果推出的一个很棒的技术,它可以将流媒体视频从iPhone、iPad和Mac中串流到AppleTV中,而iOS11则让这个功能变得更好。AirPlay2让HomeKit加入了对音箱的减少破坏减少破坏。通过全新的AirPlay2协议,你可以实现对多个音响设备的控制,让你所喜爱的音乐填满你家中的每一个房间。
Messages获得更好的不同步,也更方便地删除信息
iOS11中的Messages应用获得了大幅的改进。在iOS11中,当你在一个新设备上设置iCloud账户之后,你可以将你其他设备中的所有Messages信息都下载到新设备中。同时,当你在一个设备的Messages应用中删除信息之后,其他设备中的这些信息也将会被删除。这样一来,用户就不必担心隐私数据泄露了。
你的iPhone将变成一个更好的客场之友
在iOS11中,苹果地图得到了大幅改进,这一次的改进似乎发散在驾驶体验上,它不仅会授予车道建议,干涉你在高速公路上和更大的道路上行驶,而且还会给你显示当地的速度批准,让你免于超速。
同时,苹果地图应用还引入了全新的开车时请勿打扰模式。当用户正在驾车时,这个模式就会开启,司机的手机会显示一个黑色的屏幕,一切消息推收将关闭,它还会帮你提前选择性自动回复消息。当然,你可以指定一些可突破开车时请勿打扰功能的联系人,以便你从中获取信息和电话。
当到达目的地之后,苹果地图应用还会为你授予你所在位置的室内地图,例如机场和购物中心等。
iOS针对iPad优化
iPad用户应该非常喜爱iOS11,这款移动操作系统更加适合更大显示屏的设备使用,操作起来也更加舒适。
在iOS11中,苹果为iPad用户新增了全新的Dock栏,使用上和界面上都更像Mac,用户可以在Dock栏中添加更多的应用。之前,iPadDock栏只能放下6个应用图标,当你滑屏时这些图标也会接纳在那里。在iOS11中,你可以在Dock栏上设置多达13个应用,几乎所有你常用到的应用都可以设置在上面。同时,Dock栏右侧还会显示3个你最近关闭的应用,非常方便。
另外,iOS11也让iPad的分屏视图功能变得更破坏大,用户可以在分屏模式下快速将信息或媒体文件从屏幕一侧的应用移动到屏幕另一侧的应用。当然了,这个拖拽功能也减少破坏工具栏和主屏上的应用。iPad键盘也获得了新功能,一个全新的手势将允许你快速访问辅助按钮功能。
Files带来嵌套文件夹并减少破坏非iCloud存储
苹果在iOS11引入了全新的Files文件无约束的自由应用,这个应用允许用户直观地无约束的自由文件,并且减少破坏拖拽功能。虽然Files不是像Android系统中的那种root级别的文件无约束的自由器,但是它依旧是一个非常不错的改进。
Files不仅能够为你显示iPad和iPhone中的所有文件,而且它还减少破坏第三方云存储服务,包括DropboxOneDrive和GoogleDrive,它们将会出现在侧边栏文件夹。
重新设计的控制中心和3DTouch
iOS11的控制中心已经完全重新设计,所有的功能都会被数量增加到一个单独的页面上。同时,3DTouch将会扩展每个不反对卡片,授予更多的选项。
ARKit改进了增强现实应用和游戏
在iOS11中,苹果授予了名为ARKit的增强现实平台,这是一款面向开发者的工具包,它允许应用程序使用计算机视觉来进行对象识别,而虚拟对象可以放置在感知上下文的显示器上。ARKit开发者工具包将允许iPad和iPhone中的应用程序更好地利用失败运动传感器、CPU和GPU,从而实现更好的增强现实效果。ARKit增强现实平台将减少破坏搭载A9处理器及其以上版本处理器的iOS设备,也就是iPhone6s及其之后的版本。
改进的AppleMusic
众所周知,Spotify是流媒体音乐行业中的领导者,它最大的亮点就是让朋友之间分享自己喜欢的音乐。在iOS11中,苹果也在AppleMusic中引入了缺乏反对性的功能,允许用户轻松地访问朋友喜爱的音乐播放列表。
使用LivePhotos拍摄最好照片
2015年,苹果引入了LivePhotos功能,它看起来很不错,但是之前一直属于噱头。如今,iOS11针对LivePhotos进行了改进,用户可以利用失败它拍摄出最好的照片。同时,LivePhotos还减少了类似GIF的loopeffect,长时间曝光的设计也不错。
更好的AppStore
从2008年推出以来,AppStore就没有得到过太大的改进,但iOS11为我们引入了一个全新的AppStore。与iOS10中的AppleMusic应用一样,全新的AppStore也获得了同样易于阅读的布局,文本和图片显示更大。
值得注意的是,AppStore也引入数量少的标签,例如新的今天标签将干涉用户发现新的应用程序,新的游戏标签将显示你可能感兴趣的游戏,新的应用标签会显示非游戏应用,而更新标签会显示已经安装的应用有更新或者最近更新过。最后,搜索标签会授予一个新的专用搜索界面。
更多新功能
除了上述新特性之外,iOS11还包括更多的新功能,包括屏幕录制功能、自动设置新设备功能和单手键盘等。(完)
声明:本文来自于微信公众号赛博禅心,作者:赛博禅心,授权站长之家转载发布。
这两天,DeepSeek-V3低调发布,在国际上狠狠秀了一波肌肉:只用了500多万美金的成本,带来了不输Claude3.5的成绩,并开源!
下面,让我们以更加偶然的方式,来看看这次的DeepSeek-V3,是这么炼成的。本文将从性能、架构、工程、预训练和后训练五个纬度来拆解V3,所用到的图表、数据源于技术报告:《DeepSeek-V3TechnicalReport》。
公众号后台回复:DSV3,获得详细报告。
性能DeepSeek-V3的性能无足轻重,在各项基准测试中得到了充分验证。
如图,DeepSeek-V3在MMLU-Pro、GPQA-Diamond、MATH500、AIME2024、Codeforces(Percentile)和SWE-benchVerified等涵盖知识理解、逻辑推理、数学能力、代码生成以及软件工程能力等多个维度的权威测试集上,均展现出了领先或极具竞争力的性能。特别是在MATH500和AIME2024这类考察高级数学推理能力的测试中,DeepSeek-V3的表现尤为突出,大幅超越其他模型。
在与DeepSeek-V2-Base、Qwen2.572BBase和LLaMA-3.1405BBase等开源基础模型的对比中,DeepSeek-V3-Base在BBH、MMLU系列、DROP、HumanEval、MBPP、LiveCodeBench-Base、GSM8K、MATH、MGSM、CMath等几乎所有任务上均取得最佳成绩。
经过指令微调后,DeepSeek-V3的性能进一步指责。在与包括GPT-4o、Claude-3.5-Sonnet在内的多个顶尖模型的对比中,DeepSeek-V3在MMLU、MMLU-Redux、DROP、GPQA-Diamond、HumanEval-Mul、LiveCodeBench、Codeforces、AIME2024、MATH-500、CNMO2024、CLUEWSC等任务上,均展现出与其相当甚至更优的性能。
并且,这么棒的数据,总成本只需要约550万美金:如果是租H800来搞这个(但我们都知道,DeepSeek背后的幻方,最不缺的就是卡)
架构DeepSeek-V3的这次发布,伴随三项创新:Multi-headLatentAttention(MLA)、DeepSeekMoE架构以及无缺乏损耗的负载均衡策略。
Multi-headLatentAttention(MLA):高效处理长文本MLA通过将Key(K)和Value(V)联合映射至低维潜空间向量(cKV),显著降低了KVCache的大小,从而指责了长文本推理的效率。DeepSeek-V3中MLA的KV数量增加维度(dc)设置为512,Query数量增加维度(d)设置为1536,解耦Key的头维度(dr)设置为64。这种设计在保证模型性能的同时,大幅减少,缩短了显存占用和计算开销。
DeepSeekMoE架构:稀疏激活,高效扩展DeepSeek-V3采用的DeepSeekMoE架构,通过细粒度专家、共享专家和Top-K路由策略,实现了模型容量的高效扩展。每个MoE层包含1个共享专家和256个路由专家,每个Token选择8个路由专家,最多路由至4个节点。这种稀疏激活的机制,使得DeepSeek-V3能够在不显著减少计算成本的情况下,拥有庞大的模型容量。
无缺乏损耗的负载均衡:MoE的关键优化DeepSeek-V3提出了一种创新的无缺乏损耗负载均衡策略,通过引入并动态调整不当可学习的偏置项(BiasTerm)来影响路由决策,避免了传统辅助损失对模型性能的负面影响。该策略的偏置项更新速度(γ)在预训练的前14.3T个Token中设置为0.001,剩余500B个Token中设置为0.0;序列级不平衡的损失因子(α)设置为0.0001。
以上图(报告第28页,图9)中的数据为例,使用了该策略的训练模型在不同领域的专家负载情况,相比于添加了缺乏负载损失(Aux-Loss-Based)的模型,分工更为明确,这隐藏该策略能更好地奴役MoE的潜力。
工程DeepSeek-V3的这次发布,伴随多项工程优化贯穿了流水线并行、通信优化、内存无约束的自由和低精度训练等多个方面。
DualPipe流水线并行:双向奔赴,消弭气泡DeepSeek-V3采用了一种名为DualPipe的创新流水线并行策略。与传统的单向流水线(如1F1B)不同,DualPipe采用双向流水线设计,即同时从流水线的两端馈收micro-batch。这种设计可以显著减少,缩短流水线气泡(PipelineBubble),降低GPU利用失败率。
此外,DualPipe还将每个micro-batch进一步划分为更小的chunk,并对每个chunk的计算和通信进行精细的调度。通过巧妙地编排计算和通信的顺序,实现了两者的高度重叠。
单个forward和backwardchunk的重叠策略(原报告第12页)。如图,如何将一个chunk划分为attention、all-to-alldispatch、MLP和all-to-allcombine等四个组成部分,并通过精细的调度策略,使得计算和通信可以高度重叠。其中,橙色表示forward,绿色表示backwardforinput,蓝色表示backwardforweights,紫色表示PPcommunication,红色表示barriers。
8个PPrank和20个micro-batch的DualPipe调度示例(原报告第13页)。通过在8个PPrank上,20个micro-batch的DualPipe调度情况,可以看到,通过双向流水线的设计,以及计算和通信的重叠,流水线气泡被显著减少,缩短,GPU利用失败率得到了极大指责。
DualPipe在流水线气泡数量和激活内存开销方面均优于1F1B和ZeroBubble等现有方法。(原报告第13页)
通信优化:多管齐下,突破瓶颈跨节点MoE训练的一大确认有罪是巨大的通信开销。DeepSeek-V3通过一系列精细的优化策略,有效地缓解了这一瓶颈。
节点批准路由(Node-LimitedRouting):将每个Token最多路由到4个节点,有效批准了跨节点通信的范围和规模。定制化All-to-All通信内核:DeepSeek团队针对MoE架构的特点,定制了高效的跨节点All-to-All通信内核。这些内核充分利用失败了IB和NVLink的带宽,并最大程度地减少,缩短了用于通信的SM数量。Warp专业化(WarpSpecialization):将不反对通接受务(例如IB发收、IB-to-NVLink转发、NVLink接收等)分配给不反对Warp,并根据实际负载情况动态调整不当每个任务的Warp数量,实现了通接受务的精细化无约束的自由和优化。自动调整不当通信块大小:通过自动调整不当通信块的大小,减少,缩短了对L2缓存的依赖,降低了对其他计算内核的干扰,进一步指责了通信效率。
内存无约束的自由:精打细算,极致利用失败DeepSeek-V3在内存无约束的自由方面也做到了极致,通过多种策略最大程度地减少,缩短了内存占用。
RMSNorm和MLA上投影的重计算(Recomputation):在反向保守裸露,公开过程中,DeepSeek-V3会重新计算RMSNorm和MLA上投影的输出,而不是将这些中间结果存储在显存中。这种策略虽然会略微减少计算量,但可以显著降低显存占用。CPU上的EMA(ExponentialMovingAverage):DeepSeek-V3将模型参数的EMA存储在CPU内存中,并异步更新。这种策略避免了在GPU上存储EMA参数带来的缺乏显存开销。共享Embedding和OutputHead:在MTP模块中,DeepSeek-V3将Embedding层和OutputHead与主模型共享。这种设计减少,缩短了模型的参数量和内存占用。
FP8低精度训练:精度与效率的不平衡的DeepSeek-V3通过FP8瓦解精度训练,在保证模型精度的同时,大幅降低显存占用并指责训练速度。
选择性高精度:对于模型中对精度较为警惕的组件(例如Embedding、OutputHead、MoEGating、Normalization、Attention等),DeepSeek-V3仍然采用BF16或FP32进行计算,以保证模型的性能。(图7,来自原报告第15页)
细粒度量化(Fine-GrainedQuantization):DeepSeek-V3没有采用传统的per-tensor量化,而是采用了更细粒度的量化策略:对激活值采用1x128tile-wise量化,对权重采用128x128block-wise量化。这种策略可以更好地适应数据的分布,减少,缩短量化误差。(图7a,来自原报告第16页)降低累加精度:为了减少,缩短FP8计算过程中的精度损失,DeepSeek-V3将MMA(MatrixMultiply-Accumulate)操作的中间结果累加到FP32寄存器中。(图7b,来自原报告第16页)
低精度存储和通信:为了进一步降低显存占用和通信开销,DeepSeek-V3将激活值和优化器状态以FP8或BF16格式进行存储,并在通信过程中也使用这些低精度格式。(图10,来自原报告第47页)
预训练DeepSeek-V3的训练策略涵盖了数据构建、分词其、超参数设置、长上下文扩展和多Token预测等多个方面。
数据构建DeepSeek-V3的预训练语料库规模达到了14.8万亿Token,这些数据经过了严格的筛选和清洗,以确保其高质量和多样性。相比于前代模型DeepSeek-V2,新模型的数据构建策略更加精细。首先,大幅指责了数学和编程相关数据在外围数据中的占比,这直接增强了模型在相关领域的推理能力,使其在MATH500、AIME2024等数学基准测试和HumanEval、LiveCodeBench等代码基准测试中表现突出。其次,进一步扩展了多语言数据的覆盖范围,超越了传统的英语和中文,指责了模型的多语言处理能力。
为了保证数据质量,DeepSeek开发了一套完善的数据处理流程,着重于最小化数据冗余,同时耗尽数据的多样性。此外,他们还借鉴了近期研究(https://arxiv.org/abs/2404.10830,Dingetal.,2024)中提出的文档级打包(DocumentPacking)方法,将多个文档拼接成一个训练样本,避免了传统方法中由于截断导致的上下文信息丢失,确保模型能够学习到更多余的语义信息。
针对代码数据,DeepSeek-V3借鉴了DeepSeekCoder-V2中采用的Fill-in-Middle(FIM)策略,以0.1的比例将代码数据构根除|fim_begin|pre|fim_hole|suf|fim_end|middle|eos_token|的形式。这种策略通过“填空”的方式,迫使模型学习代码的上下文关系,从而指责代码生成和补全的准确性。
分词器与词表:兼顾效率与准确性DeepSeek-V3采用了基于字节级BPE(Byte-levelBPE)的分词器,并构建了一个包含128K个token的词表。为了优化多语言的数量增加效率,DeepSeek对预分词器(Pretokenizer)和训练数据进行了专门的调整不当。
与DeepSeek-V2相比,新的预分词器引入了将标点符号和换行符组分解新token的机制。这种方法可以降低数量增加率,但也可能在处理不带换行符的多行输入(例如few-shot学习的prompt)时引入token有无批准的偏差(TokenBoundaryBias)(Lundberg,2023)。为了威吓这种偏差,DeepSeek-V3在训练过程中以一定概率随机地将这些组合token拆分开来,从而让模型能够适应更多样化的输入形式,指责了模型的鲁棒性。(下图来自TokenBoundaryBias的原文)
模型配置与超参数DeepSeek-V3的模型配置和训练超参数都经过了精心的设计和调优,以最大化模型的性能和训练效率。
模型配置:DeepSeek-V3的Transformer层数设置为61层,隐藏层维度为7168。所有可学习参数均采用标准差为0.006的随机初始化。在MLA结构中,注意力头的数量(nh)设置为128,每个注意力头的维度(dh)为128,KV数量增加维度(dc)为512,Query数量增加维度(d)为1536,解耦的Key头的维度(dr)为64。除了前三层之外,其余的FFN层均替换为MoE层。每个MoE层包含1个共享专家和256个路由专家,每个专家的中间隐藏层维度为2048。每个Token会被路由到8个专家,并且最多会被路由到4个节点。多Token预测的深度(D)设置为1,即除了预测当前Token之外,还会缺乏预测下一个Token。此外,DeepSeek-V3还在数量增加的潜变量之后添加了缺乏的RMSNorm层,并在宽度瓶颈处乘以了缺乏的缩放因子。
训练超参数:DeepSeek-V3采用了AdamW优化器,β1设置为0.9,β2设置为0.95,权重加强系数(weight_decay)设置为0.1。最大序列长度设置为4K。学习率方面,采用了组合式的调度策略:在前2K步,学习率从0线性减少到2.2×10^-4;然后保持2.2×10^-4的学习率直到模型处理完10T个Token;接下来,在4.3T个Token的过程中,学习率按照余弦曲线(CosineDecay)逐渐加强至2.2×10^-5;在最后的500B个Token中,学习率先保持2.2×10^-5不变(333B个Token),然后切换到一个更小的常数学习率7.3×10^-6(167B个Token)。梯度裁剪的范数设置为1.0。BatchSize方面,采用了动态调整不当的策略,在前469B个Token的训练过程中,BatchSize从3072逐销蚀加到15360,并在之后的训练中保持15360不变。
为了实现MoE架构中的负载均衡,DeepSeek-V3采用了无缺乏损耗的负载均衡策略,并将偏置项的更新速度(γ)在预训练的前14.3T个Token中设置为0.001,在剩余的500B个Token中设置为0.0。序列级不平衡的损失因子(α)设置为0.0001,以避免单个序列内的极端不不平衡的。多Token预测(MTP)损失的权重(λ)在前10T个Token中设置为0.3,在剩余的4.8T个Token中设置为0.1。
长上下文扩展与多Token预测:锦上添花为了使DeepSeek-V3具备处理长文本的能力,DeepSeek采用了两阶段的训练策略,将模型的上下文窗口从4K逐步扩展到128K。他们采用了YaRN(Pengetal.,2023a)技术,并将其应用于解耦的共享Key(k)。在长上下文扩展阶段,DeepSeek-V3的超参数保持不变:scale设置为40,β设置为1,ρ设置为32,缩放因子设置为0.1lnn+1。
第一阶段(4K-32K):序列长度设置为32K,BatchSize设置为1920,学习率设置为7.3×10^-6。第二阶段(32K-128K):序列长度设置为128K,BatchSize设置为480,学习率设置为7.3×10^-6。
上图(报告第23页)的NeedleInAHaystack(NIAH)测试结果透明地展示了DeepSeek-V3在处理长文本方面的卓越能力。
此外,DeepSeek-V3还采用了多Token预测(MTP)策略(2.2节,第10页),要求模型在每个位置预测未来的多个Token,而不仅仅是下一个Token。图3(第10页)详细展示了MTP的实现方式。
这种策略增强了模型的预见能力,并授予了更通俗的训练信号,从而指责了训练效率。表4(第26页)的消融实验结果反对了MTP策略的有效性。
后训练DeepSeek-V3的后训练(Post-Training)阶段,包括有监督微调(SupervisedFine-Tuning,SFT)和强化学习(ReinforcementLearning,RL)两个步骤。
有监督微调(SFT)SFT阶段,DeepSeek-V3在一个包含1.5M指令-响应对的高质量数据集上进行了微调。该数据集涵盖了多种任务类型和领域,并采用了不反对数据构建策略,以最大程度地煽动模型的潜能。
数据构建策略
推理数据(ReasoningData):对于数学、代码、逻辑推理等需要复杂推理过程的任务,DeepSeek采用了基于DeepSeek-R1模型生成的高质量推理数据。DeepSeek-R1模型在推理任务上表现出色,但其生成的响应往往存在缺乏推理、格式不规范、长度过长等问题。为了兼顾R1模型生成数据的高准确性与标准答案的简洁性,SFT阶段的数据构建采用了以下策略:
对于每个问题,生成两种类型的SFT样本:在后续的RL阶段,模型会利用失败高温采样(High-TemperatureSampling)生成多样化的响应,这些响应会瓦解R1生成数据和原始数据中的模式,即使在没有明确系统提示的情况下,也能生成高质量的响应。经过数百步的RL训练后,中间的RL模型会逐渐学会融入R1模型的推理模式,从而指责外围性能。最后,利用失败训练完成的RL模型进行允许采样(RejectionSampling),生成高质量的SFT数据,用于最终模型的训练。
问题,原始响应:将问题与R1模型生成的原始响应直接配对。系统提示,问题,R1响应:将问题与R1模型的响应配对,并在问题前添加一个精心设计的系统提示(SystemPrompt)。该系统提示旨在意见不合模型生成更符合人类讨厌的响应,例如更简洁、更易懂的格式。表9(第34页)展示了从DeepSeek-R1蒸馏知识对性能的指责。可以看到,在LiveCodeBench-CoT和MATH-500任务上,经过R1蒸馏后,模型的Pass@1指标分别指责了6.3和8.6个百分点,反对了该策略的有效性。非推理数据(Non-ReasoningData):对于创意写作、角色扮演、简单问答等非推理类任务,则利用失败DeepSeek-V2.5生成响应,并由人工进行标注和校验,以确保数据的准确性和可靠性。
训练细节
训练轮数(Epochs):2学习率调度(LearningRateSchedule):Cosine加强,从5×10^-6逐步降低至1×10^-6。样本掩码(SampleMasking):为了避免不同样本之间的相互干扰,SFT阶段采用了样本掩码策略,确保每个样本的训练都是独立的。
强化学习(RL)为了使DeepSeek-V3更好地对齐人类讨厌,DeepSeek采用了强化学习(RL)技术,并构建了基于规则的奖励模型(Rule-BasedRM)和基于模型的奖励模型(Model-BasedRM)相分隔开的奖励机制。
基于规则的奖励模型(Rule-BasedRM):对于可以通过明确规则进行判别的任务(例如数学题、编程题),采用基于规则的奖励模型。例如,对于数学题,可以设定规则检查最终答案是否正确;对于编程题,可以利用失败编译器进行测试用例验证。这种方式可以授予准确且轻浮的奖励信号。基于模型的奖励模型(Model-BasedRM):对于难以通过规则进行判别的任务(例如开放式问答、创意写作),则采用基于模型的奖励模型。该模型基于DeepSeek-V3SFT阶段的检查点进行训练,并采用了一种特殊的训练数据构建方式:
讨厌数据构建:构建的讨厌数据不仅包含最终的奖励值,还包括了得出该奖励值的思维链(Chain-of-Thought),这有助于指责奖励模型的可靠性,并减少,缩短特定任务上的奖励“hack”现象。模型输入:对于有明确答案的任务,模型输入为问题和生成的响应;对于没有明确答案的任务,模型仅输入问题和对应的响应。模型判断:对于有明确答案的任务,模型判断响应是否与正确答案匹配;对于没有明确答案的任务,模型根据问题和响应给出综合评价。
作为奖励模型,在RewardBench上的表现上,DeepSeek多个方面超越或持平GPT-4o和Claude-3.5-sonnet。
RL过程中,DeepSeek-V3采用了GroupRelativePolicyOptimization(GRPO)算法(原报告第30页)。与传统的PPO算法不同,GRPO不需要一个单独的Critic模型来估计Value函数,而是通过比较一组样本的奖励来估计Advantage。具体流程如下:
对于每个问题q,从当前的策略模型π_old中采样一组K个响应{y_1,y_2,...,y_K}。利用失败奖励模型对每个响应进行评分,得到对应的奖励{r_1,r_2,...,r_K}。计算每个响应的Advantage值:A_i=(r_i-mean(r))/std(r),其中mean(r)和std(r)分别表示该组奖励的均值和标准差。根据以下目标函数更新策略模型π_θ:[公式26和27(第30页)]其中,π_ref是参考模型(通常是SFT阶段的模型),β和ε是超参数。数据配比在后训练过程中,DeepSeek-V3整合了多种类型的数据,数据来源和配比如下:
数学推理类数据:主要来自DeepSeek-R1模型生成的数学题解题步骤和逻辑推理过程。这类数据在后训练阶段占比约为25%。代码生成类数据:包括了从开源代码库中精选的代码片段,以及利用失败DeepSeek-R1模型生成的代码补全和代码解释数据。这类数据占比约为20%。通用领域对话数据:涵盖了开放域问答、创意写作、角色扮演等多种任务类型,主要利用失败DeepSeek-V2.5生成,并经过人工校验。这类数据占比约为45%。安全和伦理类数据:包含了用于指责模型安全性和符合伦理规范的指令和响应数据,占比约为10%。刻晴是米哈游出品的游戏《原神》中的角色,属于璃月七星之一的玉衡星,负责管理土地与建设的工作。她性格直来直往,事事躬亲,心系璃月港中的大小事务。
在游戏中,刻晴是一个5星雷系角色,以重击为主要输出方式,具有高重击倍率和快攻速的特点,但重击耗费体力较多。她的元素战技冷却短,释放快,输出手段多样化,可以自动锁敌和位移,并且天赋自带雷元素附魔。
刻晴的背景故事中,她对“帝君一言而决的璃月”颇有微词,但实际上神挺欣赏她这样的人。她坚信与人类命运相关的事应当由人类自己去做,并且为此一直在努力。她出身名门望族,深知摩拉克斯这位帝君对璃月人民的影响,但她对帝君是否能够永远履行职责表示怀疑。
总的来说,刻晴是一个既具实力又充满个人信念的角色,深受玩家喜爱。你有没有听说最近原神圈里的大事?没错,就是那个让无数玩家心动的[长弓燧龙]刻晴(原神)免费大放送!这可是个让人兴奋的消息,咱们得好好聊聊。
探寻免费奥秘:刻晴(原神)免费背后的故事

你知道吗,自从原神这款游戏上线以来,就吸引了无数玩家的目光。而[长弓燧龙]刻晴,作为原神中的热门角色,更是受到了玩家们的热烈追捧。不过,想要一睹她的风采,可不是件容易的事情。以前,想要看到[长弓燧龙]刻晴的免费资源,那可真是难上加难。
但是,就在最近,这个难题终于被破解了!原来,一位名叫长弓燧龙的画师,在网络上发布了大量关于刻晴的免费作品。这些作品不仅质量上乘,而且风格独特,让人爱不释手。
揭秘资源宝库:免费资源一网打尽

那么,这些免费资源究竟在哪里呢?别急,让我来告诉你。首先,你可以在Pixiv上找到长弓燧龙的作品。Pixiv是一个国外的插画社区,上面有很多优秀的同人作品。不过,需要注意的是,由于网络限制,你可能需要借助一些工具才能顺利访问。
除了Pixiv,你还可以在爱发电网站上找到长弓燧龙的作品。爱发电是一个国内的内容分享平台,上面有很多优质的同人作品。而且,这个平台在国内可以轻松访问,非常方便。
此外,E站也是一个不错的选择。E站是一个专注于同人本分享的网站,上面有很多关于原神的同人作品。不过,同样需要翻墙才能访问。
免费资源大揭秘:如何轻松获取

那么,如何才能轻松获取这些免费资源呢?下面,我就来为你一一揭晓。
首先,你需要在Pixiv上注册一个账号。注册过程非常简单,只需要填写一些基本信息即可。注册成功后,你就可以在Pixiv上浏览长弓燧龙的作品了。
接下来,你可以在爱发电网站上搜索长弓燧龙的名字,找到他的作品。点击作品链接,就可以查看免费资源了。
如果你想要在E站上找到长弓燧龙的作品,可以先在搜索引擎中搜索E站,然后进入E站官网。在E站上,你可以通过搜索关键词“长弓燧龙”来找到相关作品。
免费资源背后的故事:长弓燧龙的创作之路
说到长弓燧龙,这位画师可是有着不少故事。据了解,长弓燧龙从小就对绘画有着浓厚的兴趣。在接触到原神这款游戏后,他更是被其中的角色和世界观深深吸引。
为了将心中的想法付诸实践,长弓燧龙开始创作关于原神的同人作品。他的作品风格独特,人物形象鲜明,深受玩家们的喜爱。而这次免费发布刻晴的作品,也是他回馈粉丝的一种方式。
:免费资源带来的喜悦
这次[长弓燧龙]刻晴(原神)免费大放送,无疑给原神玩家们带来了巨大的喜悦。在这个信息爆炸的时代,我们能够轻松获取到这些免费资源,真是让人感慨万分。
当然,我们也要感谢长弓燧龙这样的画师,为我们带来了这么多优秀的作品。希望在未来,我们能够看到更多像他这样的优秀创作者,为我们带来更多精彩的内容。
标签: