华为开源预训练语言模型「哪吒」编码、掩码升级提升多项中文NLP任务性能!

雷锋网 AI 开发者按:一个月前,在「AICon 全球人工智能与机器学习技术大会」上,华为诺亚方舟实验首席科学家刘群刚分享了新发布的中文预训练语言模型 NEZHA(哪吒);就在这两天,NEZHA 已在 Github 上开源,同时开源的还有压缩 BERT 模型「TinyBERT」,它在推理时大小可缩小 7.5 倍,并且速度加快 9.4 倍。

可以看到的是近两年预训练模型的发展非常快速,从 Word2Vec 到 ULMFiT、CoVe 再到 BERT、XLNET 等,都各有特点且在不断完善中。聚焦于「多项中文 NLP 任务性能」的 NEZHA 也有亮眼的性能升级。在此,雷锋网 AI 开发者将 NEZHA 详细内容及 TinyBERT 相关地址整理如下。

预训练语言模型研究结果

实验通过对各种自然语言理解(NLU)任务进行微调来测试预训练模型的性能,并将 NEZHA 模型和最先进的汉语预训练语言模型:谷歌 BERT(汉语版),BERT-WWM 以及 ERNIE 进行了对比(详细参数见论文),最终结果如下:

11月份猪肉价格已经出现了一定回落,但即将迎来元旦和春节的消费旺季,猪肉价格的走势会怎样?对CPI会带来什么样的影响?对此,付凌晖介绍,11月CPI同比上涨4.5%,主要是受食品价格等结构性影响。当月食品价格上涨超过10%,猪肉价格同比上涨了1.1倍,猪肉价格对食品价格的影响在六成左右。

NEZHA 预训练模型则采用了函数式相对位置编码,其输出与注意力得分的计算涉及到他们相对位置的正弦函数,这一灵感正是来源于 Transformer 的绝对位置编码,而相对位置编码则解决了在 Transformer 中,每个词之间因为互不知道相隔的距离引发的一系列资源占用问题。

能防!——综合安防。华为云智慧园区沃土数字平台如同“天罗地网”,可打通视频监控、消防、门禁、周界等系统,实现消防应急处置,人、事、物联动指挥,发挥1+1>2的威力;更有“智能摄像头+AI算法”的这样的“神仙组合”,实现重点区域的财产安全保障、黑名单人员的告警布控、车辆的轨迹可视等监测,防止人员入侵。

因此,物流行业智能升级成为大势所趋。

11月20日晚间,腾讯财经官方微博称,部分区块链媒体被微信封号,其中包括:深链Deepchain、币圈邦德、壹块硬币、炒币学堂等。封停界面显示理由为:由用户投诉并经平台审核,涉嫌违反相关法律法规和政策,账号已被停止使用。

记者第一时间联系何一,询问其是否了解被封原因,是否解封。

华为云“牵手”物流企业革新未来

而 NEZHA 预训练模型,则采用了全词覆盖(WWM)策略,当一个汉字被覆盖时,属于同一个汉字的其他汉字都被一起覆盖。该策略被证明比 BERT 中的随机覆盖训练(即每个符号或汉字都被随机屏蔽)更有效。

首先是核心优势,即入局带来了关乎方方面面的新概念、新观念。一方面,华为云带来的技术层面的革新改善了传统物流企业当中难以成网、难以规模化等问题,特别是在多种运输方式和仓储方式相互衔接、相互作用的前提下;另一方面,其打破了原有计划经济体制下各种条件的不足,包括条条框框的政策限制以及落后的基础设施。这使物流企业在市场的话语权开始提升、议价能力不断增强。

波场TRON区块链官方微博回应“孙宇晨微博被封号”称,我们与微博有直接的沟通管道,会尽快沟通解决。同时,公布了孙宇晨新的微博账号。

预训练语言模型本质上,就是神经网络语言模型。它主要有两个特点,即:可以使用大规模无标注纯文本语料进行训练,以及可以用于各类下游 NLP 任务,各项性能指标均获得大幅度提高,并可以将各类下游任务的解决方案统一简化为集中固定的 fine-tune 框架。

LAMB 优化器则不需要手动调整学习速率,而是采用了一种通用的自适应策略。优化器通过使用非常大的批量处理大小(实验中高达 30k 以上)来加速 BERT 的训练,而不会导致性能损失,甚至在许多任务中获得最先进的性能。值得注意的是,BERT 的训练时间最终从 3 天显著缩短到 76 分钟。

而在模型方面,他们选择在内部重现了 Google Bert-base 和 Bert-large 的实验;利用 BERT 的代码,实现了 OpenAI GPT-2 模型;实现基于 GPU 多卡多机并行训练,并且对训练过程进行了优化,提高训练效率,最终得到了「多中文 NLP 任务」预训练模型 NEZHA。

各个环节对于技术、系统、装备的需要是迫切的。而物流企业因还需肩负扩充与完善物流网络、提高“收转运派”各个环节的效率、降低成本等重担,通常很难将技术做大、做扎实,并深入应用至每一个环节。此时,一家既深入了解物流企业诉求,又能实时跟进技术的研发、革新,以此帮助物流企业的合作伙伴便显得尤为重要。华为云为物流业提供的一揽子解决方案就诞生了。

“按照高质量发展的要求,如果就业比较充分,物价保持稳定,居民收入持续增加,生态环境在改善,发展质量和效益在提高,经济增速高一点或者低一点,只要符合发展阶段的要求,我觉得都是可以接受的。”付凌晖说。

何一对《每日经济新闻》记者表示:“接到了微博的客服电话通知投诉被封号,还不了解原因。”

有面!——便捷通行。依靠人脸识别闸机,实现“无感知”畅行园区,提升员工与访客体验,让管理效率更进一步。

预训练语言模型通常有两个大类型。一类是 Encoder,用于自然语言理解,输入整个文章,用于自然语言理解;另一类是 Decoder,是解码式的,用于自然语言生成,只能来看到已经生成的内容,看不到没有生成的内容,这两类模型有所区别。

从上述场景中,我们不难看出应对大促时节,各平台内的商家、物流园等依旧很难摆脱手忙脚乱最终忙中出错的情况。而站在行业的角度,我们看到的则是在仓储、运输、配送等各个环节,物流业依然面临着人力成本高、运营效率低下,应变订单“几何式”增长时,暴力分拣、疏忽错漏、无视细节等诸多问题。

华为深耕ICT技术领域30多年,将所积累的技术、实战经验投入到与合作企业共同开发中去,并致力于将更多的物流技术“渗透”到更加复杂、多样的业务应用场景中,在提升消费者的服务体验的同时,为加速智慧物流的发展注入数字化的动力。

针对明年国内GDP增速是否应该保持6%,付凌晖表示,只要符合发展阶段的要求,高一点或者低一点都可以接受。

付凌晖说,同时也应该看到,目前国际环境比较复杂,仍然存在经济下行压力。接下来要按照中央部署,推动创新驱动发展,推动经济持续健康平稳发展。

 BERT 中的随机覆盖

创立于2017年的「AI最佳掘金案例年度榜单」,是业内首个人工智能商业案例评选活动。雷锋网从商用维度出发,寻找人工智能在各个行业的最佳落地实践。

@唯唯:“双11”买了一套餐具、一套待客用的茶杯,收到后发现碗碎了三个,有两个杯子把手断了。对于易受温度影响、品质易受到外界损害的商品,物流公司其实并没有尽到妥善包装、存储、运输的责任。

首先,海量物流单据的处理,一定程度上影响整体物流的效率。大促时节,订单数量几何式增长,物流数据、单据亦爆发式增多,若不能做到及时处理,在前端便给包裹运输造了一个高高的“门槛”。

付凌晖还提醒,我国消费前景非常广阔,居民收入进一步增长,消费能力在增强。同时,就业稳定、社会保障范围扩大和鼓励消费的举措,也有利于稳定消费预期,促进消费增长。

随着“5G+云+AI”等新技术与产业的融合更加紧密,物流业的智能化、数字化、自动化、无人化升级将为物流业乃至整个供应链条上每一个业务环节的锻造提供助力。

中美经贸协议对经济走势有何影响?

澳门特别行政区政府经济财政司司长办公室顾问、粤澳合作中医药科技产业园董事长兼行政总裁吕红表示,该中心有助于解决包括澳门在内的医疗机构中药制剂研发人才短缺、条件欠缺等问题,完善粤港澳大湾区医疗制剂在研发、配置等方面的不足,提升研发质量。(完)

尽管这一预训练模型 NEZHA 的名称听起来有些匪夷所思,但它的开发者们将其视为「无所不能,可以解决不同任务」的寓意。在这个模型中,除了之前提到的重现、多卡多机并行训练之外,主要有两项改进,即:函数式相对位置编码与全词覆盖的实现。

猪肉价格走势会怎样?

从市场需求的演变、业态融合发展的趋势以及消费者更加注重体验等进行分析,市场越来越需要柔性化、敏捷化、可定制化的物流生产模式。传统的技术手段与人工模式的交互难以满足当下用户的多样需求,而新兴技术在物流业亦更是亟待加速落地与更为深度的交互式融合。

早在去年8月份,微信已经进行了一次大规模“封杀”,一批区块链知名自媒体被封停。彼时,腾讯方面对外表示,部分公众号涉嫌发布ICO和虚拟货币交易炒作信息,违反《即时通讯工具公众信息服务发展管理暂行规定》,已被责令屏蔽所有内容,账号被永久封停。

新京报讯 国务院新闻办公室昨日上午举行新闻发布会,介绍2019年11月份国民经济运行情况。国家统计局新闻发言人付凌晖就第四季度经济运行预期表示,11月主要经济指标出现积极变化,实现全年预期增长目标有基础、有条件。

付凌晖说,同时也要看到新消费业态对于增长的带动作用,要看到消费领域新的特点。例如,消费升级在持续,化妆品、娱乐用品等类别消费增长较快。消费正在从实物消费为主向服务型消费转变,服务型消费已占到50%左右,保持两位数增长。

再次,商业决策缺乏数据的支撑。其无法满足快速决策支持,及时掌握运营情况需求;无法满足物流轨迹分析,生命周期的跟踪与分析、运输路径优化、仓储优化、运营分析。

华为云作为物流行业的“外来客”,以技术手段对物流各个环节予以技术加持。其在解决方案的细化、技术革新的速度以及投放精准程度等更凸显了其存在的意义与价值。

1-11月实物商品网上零售额占比同比提高2.2个百分点

依托人工智能、区块链、云计算、大数据、5G等先进技术,加速物流及供应链等多产业的融合,在一定程度上为行业带来了整体效率的提高、成本的降低。但随着电子商务的繁荣以及电商大促愈加频繁,不同批量和频次的多种多样的物流运输需求持续扩大,物流碎片化特征亦越来越明显,物流业依旧面临着前所未有的挑战。当然,最终结果也只能是诸多消费者的不满情绪的累积,只是这一情绪有无爆发点,尚不得而知。

更直观来看,github 上来自清华大学的两位同学——王晓智和张正彦(在读本科生)整理的一份关于预训练模型的关系图,则可以从功能方面更简单明了的帮我们理解该类模型类别。

付凌晖说,中国经济目前已经从过去的高增长,转变为与高质量发展要求相适应的中高速增长。中国经济发展阶段已经发生了很大变化,未来将从高投入和高消耗为特征的增长,转变为以提高质量和效益为特征的发展阶段,这意味着经济增速不会像过去那样高。

从这些情况来看,中国经济运行还是保持了总体平稳、稳中有进的发展态势。这充分体现出在国际环境复杂严峻的条件下,中国经济确实具有强大的韧性、潜力和回旋空间,也说明了中国经济稳中向好、长期向好的基本趋势没有改变。

具体而言,Transformer 最早只考虑了绝对位置编码,而且是函数式的;后来 BERT 的提出就使用了参数式,而参数式训练则会受收到句子长度的影响,BERT 起初训练的句子最长为 512,如果只训练到 128 长度的句子,在 128~520 之间的位置参数就无法获得,所以必须要训练更长的语料来确定这一部分的参数。

当然,这只是华为云颇具优势的一站式解决方案的冰山一角。未来,顺丰DHL还将与华为云持续合作,致力探索创新智慧物流解决方案,引领物流行业数字化转型。

——国家统计局新闻发言人付凌晖

11月市场销售增速加快,实物商品网上零售占比继续提高,社会消费品零售总额同比增长8.0%。这也是经过4个月调整之后再回到8%。

传统的深度神经网络训练使用 FP32(即单精度浮点格式)来表示训练中涉及的所有变量(包括模型参数和梯度);而混合精度训练在训练中采用了多精度。具体而言,它重点保证模型中权重的单精度副本(称为主权重),即在每次训练迭代中,将主权值舍入 FP16(即半精度浮点格式),并使用 FP16 格式存储的权值、激活和梯度执行向前和向后传递;最后将梯度转换为 FP32 格式,并使用 FP32 梯度更新主权重。

珠海市中西医结合医院院长刘志龙表示,打造一支高素质的科研团队、建设一个高规格的院内中药制剂生产基地已成为了珠海市中医药发展的现实需要。

而根据研究结果显示,近年来的模型大多将重心落到了数据与算力部分。与早期的 ResNet(视觉模型)模型参数相比,数据显示 GPT1 为 100M,BERT large 为 340M,GPT2 为 1.5BN,GPT-2 8B 为 8.3BN。

而这个崭新的智慧园区究竟“智”在哪?“新”在哪?又为行业提供了哪些全新的发展思路呢?

位置编码有函数式和参数式两种,函数式通过定义函数直接计算就可以了。参数式中位置编码涉及两个概念,一个是距离;二是维度。其中,Word Embedding 一般有几百维,每一维各有一个值,一个位置编码的值正是通过位置和维度两个参数来确定。

“从未来的情况来看,生猪供应恢复可能还需要一段时间,价格高位运行也可能会持续一段时间。”付凌晖说,但食品价格稳定有很好的条件和基础。随着一系列支持生猪生产政策的见效,猪肉价格逐步企稳甚至回落还是可以预期的。

其次,要降低货损货差率。在仓配运输等环节,由于配载不合理、收货把关不严、装卸不当、机械化程度不高等将造成货损货差率过高,对于一些特殊货物处理不能严格把关,势必会为消费者造成不好的体验。

图中列出了 BERT、GPT、XLNet、ERNIE 等模型以及它们之间的关系,并拟出了一份相关的论文列表。列表把预训练模型主要分为了三个部分,包括:模型、知识蒸馏与模型压缩。按照这样的分类,TinyBERT 模型则可以归类为「知识蒸馏与模型压缩」部分;NEZHA 则归为「模型」部分。

11月13日晚间,币安虚拟货币交易所官方微博账号被微博官方屏蔽,显示该账号被投诉违反法律法规和《微博社区公约》,具体内容已经无法查看。

只要符合发展阶段的要求,高一点低一点都可以接受

高位运行可能持续一段时间,价格逐步企稳甚至回落可预期

最后是信息优势。包括大数据、云计算、人工智能、互联网、物联网,甚至未来的窄带物联网等。华为云对于信息的感知、决策的支持以及操作执行方面拥有一种强大、完整的系统创新能力。这均使物流行业在技术层面上获得了质的飞跃。

三头六臂 NEZHA(哪吒)

@半岛:我是在11月30号才收到了迟来的商品。下单三天后货物发出,但在武汉某中转站一待就是20多天。我只想知道货物究竟在哪个环节出了问题?

付凌晖说,中国和美国目前是世界上最大的两个国家,中美之间经济互补性强,相互合作对中美和世界都有利。目前双方就第一阶段经贸协议文本达成了一致,降低了市场的不确定性,对于增强市场信心、促进经贸发展有积极意义。在世界经贸增长放缓的大背景下,希望双方在相互尊重、平等互利的基础上持续推进磋商,逐步分阶段取消甚至全部取消加征关税,为世界经济增长贡献更多力量。

降低了市场的不确定性,有利于增强市场信心、促进经贸发展

在 NEZHA 模型的预训练中,研究者采用了混合精度训练技术。该技术可以使训练速度提高 2-3 倍,同时也减少了模型的空间消耗,从而可以利用较大的批量。

当然,随着未来产业结构的调整、经济运行态势的变化,还会有消费新需求、新特征的出现。华为云将力求实现低成本、高效率地精准对接供给,同时形成规模化效应,不惧挑战,直面未来。

明年GDP增速是否“保6”?中美经贸协议对经济走势有何影响?“两节”将至,猪肉价格还会涨吗?“双十一”对消费拉动有多大?国家统计局昨日对这些热点问题予以回应:GDP增速“只要符合发展阶段的要求,高一点或者低一点都可以接受。”“随着一系列支持生猪生产政策的见效,猪肉价格逐步企稳甚至回落还是可以预期的。” “1-11月份,全国城镇新增就业1279万人,完成全年目标任务的116.3%。”国家统计局表示,实现全年预期增长目标有基础、有条件。

——泊位管理。使用NB-IoT技术,以低功耗、广覆盖、速率快的特点实时上报园区泊位状态,从此摆脱“人力站岗”。通过“智慧园区数字平台”“华为公有云IoT云服务”“顺丰DHL园区泊位管理应用”三者强强联手,在PC端、货车司机APP、现场作业人员APP同步信息,实现泊位状态可视化、业务流程数字化以及现场调度智能化。而经实际部署发现,供应商卸货平均效率直升29%;系统自动分配泊位,人力成本直降15%。

三、混合精度训练及 LAMB 优化器

而在 NEZHA 模型中,距离和维度都是由正弦函数导出的,并且在模型训练期间是固定的。也就是说,位置编码的每个维度对应一个正弦,不同维度的正弦函数具有不同的波长,而选择固定正弦函数,则可以使该模型具有更强的扩展性;即当它遇到比训练中序列长度更长的序列时,依然可以发挥作用。函数式相对位置编码公式,如下图所示:

国家统计局介绍11月份国民经济运行情况,回应热点问题:“双十一”购物节对网上零售拉动明显

行业漏洞曝光于大促之下

其次是资本优势。华为云这类的创新型企业,资本实力较强,自身造血能力与引资能力十分强悍。这也使其因具备丰沛的资金流,可以更好地保证物流行业与其他行业之间的产业融合发展。

明年GDP增速是否“保6”?

会管!——智能运营中心。多系统集成联动,为统一的Portal和大屏,面向管理者/决策者提供物流园区的总体数字化运营分析服务;同时,业务的关键KPI量化呈现,告别“盲人猜象”,诸多数据皆可一眼知悉。最终实现人员、车辆、泊位、仓库等要素资源全局统一运营管理。

据悉,顺丰DHL供应链中国(以下简称“顺丰DHL”)联合华为云展开了一系列解决当下痛点的行动。以康桥物流园区为孵化场,借助华为云智慧园区沃土数字平台以及全栈ICT技术能力,结合顺丰DHL物流行业积累和创新实践,全方位合作,一片智慧新园区便展现在大众眼前。

付凌晖表示,面对猪肉价格上涨,一方面推动扩大生产,比如增加生猪生产、扩大规模化养殖,逐步推动各地取消不合理的禁养限养措施,已经见到一些积极变化,11月当月猪肉价格环比涨幅已经出现了回落。另一方面,相关部门也在积极增加猪肉进口,向市场投放储备猪肉,对于平抑物价也发挥了重要作用。

雷锋网原创文章,。详情见转载须知。

“双十一”对社会消费品零售是否有明显拉动作用?付凌晖说,“双十一”购物节对网上零售拉动明显,1-11月份,全国网上零售额94958亿元,实物商品网上零售额76032亿元,增长19.7%,占社会消费品零售总额的比重为20.4%,比上年同期提高2.2个百分点。

针对中美经贸协议对中国经济的走势会有哪些影响,付凌晖表示,中美就第一阶段经贸协议文本达成一致对促进经贸发展有积极意义,希望能逐步分阶段取消甚至全部取消加征关税。

在 NEZHA 的 WWM 实现中,研究者使用了一个标记化工具 Jieba2 进行中文分词(即寻找中文单词的边界)。在 WWM 训练数据中,每个样本包含多个覆盖汉字,覆盖汉字的总数约占其长度的 12%,随机替换的占 1.5%,尽管这样预测整个词运算难度有所增加,但最终取得的效果更好。

最后,物流仓储的智能化程度不够。在整个仓库管理中,人工盘点货物等易造成误差,单一作业个体将严重影响效率与服务质量的提升。

——仓储资产管理。一些仓储中的资产(叉车、托盘等),现可通过RFID标签收集仓储资产运营状态和位置信息,就像使用二维码付款一样,直接一扫便能轻松搞定。之后通过华为云服务,将数据上报至园区沃土数字平台;再利用AI、大数据分析等技术,实现海量数据的价值挖掘,识别价值应用。

LAMB 优化器则是为专为深度神经元网络的大批量同步分布训练而设计。尽管大小批量 DNN 训练是加快 DNN 训练速度的有效方法,但是如果不仔细调整学习速率的调度,当批量处理的大小超过某个阈值时,模型的性能可能会受到很大影响。

可以看到,NEZHA 在大部分情况下,都取得了相较更好的性能;尤其在 PD-NER 任务下,NEZHA 最高达到了 97.87 分。另一个表现较亮眼的模型还有 ERNIE Baidu 2.0,颇有超越 NEZHA 的趋势。关于这个情况,论文中作者也解释到,由于实验设置或微调方法可能存在差异,比较可能不完全公平,之后其它模型新版发布后,他们将在相同的设置下对其进行评估并更新此报告。

那么,从各个物流环节角度切入,进行技术的投放使用、深入更加细枝末节的领域,是否能带来改变?

“双十一”对消费拉动有多大?

12月12日晚间,波场创始人孙宇晨和币安联合创始人何一的微博账号疑似被关闭,相关页面显示该账号因被投诉违反法律法规和《微博社区公约》的相关规定,现已无法查看。

值得一提的是,在此前多家币圈公众号、微博账号被封。

技术优势凸显高阶价值

事实上,华为云作为国内领先的云服务厂商,其与物流企业存在一种优势互补的关系。不单是科技赋能传统物流行业,科技型企业所研发出来的优质技术、装备等产品也亟待实际应用场景的落地。而从事互联网以及创新应用方面的企业更多的是通过诞生相应的“产品”来进行物流领域的布局,从而实现整个供应链的降本增效,华为云给物流业的解决方案就是一个很好的例子。

雷锋网(公众号:雷锋网)年度评选——寻找19大行业的最佳AI落地实践

一、函数式相对位置编码

现在的神经网络模型无论是在语言模型还是机器翻译任务中,都会用到一个词表;而在 Softmax 时,每个词都要尝试比较一下。每次运算时,所有词要都在词表中对比一遍,往往一个词表会包含几万个词,而机器翻译则经常达到六七万个词,因此,词表是语言模型运算中较大的瓶颈。