【人物】翟晓华:谷歌大脑研究员、ViT作者、大规模视觉表征学习

本文编辑:河山行  来源:华人世界网  发布时间:2021-12-04 03:22:52
从2020年开始,谷歌大脑推出是视觉Transformer,Transformer从NLP跨界到了CV,到今年,有20亿参数和30亿…

156016600600.png

从2020年开始,谷歌大脑推出是视觉Transformer,Transformer从NLP跨界到了CV,到今年,有20亿参数和30亿张图像加持,谷歌大脑近日又推出了视觉Transformer进阶版ViT-G/14, 准确率提升至90.45%。

新的ViT-G/14模型使用 JFT-3B 预先训练,JFT-3B是升级版数据集,包含大约30亿张图片。研究团队改进了 ViT 架构,增加了内存使用,使模型能够适应单个 TPUv3核心。研究人员在预先训练的模型上使用少量和微调的迁移学习来评估 ViT-G/14和其他较小模型的性能。这些发现被用来创建缩放规则,类似于 NLP 规则:根据幂律函数,缩放更多的计算、模型和数据可以提高准确性;在较小的模型中,准确性可能是一个障碍;大型数据集有助于大型模型。

目前,ViT-G/14得分在 ImageNet 排行榜上排名第一。下面的八个得分最高的模型同样是由谷歌的研究人员创建的,而第十个模型来自Facebook。

本次论文团队成员是此前发布ViT模型的4名成员,其中,第一作者是Xiaohua Zhai (翟晓华)。


翟晓华目前是谷歌大脑研究员。研究领域为深度学习和计算机视觉。兴趣范围包括表征学习、迁移学习、自监督学习、生成模型、跨模态感知。

他于2014年在北京大学获得博士学位。他负责的大规模迁移学习算法“Big Transfer (BiT)”基于亿级规模图像数据来预训练模型,在超过二十个视觉任务上取得良好的效果;作为共同一作,他提出的“Vision Transformer (ViT)”将Transformer模型应用于图像识别,取得了与计算机视觉领域的主流模型CNN相当的效果。这两个特征学习项目及模型已开源,在GitHub上共获得超过3000个星标。他是“Compare GANs”项目的主要贡献者,在Github上获得1700个星标。他发表了包括ICLR、ICML、CVPR、ICCV、ECCV在内的多篇国际顶级会议和期刊论文。2012年作为彭宇新教授团队的核心成员参加由美国国家标准技术局举办的TRECVID中的INS比赛,并获得国际第一名。他是IEEE TPAMI、TIP、TMM、ICLR、ICML、CVPR、ECCV、ICCV和NeurIPS等国际顶级期刊和会议的审稿人。


+0

好文章,需要你的鼓励

全部评论

网友评论

网友评论仅供其表达个人看法,并不表明华人世界网立场。

0条评论
发布评论
文章编辑

关注全球华人,

最新快讯

浙江省第十一次归侨侨眷代表大会近期在杭州举办。省委书记、省人大常委会主任王浩,中国侨联党组成员、副主席高峰出席开幕式并讲话。省委副书记、省长刘捷,省政协主席廉毅敏出席。

灾难无情,人间有爱,侨资企业金鹰集团心系香港同胞,集团旗下企业维达公司于12月2日通过中国华文教育基金会向香港“大埔宏福苑援助基金”捐款1000万支持香港政府火灾救援和善后工作。

特朗普第二任期发动的主要目标对准中国的关税大战暂定休战一年,把美国打回到原点。中国完胜。我认为决定因素有二,一是高层的胆略智慧毅力谋略,二是中国的综合实力。综合实力中,有一张王牌,就是稀土。中国稀土之父,是北京大学化学系的教授徐光宪和高小霞夫妇。他们创…

中美元首在韩国会晤中“对话比对抗好”的态度,体现了中国以战略定力化解冲突、以务实合作寻求共赢的智慧,为双边关系注入稳定性,为全球治理提供示范,并推动亚太地区经济合作迈向新高度。一、战略定力:以对话化解对抗,为双边关系注入稳定性直面经贸摩擦,以对话破局:…

这将是特朗普第二任期以来,中美两国元首首次面对面的战略沟通。在韩国举行的“特习会”上,中美两国领导人再度展开对话,为全球局势注入理性与共识的积极信号。

美国华尔街卫视、华人世界网华盛顿、纽约2025年10月22日消息,美国财政部长贝森特22日宣布,对俄罗斯最大的两家石油企业——俄油公司(Rosneft)与卢克石油公司(Lukoil)实施新一轮全面制裁,并呼吁俄罗斯与乌克兰立即停火。