【人物】翟晓华:谷歌大脑研究员、ViT作者、大规模视觉表征学习

本文编辑:河山行  来源:华人世界网  发布时间:2021-12-04 03:22:52
从2020年开始,谷歌大脑推出是视觉Transformer,Transformer从NLP跨界到了CV,到今年,有20亿参数和30亿…

156016600600.png

从2020年开始,谷歌大脑推出是视觉Transformer,Transformer从NLP跨界到了CV,到今年,有20亿参数和30亿张图像加持,谷歌大脑近日又推出了视觉Transformer进阶版ViT-G/14, 准确率提升至90.45%。

新的ViT-G/14模型使用 JFT-3B 预先训练,JFT-3B是升级版数据集,包含大约30亿张图片。研究团队改进了 ViT 架构,增加了内存使用,使模型能够适应单个 TPUv3核心。研究人员在预先训练的模型上使用少量和微调的迁移学习来评估 ViT-G/14和其他较小模型的性能。这些发现被用来创建缩放规则,类似于 NLP 规则:根据幂律函数,缩放更多的计算、模型和数据可以提高准确性;在较小的模型中,准确性可能是一个障碍;大型数据集有助于大型模型。

目前,ViT-G/14得分在 ImageNet 排行榜上排名第一。下面的八个得分最高的模型同样是由谷歌的研究人员创建的,而第十个模型来自Facebook。

本次论文团队成员是此前发布ViT模型的4名成员,其中,第一作者是Xiaohua Zhai (翟晓华)。


翟晓华目前是谷歌大脑研究员。研究领域为深度学习和计算机视觉。兴趣范围包括表征学习、迁移学习、自监督学习、生成模型、跨模态感知。

他于2014年在北京大学获得博士学位。他负责的大规模迁移学习算法“Big Transfer (BiT)”基于亿级规模图像数据来预训练模型,在超过二十个视觉任务上取得良好的效果;作为共同一作,他提出的“Vision Transformer (ViT)”将Transformer模型应用于图像识别,取得了与计算机视觉领域的主流模型CNN相当的效果。这两个特征学习项目及模型已开源,在GitHub上共获得超过3000个星标。他是“Compare GANs”项目的主要贡献者,在Github上获得1700个星标。他发表了包括ICLR、ICML、CVPR、ICCV、ECCV在内的多篇国际顶级会议和期刊论文。2012年作为彭宇新教授团队的核心成员参加由美国国家标准技术局举办的TRECVID中的INS比赛,并获得国际第一名。他是IEEE TPAMI、TIP、TMM、ICLR、ICML、CVPR、ECCV、ICCV和NeurIPS等国际顶级期刊和会议的审稿人。


+0

好文章,需要你的鼓励

全部评论

网友评论

网友评论仅供其表达个人看法,并不表明华人世界网立场。

0条评论
发布评论
文章编辑

关注全球华人,

最新快讯

6月30日上午,2025海南高等教育创新发展国际论坛新闻发布会在海南三亚学院成功举办。

携218道石间珍馐震撼登场!每一块奇石未经任何人工雕琢,却以浑然天成的形态,将“从猪头到猪尾,从烧烤到蒸煎”的烟火气息凝固成永恒的艺术,堪称自然与人文碰撞的旷世奇迹。

2025年6月27日消息,美国最高法院以6比3作出关键性裁决,认定下级法院无权对特朗普政府废除“出生公民权”的行政命令颁布全国性禁令,仅可就参与诉讼的州(市)发出限制。这一判决被特朗普总统称为“具有历史意义的胜利”,也引发新一轮法律与政治博弈。

以色列与伊朗达成历史性停火协议,结束了12天的激烈冲突。

美国首次对伊朗境内战略核心目标发动直接军事打击,引发全球高度警觉。美伊敌对关系骤然升温,中东局势再度临近爆点。

“午夜之锤”的绝密战略打击行动,对伊朗福尔多、纳坦兹、伊斯法罕三大浓缩铀核设施实施了自“911”以来最复杂、最远程、最精准、最具胆识的军事突袭。