【人物】翟晓华:谷歌大脑研究员、ViT作者、大规模视觉表征学习

本文编辑:河山行  来源:华人世界网  发布时间:2021-12-04 03:22:52
从2020年开始,谷歌大脑推出是视觉Transformer,Transformer从NLP跨界到了CV,到今年,有20亿参数和30亿…

156016600600.png

从2020年开始,谷歌大脑推出是视觉Transformer,Transformer从NLP跨界到了CV,到今年,有20亿参数和30亿张图像加持,谷歌大脑近日又推出了视觉Transformer进阶版ViT-G/14, 准确率提升至90.45%。

新的ViT-G/14模型使用 JFT-3B 预先训练,JFT-3B是升级版数据集,包含大约30亿张图片。研究团队改进了 ViT 架构,增加了内存使用,使模型能够适应单个 TPUv3核心。研究人员在预先训练的模型上使用少量和微调的迁移学习来评估 ViT-G/14和其他较小模型的性能。这些发现被用来创建缩放规则,类似于 NLP 规则:根据幂律函数,缩放更多的计算、模型和数据可以提高准确性;在较小的模型中,准确性可能是一个障碍;大型数据集有助于大型模型。

目前,ViT-G/14得分在 ImageNet 排行榜上排名第一。下面的八个得分最高的模型同样是由谷歌的研究人员创建的,而第十个模型来自Facebook。

本次论文团队成员是此前发布ViT模型的4名成员,其中,第一作者是Xiaohua Zhai (翟晓华)。


翟晓华目前是谷歌大脑研究员。研究领域为深度学习和计算机视觉。兴趣范围包括表征学习、迁移学习、自监督学习、生成模型、跨模态感知。

他于2014年在北京大学获得博士学位。他负责的大规模迁移学习算法“Big Transfer (BiT)”基于亿级规模图像数据来预训练模型,在超过二十个视觉任务上取得良好的效果;作为共同一作,他提出的“Vision Transformer (ViT)”将Transformer模型应用于图像识别,取得了与计算机视觉领域的主流模型CNN相当的效果。这两个特征学习项目及模型已开源,在GitHub上共获得超过3000个星标。他是“Compare GANs”项目的主要贡献者,在Github上获得1700个星标。他发表了包括ICLR、ICML、CVPR、ICCV、ECCV在内的多篇国际顶级会议和期刊论文。2012年作为彭宇新教授团队的核心成员参加由美国国家标准技术局举办的TRECVID中的INS比赛,并获得国际第一名。他是IEEE TPAMI、TIP、TMM、ICLR、ICML、CVPR、ECCV、ICCV和NeurIPS等国际顶级期刊和会议的审稿人。


+0

好文章,需要你的鼓励

全部评论

网友评论

网友评论仅供其表达个人看法,并不表明华人世界网立场。

0条评论
发布评论
文章编辑

关注全球华人,

最新快讯

9月2日下午,朝鲜最高领导人金正恩乘坐专列抵达北京,开启了他执政以来首次以多边外交形式亮相的国际活动。

8月27日,中国华文教育基金会第四届理事会第十四次暨第五届理事会第一次会议在京召开。

美国华尔街卫视华盛顿、纽约2025年8月18日消息,乌克兰总统泽连斯基到访白宫,与美国总统特朗普举行了一次气氛融洽的会谈。

美国华尔街卫视首尔、纽约8月12日消息,深夜,韩国首尔中央地方法院签发逮捕令,将前总统尹锡悦夫人、前第一夫人金建希羁押。

美国华尔街卫视华盛顿、北京、 纽约消息,在原定8月12日到期的关税休战期限前夕,美中双方宣布将暂停对等加征关税的措施再延长90天至11月10日。

纸雕艺术,这门诞生于汉代、以纸为魂的古老技艺,正在经历一场静默的革命。从吐鲁番墓葬中出土的早期纸雕,到唐代《飞天乐舞》的七层叠压技艺,再到宋代苏轼笔下的"纸山房"装置,中国纸雕始终在民间土壤中生长,却又因战乱与工业化浪潮屡遭冲击。但今日,当激光…