【人物】翟晓华:谷歌大脑研究员、ViT作者、大规模视觉表征学习

本文编辑:河山行  来源:华人世界网  发布时间:2021-12-04 03:22:52
从2020年开始,谷歌大脑推出是视觉Transformer,Transformer从NLP跨界到了CV,到今年,有20亿参数和30亿…

156016600600.png

从2020年开始,谷歌大脑推出是视觉Transformer,Transformer从NLP跨界到了CV,到今年,有20亿参数和30亿张图像加持,谷歌大脑近日又推出了视觉Transformer进阶版ViT-G/14, 准确率提升至90.45%。

新的ViT-G/14模型使用 JFT-3B 预先训练,JFT-3B是升级版数据集,包含大约30亿张图片。研究团队改进了 ViT 架构,增加了内存使用,使模型能够适应单个 TPUv3核心。研究人员在预先训练的模型上使用少量和微调的迁移学习来评估 ViT-G/14和其他较小模型的性能。这些发现被用来创建缩放规则,类似于 NLP 规则:根据幂律函数,缩放更多的计算、模型和数据可以提高准确性;在较小的模型中,准确性可能是一个障碍;大型数据集有助于大型模型。

目前,ViT-G/14得分在 ImageNet 排行榜上排名第一。下面的八个得分最高的模型同样是由谷歌的研究人员创建的,而第十个模型来自Facebook。

本次论文团队成员是此前发布ViT模型的4名成员,其中,第一作者是Xiaohua Zhai (翟晓华)。


翟晓华目前是谷歌大脑研究员。研究领域为深度学习和计算机视觉。兴趣范围包括表征学习、迁移学习、自监督学习、生成模型、跨模态感知。

他于2014年在北京大学获得博士学位。他负责的大规模迁移学习算法“Big Transfer (BiT)”基于亿级规模图像数据来预训练模型,在超过二十个视觉任务上取得良好的效果;作为共同一作,他提出的“Vision Transformer (ViT)”将Transformer模型应用于图像识别,取得了与计算机视觉领域的主流模型CNN相当的效果。这两个特征学习项目及模型已开源,在GitHub上共获得超过3000个星标。他是“Compare GANs”项目的主要贡献者,在Github上获得1700个星标。他发表了包括ICLR、ICML、CVPR、ICCV、ECCV在内的多篇国际顶级会议和期刊论文。2012年作为彭宇新教授团队的核心成员参加由美国国家标准技术局举办的TRECVID中的INS比赛,并获得国际第一名。他是IEEE TPAMI、TIP、TMM、ICLR、ICML、CVPR、ECCV、ICCV和NeurIPS等国际顶级期刊和会议的审稿人。


+0

好文章,需要你的鼓励

全部评论

网友评论

网友评论仅供其表达个人看法,并不表明华人世界网立场。

0条评论
发布评论
文章编辑

关注全球华人,

最新快讯

此次活动旨在通过一系列赋能举措,提升社工队伍的专业化水平,为加强和完善社区治理提供坚实的人才支撑,推动街道社区治理提质增效。

分享最新的研究成果和创新经验4月19日,由中科科技培训中心主办,中国工商银行北京通州分行、中科科教创新研究院承办,京鲁融通中心联合承办的中科领航科技企业家前沿战略与实践高级论坛——生物医药与大健康专题活动在京召开,中科科技培训中心副理事长、中国科学院大学…

会议以“凝聚新质生产力动能,赋能科普教育高质量发展”为主题,聚焦新形势下科普工作的战略部署与创新发展路径。

近年来,我国不断完善人民币跨境使用制度安排和基础设施建设,推进金融市场双向开放,为境内外主体持有、使用人民币,营造更加良好的政策环境,人民币国际使用各项指标稳步提升。人民币国际化的进程,也少不了多边开发银行,以及众多外资机构的助力。随着相关业务的增长,…

美国政府的关税政策在美国国内引发反对声音。美国密歇根大学经济学与公共政策教授沃尔弗斯表示,一个经济体不能随意切断与世界的联系,而美国政府肆意加征关税的行为让美国在世界上被孤立。密歇根大学经济学与公共政策教授 贾斯廷沃尔弗斯你不能把电脑的电源拔掉再插上,…

3月15-16日,由中科科技培训中心主办、中科智汇工场协办的“中科科创新领军企业培养项目” 2025年第二期活动活动在京召开,来自科研院所专家及全国50余名企业家代表参加活动。活动邀请到中科科技培训中心副理事长,中国科学院大学二级教授汪前进为企业家朋友们带来《未来…