平安联合团队凭借平安科技赛飞ai平台荣膺国际权威视觉问答vqa竞赛单项冠军-pg电子体验试玩网址

来源: 网络 ·2021年10月28日 14:21

在2021年国际权威视觉问答vqa(visual question answering)竞赛这一涉及视觉-文本多模态理解的高阶认知任务中,由平安医疗科技、平安健康和平安智慧城市组成的联合团队(pingan smart healthcare, pash-sfe)基于赛飞ai平台强大的模型训练和推理能力,夺取“识数”任务单项冠军,比赛榜总榜第二的好成绩!战胜了包括百度、nyu、微软等在内的55支知名队伍。比赛截止后,联合团队在公开榜上继续提升2个点,将总分提高到80.78, 相较于人类基准水平仅相差0.05!

 

 

 

图一 比赛榜 human performance 80.78

图二 公开榜 human performance 80.83

随着深度学习、视觉理解、文本理解等领域高速发展,自然语言技术与计算机视觉交融逐渐成为多模态领域重要的前沿研究方向。其中,vqa是多模态领域挑战极高的核心任务,解决vqa挑战,对研发通用人工智能具有重要意义。

为鼓励攻克这一难题,全球计算机视觉顶会cvpr从2015年起连续6年举办vqa挑战赛,也吸引了包括微软、facebook、斯坦福大学、阿里巴巴、百度等众多顶尖机构参与,形成了国际上规模最大、认可度最高的vqa数据集,其包含超20万张真实照片、110万道考题

vqa 是ai领域难度最高的挑战之一。在测试中,ai需根据给定图片及自然语言问题生成正确的自然语言回答。这意味着单个ai模型需融合复杂的计算机视觉及自然语言技术:首先对所有图像信息进行扫描,再结合对文本问题的理解,利用多模态技术学习图文的关联性、精准定位相关图像信息,最后根据常识及推理回答问题

本次比赛中平安智慧医疗联合团队(pash-sfe)借助平安科技研发的搭建在大规模gpu集群之上的分布式ai平台——赛飞平台,利用基于拥有15亿参数量的deberta 模型,创新地在跨模态相对位置预测 (cross modal relation position prediction) 任务上进行了再预训练,对语义关系进行了更好的建模。融合了基于region和patch的视觉特征表示,实现了更精准的图像特征刻画。在微调阶段采用自研多模态交替对抗学习 (aat, alternate adversarial training) 技术进一步增强了模型的鲁棒性

目前,基于此技术研发的平安智慧医疗眼底彩照智能筛查、皮肤病自测服务及多模态医学知识搜索及问答服务已经在平安健康app上线。平安智慧医疗眼底彩照智能筛查服务助力平安健康互联网眼科中心在全国范围内的开展眼底筛查服务,目前已覆盖线下杭州、成都、昆山、普宁、东莞、肇庆、滁州、安庆、珠海等城市的66家眼镜店/视光中心等机构。皮肤病自测服务基于用户的皮肤图片信息及疾病描述的文本信息,给出疑似疾病推荐,并进一步给出相关疾病百科,问诊案例及常见用药。该功能上线以来累计服务7万余人,客单价提升40%。应用于平安智慧医疗askbob医生站的医学知识搜索及问答服务,基于用户提供的文本搜索词或者药品图片信息,提供多模态的相关医学知识,包括医学百科,就诊 案例,头条资讯及相关商品等,比传统的基于关键字的搜索准确度提升10%,上线 5 个月来,累计总调用2500万次。

不止于此,vqa技术融合图像及文本信息实现了深度语义理解及推理,拥有广阔的其他应用场景,可用于图文阅读、跨模态搜索、盲人视觉问答、医疗问诊、智能驾驶、虚拟主播等众多领域,可覆盖医疗、教育、智慧城市等多行业应用,或将变革人机交互方式。

图三 眼底筛查服务

赛飞ai平台

赛飞(sfe)是平安科技研发的搭建在大规模gpu集群之上的分布式ai平台,为数据科学家和ai研究员提供了大规模gpu算力任务优化调度能力、丰富的ai算法库、友好的用户界面和易于操作的开发环境,涵盖数据标注-模型训练-模型压缩-高性能推理的ai模型全生命周期的工具和服务。基于赛飞丰富前沿的开源ai算法库和automl大规模并行自动调参工具,可缩短研发周期提升研发效率约4.8倍,同时基于赛飞针对gpu拓扑结构的优化调度算法,通过“分时共享”可降低单位gpu使用成本约2.4倍。

赛飞ai平台于2019年初实现1.0版的研发和上线,2020年初开启商业化进程,经过近2年的稳定运营和高速发展,成为平安集团统一深度学习平台,服务覆盖22家子公司,约占集团50%的ai研发人员。截止2021年上半年,荣获7个国际竞赛总冠军和12个单项世界第一,技术成果发表数十篇高水平论文和60余项发明专利,获得300 国内外知名媒体报道。

(c)2008-2015 新财经all rights reserved
网站地图