新闻动态
DYNAMIC
最近,台湾清华大学电子工程系教授林嘉文和孙敏宣布,他们与微软公司亚洲研究院陶玫博士合作开发,利用计算机视觉技术在视频内容上加上标签和标题。据报道,陶玫博士参加了微软公司COCO的研究开发。微软公司COCO是新的图像识别、分类、说明的数据集,为了识别多个物体而设计。业内熟悉的是微软公司的COCO图像说明大会,参加者利用自律开发的图像识别系统,融合了微软公司的COCO。
结果,根据系统说明的准确性、详细性和与人类说明的相似性进行评价。微软公司回答说,台湾清华大学的两位教授利用微软公司的COCO数据集,利用计算机视觉技术确认了视频的主要内容,并加入了标题。微软公司在博文中认为,孙教授根据深刻的自学自动寻找视频中的相似时刻和最重要的内容,制作视频标题分解的新方法,根据视频中最重要的内容制作正确有趣的标题。
与此同时,林教授开发了自动在视频中检测脸部的方法,为共享这些视频的用户提供了更丰富的总结和建议。通过合作,他们的算法可以检测和描述最重要的内容,同时分解标签和标题。孙敏教授和他的学生通过参加VideoToTextchallenge的大会来提高这个系统。据新闻报道,他们将在欧洲计算机视觉会议(ECCV)展示最近的研究成果。
描述和描述视频/图片画面中的内容,不仅要了解图片中的内容,还要了解图片中的对象有什么联系。利用算法识别视频内容,生产标题和标签相对可玩性和计算量相当大,识别图像内容,分解标签和画面叙述文字越来越成熟。
上个月谷歌发表了最近的机械学习系统,通过识别图像的内容,加上对应的文字,现在的算法叙述图像的精度已经下降了约93.9%。由于COCO,微软公司在图像描述中也有一定的积累,其中广泛应用于OneDrive中的Blogger分类功能。该功能可以有效地分类和展示用户的照片,并从照片中识别文字。当然,最重要的是分析图像的特征,展开自动标记。
除了微软公司、谷歌之外,Facebook今年也发布了类似的系统,这个系统可以理解照片中再次发生的事情,将内容转换成自然语言进行说明。Facebook展示了一张独自玩游戏滑板的照片。算法将照片内容分解为滑板、男性、独特的手、他的滑板,指出可能再次发生的是做,玩游戏滑板,做。
用户可以使用VPN翻墙到iPhone,Facebook后使用,同时也可以使用iPhone自带的voiceover。无论是图像记述还是视频记述,在消费水平上,不仅有助于用户自动管理Blogger(视频集)。此外,该技术还可以帮助盲人用户用语音了解照片和视频中的内容。读者:亲测:让盲人看照片。
我们离这个白科学技术有多近谷歌发表了最新版的AI系统,图像配文的精度低约93.9%的原创文章,允许禁止发表。下一篇文章发表了注意事项。
本文来源:亚博yabo888网页登录-www.cdkerun.cn