- ISBN:9787121475313
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:244
- 出版时间:2024-06-06
- 条形码:9787121475313 ; 978-7-121-47531-3
内容简介
视觉问答任务要求机器根据指定的视觉图像内容, 对单轮或多轮的自然语言问题进行作答。其本质上是一个多学科的研究问题,涉及计算机视觉、自然语言处理、知识表示与推理等。本书共5 部分,第1 部分介绍在计算机视觉和自然语言处理领域广泛使用的基本方法和技术,包括卷积神经网络、序列建模和注意力机制等。本书将视觉问答分为图像和视频方法。第2 部分将图像视觉问答进一步分为五类,即联合嵌入、注意力机制、记忆网络、组合推理和图神经网络。此外,概述基于图像的其他视觉问答任务,例如基于知识的视觉问答、视觉问答的视觉和语言预训练。第3 部分讨论基于视频的视觉问答及其相关模型。第4 部分讨论与视觉问答相关的高级任务,包括具身视觉问答、医学视觉问答、基于文本的视觉问答、视觉问题生成、视觉对话和指代表达理解,它们是视觉问答任务的扩展。第5 部分对该领域进行总结和展望,讨论视觉问答领域的未来研究方向。
目录
作者简介
吴琦,澳大利亚阿德莱德大学高级讲师(副教授),博士生导师,澳大利亚青年学者基金获得者 (Australian Research Council DECRA Fellow),澳大利亚机器人视觉研究中心(ACRV)vision-language课题组组长,澳大利亚科学院罗素奖获得者。吴琦博士于2015年在英国巴斯大学获得博士学位,致力于计算机视觉领域研究,尤其关注于计算机视觉-自然语言相关领域的研究。吴琦博士在CVPR,ICCV,ECCV, NeurIPS, TPAMI等多个国际会议和期刊发表论文七十余篇,吴琦博士亦担任TPAMI,IJCV,TIP,CVPR,NIPS,ACL等学术期刊会议审稿人以及ICCV2021 领域主席。
-
全图解零基础word excel ppt 应用教程
¥16.3¥48.0 -
C Primer Plus 第6版 中文版
¥62.6¥108.0 -
零信任网络:在不可信网络中构建安全系统
¥34.2¥59.0 -
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
硅谷之火-人与计算机的未来
¥20.3¥39.8 -
情感计算
¥66.8¥89.0 -
大模型RAG实战 RAG原理、应用与系统构建
¥74.3¥99.0 -
大学计算机基础实验教程(MS Office版)——面向数据分析能力培养
¥29.1¥39.8 -
LINUX企业运维实战(REDIS+ZABBIX+NGINX+PROMETHEUS+GRAFANA+LNMP)
¥51.8¥69.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥70.0¥89.8 -
LINUX实战——从入门到精通
¥52.4¥69.0 -
剪映AI
¥52.8¥88.0 -
快速部署大模型:LLM策略与实践(基于ChatGPT等大语言模型)
¥56.9¥79.0 -
数据驱动的工业人工智能:建模方法与应用
¥68.3¥99.0 -
数据存储架构与技术(第2版)
¥62.9¥89.8 -
纹样之美:中国传统经典纹样速查手册
¥76.3¥109.0 -
UG NX 12.0数控编程
¥24.8¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
UN NX 12.0多轴数控编程案例教程
¥24.3¥38.0 -
实战知识图谱
¥51.8¥69.0