内容摘要:视觉搜索是信息检索领域的前沿课题,它有利于揭示视觉大数据资源价值的产生机理,丰富数字图书馆知识服务思想和未来发展框架。
关键词:大数据;视觉搜索;应用;组织模式
作者简介:
作者简介:张兴旺(1982- ),男,博士生,桂林理工大学图书馆副研究馆员,研究方向:数字图书馆;郑聪(1989- ),男,硕士,桂林理工大学图书馆助理馆员,研究方向:数字图书馆;黄婷婷(1982- ),女,硕士,桂林理工大学图书馆助理馆员,研究方向:读者服务。桂林 541004
内容提要:视觉搜索是信息检索领域的前沿课题,它有利于揭示视觉大数据资源价值的产生机理,丰富数字图书馆知识服务思想和未来发展框架。文章围绕视觉搜索发展历程、发展趋势、概念和特点等基础问题展开分析,深入探讨视觉搜索的应用及组织模式,并归纳了视觉搜索应用与组织研究的5个核心问题。视觉搜索在国内未广泛应用的主要原因:技术与应用产品不成熟、搜索性能不稳定、用户体验质量不佳、应用局限性较强等。建议从视觉大数据资源的获取与组织、视觉大数据资源的理解与表达、视觉大数据资源整合与交互、视觉对象知识库建设及标准化、视觉搜索体系的安全与可靠性5个方面来解决。
关 键 词:大数据 视觉搜索 应用 组织模式
标题注释:本文为教育部人文社会科学基金项目“基于大数据的数字图书馆移动视觉搜索机制及其应用模式研究”(项目编号:15YJC870012),广西哲学社会科学基金项目“基于大数据的移动视觉对象知识库建设及标准化问题研究”(项目编号:15BTQ003),广西高等学校人文社会科学重点研究基地——广西民族旅游研究中心开放基金资助项目和桂林理工大学旅游学院科研基金资助项目(项目编号:MZLY12)的成果。本文为“基于大数据的数字图书馆移动视觉搜索机制及其应用模式研究”系列论文之一。
文本、图像、视频、3D模型等视觉资源是互联网大数据的重要组成部分,视觉搜索是其资源组织、分析和整合的重要方法,也是视觉大数据资源内容理解和价值发现的有效手段。传统基于文本标注的视觉资源信息检索模式的缺点是标注时间和人力成本高、精确性低,且难以应对数据规模和数据类型的飞速增长。视觉搜索体系有别于此,它具有较强的视觉资源整合与信息检索能力,通过实时处理和有效整合视觉搜索对象的时空关联信息,发现视觉大数据资源的潜在价值与知识,为用户提供嵌入式协作化的大数据知识服务,这一特征在“互联网+”时代体现得尤为明显。视觉搜索的价值在于它能充分发掘和展示出视觉大数据资源蕴含的时空关联关系、价值演化方式与知识服务规律。但是,视觉大数据资源之间复杂的时空关联关系与无序的动态进化过程,使得其资源整合和信息检索难度加大。视觉搜索作为实现这一目标的重要途径,不同于传统信息检索模式,它能以获取到的客观物理世界的图像或视频等视觉资源作为检索对象,通过互联网获取与之相关的多元化、多层次时空关联信息。
当前视觉搜索已成为信息科学领域的前沿课题,主要用于分析和研究现实世界实体属性、行为、事件与视觉大数据资源之间的发展规律,针对视觉大数据资源的获取、组织、描述与利用问题,研究视觉资源及其时空关联信息之间的价值发现与资源整合的内在机理,解决其多维关联与协同融合问题,进而实现视觉大数据资源的有效整合、知识发现与实时交互。
基于此,本研究从宏观与中观角度,从信息科学视角下视觉搜索研究的起源着手,对其发展历程、概念与特点进行描述,围绕其理论与应用研究的几个关键问题展开讨论,并简要探讨其最新研究进展及应用。
1 大数据环境下视觉搜索的发展历程及特点
1.1 问题的提出
视觉搜索不是一个新名词,它最早出现于心理学与生理学领域,用于描述人们通过视觉通道在特定区域内检测某特定目标是否出现或出现后确定其位置的行为[1]。如在地图上找某大学所处位置、在食堂内点菜、在书架上找书或在图书馆内找人等。在现实世界中,人们经常需要利用视觉搜索在复杂物理环境中获取有价值的信息,来决定接下来的语言和行为[2]。因此,视觉搜索理论受到心理学家和人因(Human Factors)学家的广泛关注,大量研究集中在对人类视觉认知[3-4]、生理反馈机理[5]的理解与表达上,并总结出了许多应用型和理论型知识。正是由于视觉搜索的可用性和有效性,使得许多工作、行业、领域都离不开这一生理行为。
相关基础理论和关键技术的不断发展与完善,促使传统视觉搜索应用不断向信息化、技术化和网络化方向发展,如何将传统视觉搜索行为转换成“所见即所知”式视觉搜索模式,这一难题逐渐摆在了人们面前。与此同时,网络环境、信息技术、计算性能、存储空间、数据规模与软硬件设施等方面的飞速提升,也为客观物理世界与虚拟网络空间之间建立起密不可分的关联关系,使视觉搜索技术的实现成为可能。人们可以方便快捷地采集客观物理世界中的视觉对象,从互联网中获取与之相关的关联信息[6]。
1.2 视觉搜索发展历程及发展趋势
近几年来,随着大数据环境的逐步完善和大数据技术的迅速发展,关于视觉资源整合与视觉搜索研究的呼声越来越大。Nature和Science分别于2008年、2011年出版了大数据专题研究[7],提出图像、视频与用户交互信息是未来大数据的重要组成部分。2009年,Stanford University的Griod、Chandrasekhar等学者将视觉搜索理论引入到信息检索领域,提出Visual Search、Mobile Visual Search等概念,举办了第一届移动视觉搜索研讨会,并对其体系结构、应用与服务模式等问题进行了探讨[8]。2010年,Google技术研究部前主管Norvig在Nature上发表的专题论文2020 Visions中指出,“文本、图像和视频等视觉资源及用户交互信息、传感信息的有机融合,会给搜索引擎带来巨大挑战,如何对视觉搜索结果进行资源深度整合将会成为Google未来10年面临的最大挑战。”[9-10]同年,北京大学高文、黄铁军与段凌宇等将其引入国内,举办了第二届移动视觉搜索研讨会,并围绕其关键技术、体系结构、视觉资源组织与描述方法、视觉资源标准化与视觉知识库建设等问题展开了研讨[6,11]。2012年,这一理论与技术迅速被中国计算机学会所接受,认为将视觉搜索与增强现实技术相结合的信息检索模式,将是继搜索引擎之后的新一代互联网服务范式[3,6]。随后,张兴旺[12]、朱庆华[13]等尝试将其引入数字图书馆领域,并围绕相关理论与应用模式展开了研究。
根据视觉搜索研究的发展轨迹来看,国内关于视觉搜索研究总体仍处于探索与尝试阶段,研究轨迹已基本跨过早期理论性尝试过程,正步入中期技术性和应用性探索阶段。尤其是在我国科学技术部于2011年启动国家重点基础研究发展计划(“973”计划)“面向公共安全的跨媒体计算理论与方法”,对跨媒体视觉资源的统一表示和建模方法、关联推理和深度挖掘、综合搜索和内容合成等关键科学问题进行研究之后,国内相关研究步入快速发展阶段。自2015年以来,视觉搜索理论与应用研究的重要性和必要性更加凸显,国务院2015年9月印发的《促进大数据发展行动纲要》提出,要充分利用大数据,提升领域数据资源的获取和利用能力,推动各类数据融合和资源整合[14]。国务院2015年7月印发的《关于积极推进“互联网+”行动的指导意见》提出“构建包括语音、图像、视频、地图等数据的海量训练资源库,加强人工智能基础资源和公共服务等创新平台建设”[15]。国家自然科学重大研究计划“大数据驱动的管理与决策研究”认为“大数据价值的产生机理和转换规律具有高度的应用领域依赖性”[16]。科技部2016年发布的《关于发布国家重点研发计划精准医学研究等重点专项2016年度项目申报指南的通知》的“云计算和大数据重点专项”中更是明确将“面向大范围场景透彻感知的视觉大数据智能分析关键技术”列为重点研究内容之一,要求对视觉语义建模、视觉对象的时空定位与搜索、跨场景数据关联技术等展开研究[17]。
1.3 视觉搜索研究对象及视觉大数据资源特点
视觉搜索的研究已逐渐发展成为信息检索领域的主要研究趋势[6,8,10],到目前为止,关于视觉搜索的定义尚未形成统一的认识,但从信息检索角度来看,大家对它的普遍理解是指将客观物理世界中的视觉资源作为检索对象,通过互联网去获取关联信息的一种信息检索方式[6,12]。它是以视觉大数据资源及其关联信息为研究对象,以视觉大数据资源的获取、分析、组织、理解和表达方法为主要研究内容,以信息技术与方法为主要研究手段,以发现视觉大数据资源蕴含的知识价值和拓展其利用能力为主要研究目标的一种综合性的应用型前沿领域。它主要针对的是当前大数据环境下海量、多元异构、动态无序和高速进化的视觉资源的分析和利用问题,重点研究的是如何充分利用当前飞速发展的信息技术来解决视觉大数据资源的理解和表达,如何有效地实现视觉搜索,如何利用视觉搜索技术来从海量视觉大数据资源中发现新的知识。







