Veritone 如何利用 Amazon Bedrock、Amazon Rekognition、Am
Veritone如何利用Amazon Bedrock更新视频搜索管道
关键要点
Veritone使用Amazon Bedrock、Amazon Rekognition和Amazon Transcribe等服务,提升了视频的索引和检索效果。通过采用多模态模型,Veritone提高了语义搜索在视频检索中的精准度。视频搜索系统可以根据文本查询实现更智能的检索,显著改善了用户体验。在当今的数字世界中,视频内容的检索变得日益重要。Veritone公司采用了一系列现代化的人工智能技术来提升其视频搜索管道的能力,在此过程中,他们特别关注语义检索技术的应用。此文章将深入探讨Veritone如何利用Amazon的各种服务来改进其视频搜索系统。
Veritone是一家位于加州欧文市的人工智能公司。该公司自2014年成立以来,一直致力于为客户提供AI驱动的软件解决方案,涵盖媒体处理、分析、广告等多种应用。Veritone的服务包括媒体转录、面部识别、内容总结、物体检测等,目的是解决各行业专业人士面临的独特挑战。
随着Generative AI和多模态基础模型FMs的快速发展,Veritone计划进一步提升其媒体索引和检索能力,以便于更好地基于上下文生成新内容。这一过程不仅需要高效的语义搜索功能,也为客户提供更个性化的媒体制作实现了可能。

Veritone现有的媒体搜索与检索系统主要依赖于基于元数据的关键词匹配。最近,他们对平台进行了更新,采用了新的大型语言模型LLMs来改进这一过程。展望未来,Veritone希望进一步利用先进的FMs技术,以提高“数字媒体中心”DMH的搜索结果质量。
在这篇文章中,我们将详细介绍如何通过文本查询来启用视频的语义检索,以便找到最相关的视频。这一过程整合了新兴的多模态嵌入模型,比如Amazon Titan Multimodal Embeddings,用于编码所有视觉、相关元数据及转录数据。我们的目标是构建一个强大的文本搜索机制,超越传统词匹配算法,同时提供算法之间比较的用户界面,增强视频检索体验。
解决方案概述
为了实施这一解决方案,我们使用了以下AWS服务:
Amazon Bedrock及Amazon Titan多模态嵌入和文本模型Amazon ComprehendAWS LambdaAmazon OpenSearch ServiceAmazon RekognitionAmazon简单存储服务Amazon S3Amazon TranscribeAmazon Bedrock是一个完全受管的服务,提供来自各大AI公司的高性能基础模型,包括AI21 Labs、Anthropic、Cohere、Meta等,能为构建生成性AI应用提供安全性、隐私性和负责任的AI框架。
当前架构包含三个组成部分:
元数据生成 该部分从视频库生成元数据,处理视频并创建检索索引用的嵌入。通过FFmpeg库将Amazon S3中的视频转换为H264 vcodec格式,并利用Amazon Rekognition、Transcribe和Comprehend生成逐镜头的元数据。采用Amazon Titan模型进行嵌入并在OpenSearch Service中索引。
搜索 UI驱动的视频搜索管道接收用户查询并检索相关视频。用户查询会调用Lambda函数,根据选定的查找方式执行文本或关键字搜索或嵌入搜索。搜索结果基于镜头级别传递给用户。
评估 UI允许您根据不同的搜索设置进行定性评估。通过输入查询,基于搜索设置从OpenSearch中检索视频结果并提供反馈。
下一步,我们将展示该解决方案的架构,并分析其具体实现细节。通过这些取长补短的手段,Veritone希望提升其视频检索的时效性和准确性。
元数据生成管道
视频元数据生成管道通过Amazon Transcribe、Amazon Rekognition和Amazon Comprehend等AWS服务处理视频文件。元数据在镜头级别生成,具体流程如下所示:
Amazon Transcribe
使用[StartTranscriptionJob](https//docsawsamazoncom/transcribe/latest/APIReference/APIStartTranscriptionJobhtml) API生成整段视频的转录。当任务完成时,可以通过GetTranscriptionJob获取原始转录数据。
Amazon Rekognition
为确保视频符合处理要求,Amazon Rekognition要求视频采用H264编码并该以MPEG4或MOV格式呈现。我们使用FFmpeg格式化Amazon S3中的视频,以便满足要求。此解决方案依赖Amazon Rekognition的API进行标记检测、文本检测、名人检测和面部检测,为每个视频生成元数据。
小熊加速器npvAmazon Comprehend
时间戳处理后的转录文本会通过Amazon Comprehend进一步分析,检测实体和情感。涉及的API包括DetectEntities和DetectSentiment。
嵌入生成
我们生成镜头级别和视频级别的嵌入,包括文本和多模态的嵌入。通过使用Amazon Titan多模态嵌入,可以获取音视频相结合的有效表达。
搜索管道
在这一部分,我们讨论搜索管道的组成部分。
搜索索引创建
我们使用OpenSearch集群OpenSearch Service域存储和检索索引。对于生产环境,我们建议使用Amazon OpenSearch Serverless进行索引和检索。
查询流程
用户可使用查询对视频记录进行文本或语义嵌入搜索比较检索。文本搜索通过OpenSearch Service接收搜索字段。如果用户希望使用语义检索,那么查询将嵌入为向量输入。
搜索结果组合
精确匹配和语义搜索各有优势。用户如搜索特定的名人或电影名称,则精确匹配的搜索会更有效;而用户如果搜索“夏日海滩氛围”等主题词,则语义搜索会更具适用性。
评估管道
我们为评估管道设置了一系列组件,包括搜索和评估用户界面。用户可以对视频结果进行反馈,从而帮助系统不断优化查询和检索效果。
实验及结果
我们使用两个数据集进行实验,分别是短视频数据集和长视频数据集,并根据准确性和召回率进行定量和定性评估。
短视频数据集
此数据集包括500个平均时长为20秒的视频,内容大多数涉及旅行和餐饮。基于所收集的数据,我们观察到使用Amazon Titan多模态嵌入能显著提高效果。
长视频数据集
第二个数据集包含300个高清视频,时长范围从20到160分钟。我们同样在这一数据集上应用了量化评估,得出了诸多有价值的发现。
结论
通过实施多模态嵌入,Veritone成功提升了视频搜索管道的性能。此次改进不仅满足了用户对更加精准检索的期望,也为未来的搜索功能扩展奠定了基础。
如果您对与AWS Generative AI创新中心的合作感兴趣,请访问GenAIIC。