0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于嵌入向量的全新设备端搜索库

Tensorflowers 来源:TensorFlow 作者:TensorFlow 2022-06-02 11:30 次阅读

今年的 I/O 大会上,我们很高兴宣布推出一个基于嵌入向量的全新设备端搜索库,让您在几毫秒的时间内即可从数百万个数据样本中快速找到相似的图像、文本或音频

693921c2-e1ae-11ec-ba43-dac502259ad0.gif

此搜索库通过使用模型,将搜索查询嵌入到表示查询语义的高维向量中来执行搜索。随后搜索库使用 ScaNN(可扩容最近邻算法)从预定义的数据库中搜索相似项目。为将搜索库应用到您的数据集,您需要使用 Model Maker Searcher API教程)构建自定义 TFLite Searcher 模型,然后使用 Task Library Searcher API(视觉/文本)将其部署到设备上。

  • ScaNN

    https://github.com/google-research/google-research/tree/master/scann

  • 教程

    https://tensorflow.google.cn/lite/tutorials/model_maker_text_searcher

  • 视觉

    https://tensorflow.google.cn/lite/inference_with_metadata/task_library/image_searcher

  • 文本

    https://tensorflow.google.cn/lite/inference_with_metadata/task_library/text_searcher

例如,使用在 COCO 上训练的 Searcher 模型,搜索查询:“A passenger plane on the runway”,系统将返回以下图像:

  • COCO

    https://cocodataset.org/#home

699b9668-e1ae-11ec-ba43-dac502259ad0.png

图 1:所有图像均来自 COCO 2014 训练和验证数据集。图像 1 由 Mark Jones Jr. 依据《版权归属许可证》提供。图像 2 由 305 Seahill 依据《版权归属-禁止演绎许可证》提供。图像 3 由 tataquax 依据《版权归属-相同方式共享许可证》提供。

在本文中,我们将向您介绍使用新 TensorFlow Lite Searcher Library 构建文本到图像搜索功能的端到端示例(根据给定文本查询检索图像)。以下是主要步骤:

1. 使用 COCO 数据集训练用于图像和文本查询编码的双编码器模型。

2. 使用 Model Maker Searcher API 创建文本到图像 Searcher 模型。

3. 使用 Task Library Searcher API 检索带有文本查询的图像。

训练双编码器模型

6a25f6c8-e1ae-11ec-ba43-dac502259ad0.png

图 2:用点积相似距离训练双编码器模型。损失函数可为相关图像和文本赋予更大的点积(阴影绿色方块)

双编码器模型由图像编码器和文本编码器组成。两个编码器分别将图像和文本映射到高维空间中的嵌入向量。双编码器模型计算图像和文本嵌入向量之间的点积,同时损失函数可为相关图像和文本赋予更大的点积(更接近),而为不相关的图像和文本赋予更小的点积(更远)。

整个训练过程受到了 CLIP 论文和本 Keras 示例的启发。图像编码器是在预训练 EfficientNet 模型的基础上构建而成,而文本编码器则是基于预训练通用语句编码器模型。

  • CLIP

    https://arxiv.org/abs/2103.00020

  • Keras 示例

    https://keras.io/examples/nlp/nl_image_search/

  • EfficientNet

    https://hub.tensorflow.google.cn/google/imagenet/efficientnet_v2_imagenet21k_ft1k_s/feature_vector/2

  • 通用语句编码器

    https://hub.tensorflow.google.cn/google/universal-sentence-encoder-lite/2

系统随后会将两个编码器的输出投影到 128 维空间并进行 L2 归一化。对于数据集,我们选择使用 COCO,因为该数据集的训练和验证分块会为每个图像人工生成字幕。请查看配套的 Colab notebook,了解训练过程的详细信息

  • Colab notebook

    https://colab.sandbox.google.com/github/tensorflow/tflite-support/blob/master/tensorflow_lite_support/examples/colab/on_device_text_to_image_search_tflite.ipynb

双编码器模型可以从没有字幕的数据库中检索图像,因为在经过训练后,图像嵌入器可以直接从图像中提取语义,而无需人工生成的字幕。

使用 Model Maker 创建文本

到图像 Searcher 模型

6aba0ad4-e1ae-11ec-ba43-dac502259ad0.png

图 3:使用图像编码器生成图像嵌入向量,并使用 Model Maker 创建 TFLite Searcher 模型

完成对双编码器模型的训练后,我们可以使用它来创建 TFLite Searcher 模型,该模型可根据文本查询,从图像数据集中搜索最相关的图像。模型创建分为以下三大步骤:

1. 使用 TensorFlow 图像编码器生成图像数据集的嵌入向量。ScaNN 能够搜索非常庞大的数据集,因此我们结合了 COCO 2014 的训练和验证分块(总计超过 12.3 万张图像),以展示其搜索性能。相关代码请查阅此处(1)

2. 将 TensorFlow 文本编码器模型转换为 TFLite 格式。相关代码请查阅此处(2)

3. 使用 Model Maker,通过 TFLite 文本编码器和使用以下代码的图像嵌入向量创建 TFLite Searcher 模型:

  • 此处(1)

    https://colab.sandbox.google.com/github/tensorflow/tflite-support/blob/master/tensorflow_lite_support/examples/colab/on_device_text_to_image_search_tflite.ipynb#scrollTo=Bp0qBKkyu4jA

  • 此处(2)

    https://colab.research.google.com/github/tensorflow/tflite-support/blob/master/tensorflow_lite_support/examples/colab/on_device_text_to_image_search_tflite.ipynb#scrollTo=6Dzye66Xc8vE

#Configure ScaNN options. See the API doc for how to configure ScaNN. 
scann_options = searcher.ScaNNOptions(
      distance_measure='dot_product',
      tree=searcher.Tree(num_leaves=351, num_leaves_to_search=4),
      score_ah=searcher.ScoreAH(1, anisotropic_quantization_threshold=0.2))

# Load the image embeddings and corresponding metadata if any.
data = searcher.DataLoader(tflite_embedder_path, image_embeddings, metadata)

# Create the TFLite Searcher model.
model = searcher.Searcher.create_from_data(data, scann_options)

# Export the TFLite Searcher model.
model.export(
      export_filename='searcher.tflite',
      userinfo='',
      export_format=searcher.ExportFormat.TFLITE)

请在此处查阅上方代码中提到的 API doc

  • API doc

    https://tensorflow.google.cn/lite/api_docs/python/tflite_model_maker/searcher/ScaNNOptions

在创建 Searcher 模型时,Model Maker 利用 ScaNN 将嵌入向量编入索引。嵌入向量数据集首先被分为多个子集。在每个子集中,ScaNN 存储嵌入向量的量化表征。在检索时,ScaNN 会选择一些最相关的分区,并按照快速近似距离对量化表征进行评分。这个过程既(通过量化)节省了模型大小又(通过分区选择)实现了加速。请参阅深入研究资料,详细了解 ScaNN 算法。

在上方示例中,我们将数据集划分为 351 个分区(约是我们拥有的嵌入向量数量的平方根),并在检索期间搜索其中的 4 个分区,即大约是数据集的 1%。我们还将 128 维浮点嵌入向量量化为 128 个 int8 值,以节省空间。


使用 Task Library 运行推理

6b297e00-e1ae-11ec-ba43-dac502259ad0.png

图 4:使用带有 TFLite Searcher 模型的 Task Library 运行推理。推理接收查询文本并返回最近邻的元数据。我们可以在此找到对应的图像

如要使用 Searcher 模型查询图像,您只需使用 Task Library 的几行代码即可,具体如下所示:

from tflite_support.task import text

# Initialize a TextSearcher object
searcher = text.TextSearcher.create_from_file('searcher.tflite')

# Search the input query
results = searcher.search(query_text)

# Show the results
for rank in range(len(results.nearest_neighbors)):
  print('Rank #', rank, ':')
  image_id = results.nearest_neighbors[rank].metadata
  print('image_id: ', image_id)
  print('distance: ', results.nearest_neighbors[rank].distance)
  show_image_by_id(image_id)

可以尝试一下 Colab 的代码。此外,欢迎查看更多信息,了解如何使用 Task Library JavaC++ API 集成模型,尤其是在 Android 上的用法。在 Pixel 6 上,每个查询通常只需要 6 毫秒。

  • 更多信息

    https://tensorflow.google.cn/lite/inference_with_metadata/task_library/text_searcher

以下是一些示例结果:

查询:A man riding a bike

根据估算的相似距离对结果进行排序。以下是检索到的图像示例。请注意,我们仅会显示附有图像使用许可的图像。

6b85b4ae-e1ae-11ec-ba43-dac502259ad0.png

图 5:所有图像均来自 COCO 2014 训练和验证数据集。图像 1 由 Reuel Mark Delez 依据《版权归属许可证》提供。图像 2 由 Richard Masoner/Cyclelicious 依据《版权归属-相同方式共享许可证》提供。图像 3 由 Julia 依据《版权归属-相同方式共享许可证》提供。图像 4 由 Aaron Fulkerson 依据《版权归属-相同方式共享许可证》提供。图像 5 由 Richard Masoner/Cyclelicious 依据《版权归属-相同方式共享许可证》提供。图像 6 由 Richard Masoner/Cyclelicious 依据《版权归属-相同方式共享许可证》提供。

研究展望

我们将致力于启用除图像和文本之外的更多搜索类型,如音频片段。

审核编辑 :李倩


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3640

    浏览量

    134462
  • API
    API
    +关注

    关注

    2

    文章

    1499

    浏览量

    61988
  • 向量
    +关注

    关注

    0

    文章

    55

    浏览量

    11662

原文标题:使用 TensorFlow Lite Searcher Library 实现设备端文本到图像搜索

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    夸克学术搜索受热捧,成年轻人PCAI应用首选

    近日,夸克发布了一款全新的“学术搜索”AI产品,旨在通过先进的AI威廉希尔官方网站 和亿级学术文献资源,为学术工作者提供更为高效的信息获取、创作和处理服务。这一创新产品的推出,无疑为学术界注入了新的活力。 据
    的头像 发表于 11-19 11:23 397次阅读

    OpenAI推出ChatGPT搜索功能

    近日,OpenAI再次迈出了重要的一步,为其广受好评的ChatGPT平台添加了一项全新搜索功能。 据悉,这项被命名为“ChatGPT搜索”的新功能,将为用户带来前所未有的搜索体验。以
    的头像 发表于 11-04 10:34 338次阅读

    OpenAI在ChatGPT增添搜索功能

    近日,OpenAI宣布为其旗舰产品ChatGPT增添全新搜索功能,此举标志着该公司对Alphabet旗下谷歌的直接挑战进一步升级。OpenAI周四正式揭晓了这一名为“ChatGPT搜索”的新功能
    的头像 发表于 11-01 17:01 374次阅读

    科技云报到:大模型时代下,向量数据的野望

    科技云报到:大模型时代下,向量数据的野望
    的头像 发表于 10-14 17:18 253次阅读

    鸿蒙开发:应用组件跨设备交互(流转)【跨迁移】

    迁移的核心任务是将应用的当前状态(包括页面控件、状态变量等)无缝迁移到另一设备,从而在新设备上无缝接续应用体验。这意味着用户在一台设备上进行的操作可以在另一台
    的头像 发表于 06-11 17:10 1245次阅读
    鸿蒙开发:应用组件跨<b class='flag-5'>设备</b>交互(流转)【跨<b class='flag-5'>端</b>迁移】

    大模型卷价格,向量数据“卷”什么?

    被大模型“带飞”这一年,向量数据才刚刚写下序言
    的头像 发表于 05-23 09:24 1772次阅读
    大模型卷价格,<b class='flag-5'>向量</b>数据<b class='flag-5'>库</b>“卷”什么?

    OpenAI正在为ChatGPT开发全新搜索功能

    OpenAI近日传来令人振奋的消息,其正在为旗下明星产品ChatGPT研发一项全新搜索功能。据悉,这项功能将极大地拓宽ChatGPT的应用范围,并为用户带来更为全面、准确的回答。
    的头像 发表于 05-10 11:18 532次阅读

    搭载英伟达GPU,全球领先的向量数据公司Zilliz发布Milvus2.4向量数据

    在美国硅谷圣何塞召开的 NVIDIA GTC 大会上,全球领先的向量数据公司 Zilliz 发布了 Milvus 2.4 版本。这是一款革命性的向量数据系统,在业界首屈一指,它首次
    的头像 发表于 04-01 14:33 475次阅读
    搭载英伟达GPU,全球领先的<b class='flag-5'>向量</b>数据<b class='flag-5'>库</b>公司Zilliz发布Milvus2.4<b class='flag-5'>向量</b>数据<b class='flag-5'>库</b>

    与NVIDIA深度参与GTC,向量数据大厂Zilliz与全球顶尖开发者共迎AI变革时刻

    近日,备受关注的 NVIDIA GTC 已拉开序幕。来自世界各地的顶尖 AI 开发者齐聚美国加州圣何塞会议中心,共同探索行业未来,全球领先的向量数据公司 Zilliz 也不例外。作为去年被
    的头像 发表于 03-26 11:01 409次阅读

    STM32F429的工程标准移植到HAL后中断向量表异常的原因?

    STM32F429的工程标准移植到HAL后中断向量表异常
    发表于 03-20 06:02

    Aurix TC2752的中机制是怎么样的?有无固定的中向量标号和中地址啊?

    AurixTC2752的中机制是怎么样的?有无固定的中向量标号和中地址啊?是类似于飞思卡尔或者28335那样的吗?
    发表于 02-05 06:33

    什么是中断向量偏移,为什么要做中断向量偏移?

    当MCU中有两段或以上程序的时候(第一个程序为用户BootLoader程序,其他的为APP程序,这个在前期视频《什么是ISP?什么是IAP》中有讲过),APP程序中都需要做中断向量偏移,那么什么是中断向量偏移,为什么要做中断向量
    的头像 发表于 01-30 09:47 1781次阅读
    什么是中断<b class='flag-5'>向量</b>偏移,为什么要做中断<b class='flag-5'>向量</b>偏移?

    苹果翻新设备集体诉讼赔偿翻番:每人获赔26.18美元

    该案中的翻新设备违约投诉,源自于苹果在其美国地区维修条款和条件中明文规定,其可以在为客户的产品提供维修和保养服务时使用全新或是相近表现和稳定性的翻新部件或设备。但原告坚决反对,宣称翻新或“再制造”的
    的头像 发表于 01-17 10:47 650次阅读

    腾讯云把向量数据“卷”到哪一步了?

    被大模型“带飞”这一年,向量数据才刚刚写下序言
    的头像 发表于 01-15 09:49 1581次阅读
    腾讯云把<b class='flag-5'>向量</b>数据<b class='flag-5'>库</b>“卷”到哪一步了?

    基于Rust的嵌入式符合ACID的键值数据

    surrealkv -- 基于 Rust 的 low level、版本化、嵌入式、符合 ACID 的键值数据
    的头像 发表于 12-28 11:29 879次阅读