0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于文本匹配的破城长矛

深度学习自然语言处理 来源:CS的陋室 作者:CS的陋室 2021-03-31 17:33 次阅读

搜索也好,检索式对话也好,文本是一个很难绕开的话题,虽然语义是一个重要因素,用语义相似度直接梭,但是用户的感知可不是如此,很多用户的感知更多是文本层面的相似要高于语义相似,或者说,遇到语义相似和文本相似的时候会更优先接受文本相似,毕竟文本使用户能直接看到的,当然语义相似度虽好,但是对于没有什么标注数据的情况,也是束手无策吧。

所以,即使语义相似度如火如荼地发展着,文本层面的匹配依旧是项目实践中不可避免的关注点。

cqr&ctr概念

cqr和ctr的概念还是比较清晰明确的。

给定query和title,现在计算cqr和ctr。

讲完了,就是这么简单,其实就是看两者交集占query的占比和占title的占比,就是对应的cqr和ctr。

当然,由于这种计算会把所有词的重要性考虑进去,例如“怎么做作业”分别和“怎样做作业”、“怎么做手机”,两个的相似度就一样了,此时就要考虑到给每个词加点权重,这样能更好地描述,这就是一个优化的实用版本,加权

给定query,有对应的权重和title,以及对应权重,现在计算cqr和ctr:

想到可能会有人问到权重怎么来,这里我就要把我的历史文章放出来了,之前是专门讲过词权重的问题的:NLP.TM[20] | 词权重问题

这个应该就是我自己平时用的版本了,而且屡试不爽。

而如果是要分析两个句子综合、无偏的相似度,只要相乘就好了:

细品

可以看到,这个东西很简单,就是一个基于统计计算的工具,但是我依然想仔细讨论一下这个东西。

首先,有关相似度,其实我们很容易想到这个计算方法:

就是比较著名的jaccard相似度,当然还有一个更加出名的方法,那就是BM25(更为常见,此处就不赘述了)。但是我并没有选择,为什么呢,其实核心就是1个点:

query和title的长度信息

jaccard距离虽然能比较综合、无偏向性地计算两者的相似度,但问题是,当query和title长度计算差距很大的时候,计算准确性就会受到影响,而分成两个指标,则能够充分表现两者的相似性,当然具体用哪种其实还是要看具体场景的,有的时候这种无偏向性对效果优化还是有用的,但是有的时候其实会影响最终效果。

来看个例子,query是“我昨天新买的手机,今天怎么就不能开机了”,title是“手机不能开机”,这里可以,ctr无疑就是1,当然cqr就比较低了,但是我们可以用ctr作为后续的排序特征或者过滤条件。

优缺点

感觉有些东西想说但是没说出来,直接总结一下这个方案的优缺点吧,以便大家进行方案选择吧,这个优点,是相对于常见的语义相似度模型而言的。

首先说优点:

能够体现文本层面的相似度,在一些领域下体验比较好。

性能比语义相似度模型好很,所以是一个简单轻快的模型。

无监督,词权重的话用语料就可以训练了。

效果稳定可追踪。

当然,还是有缺点的。

文本层面的匹配无法体现语义,同义词、说法之类的无法体现。

对切词敏感,类似“充不进去电”和“充电”就完全匹配不上。

应用

有这些有缺点,其实我们就可以考虑这个相似度该怎么用了:

用于过滤一些肯定不对的答案。

无标注数据下,这个指标可以作为排序的指标,对启动项目挺重要的。

作为排序特征,保证结果在文本层面还是比较接近的。

当然,在一个比较完整的搜索或者是检索式对话的系统里,其实这种文本相似度类的特征还是非常有收益的,结合语义相似度还是会有一些比较稳定的收益。

小结

东西其实不难,却是非常实用的技能,但是在应用的过程中能够想到的人其实很少,但有用的东西我们学起来也挺好。

原文标题:【文本匹配】cqr&ctr:文本匹配的破城长矛

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自然语言处理

    关注

    1

    文章

    618

    浏览量

    13554
  • nlp
    nlp
    +关注

    关注

    1

    文章

    488

    浏览量

    22034

原文标题:【文本匹配】cqr&ctr:文本匹配的破城长矛

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何使用自然语言处理分析文本数据

    使用自然语言处理(NLP)分析文本数据是一个复杂但系统的过程,涉及多个步骤和威廉希尔官方网站 。以下是一个基本的流程,帮助你理解如何使用NLP来分析文本数据: 1. 数据收集 收集文本数据 :从各种来源(如社交
    的头像 发表于 12-05 15:27 271次阅读

    图纸模板中的文本变量

    “  文本变量和系统自带的内置变量,可以帮助工程师灵活、高效地配置标题栏中的信息,而不用担心模板中的文字对象被意外修改。   ” 文本变量的语法 文本变量以 ${VARIABLENAME} 的方式
    的头像 发表于 11-13 18:21 171次阅读
    图纸模板中的<b class='flag-5'>文本</b>变量

    如何在文本字段中使用上标、下标及变量

    在KiCad的任何文本字段中,都可以通过以下的方式实现上标、下标、上划线以及显示变量及字段值的描述: 文本变量“文本变量”可以在 原理图设置->工程->文本变量 中设置。下图中设置了一
    的头像 发表于 11-12 12:23 108次阅读
    如何在<b class='flag-5'>文本</b>字段中使用上标、下标及变量

    直流无刷壁机解决方案

    壁机是集搅拌、加热、壁于一体的家用电器,其壁机理是利用高速旋转的刀片和机身内壁的摩擦力,破坏食材的细胞壁,将细胞中的维生素、矿物质、植化素、蛋白质等充分释放出来,从而更好地促进人体消化和吸收。
    的头像 发表于 11-08 11:35 515次阅读
    直流无刷<b class='flag-5'>破</b>壁机解决方案

    tas5548输入全音量的i2s数据会音,为什么?

    TAS5548我现在使用的是tas5548+tas5416方案,音源是电脑 cd机等,i2s输入tas5548。 问题是: 电脑或cd全音量输出, 功放小音量工作,声音伴随着低频会有咔咔 的
    发表于 11-05 06:51

    控交换机说明书

    电子发烧友网站提供《控交换机说明书.rar》资料免费下载
    发表于 11-01 10:23 0次下载

    正常音量信号输入tas5548后音的原因?怎么解决?

    我现在使用的是cs8416+tas5548+tas5416方案,发现一个问题,音源是电脑同轴输出。 问题是:电脑最大音量输出, 功放声音伴随着低频会有咔咔 的音(同样音量的同轴信号接到其他数字
    发表于 08-15 08:13

    玩具反斗使用OpenAI的Sora文本转视频工具制作&quot;品牌电影&quot;

    你对玩具反斗(Toys“R”Us)有美好的回忆吗?据悉,该玩具零售巨头正借助人工智能威廉希尔官方网站 谋求品牌复兴,近日发布了一则声称使用OpenAI的Sora文本转视频工具制作的"品牌电影",引发业界关注
    的头像 发表于 07-03 16:40 753次阅读

    卷积神经网络在文本分类领域的应用

    在自然语言处理(NLP)领域,文本分类一直是一个重要的研究方向。随着深度学习威廉希尔官方网站 的飞速发展,卷积神经网络(Convolutional Neural Network,简称CNN)在图像识别领域取得了
    的头像 发表于 07-01 16:25 717次阅读

    鸿蒙ArkTS声明式开发:跨平台支持列表【文本通用】

    文本通用属性目前只针对包含文本元素的组件,设置文本样式。
    的头像 发表于 06-13 15:09 475次阅读
    鸿蒙ArkTS声明式开发:跨平台支持列表【<b class='flag-5'>文本</b>通用】

    华为射频天线口匹配设计及调试指导

    分享一份华为关于射频天线匹配的设计机调试指导,做过相关的设计,觉得指导性比较强,可以供参考,也是很好的学习资料。Chrent整体介绍1.1概述华为终端模块产品设计中,虽然天线口与外接天线连接器
    的头像 发表于 05-23 08:27 1231次阅读
    华为射频天线口<b class='flag-5'>匹配</b>设计及调试指导

    输电线路防外措施:毫米波雷达防外在线监测装置|精准测距

    输电线路上安装毫米波雷达防外在线监测装置(DX-WPS100-JG3),可以帮助运维人员及时发现线路外隐患,并提供有效的外信息。该装置通过激光雷达扫描有效范围内的物体移动,进行高精度测距,判断
    的头像 发表于 03-29 10:14 1509次阅读

    快速全面了解大模型长文本能力

    关于LLM的长文本能力,目前业界通常都是怎么做的?有哪些威廉希尔官方网站 点或者方向?今天我们就来总结一波,供大家快速全面了解。
    发表于 02-22 14:04 855次阅读
    快速全面了解大模型长<b class='flag-5'>文本</b>能力

    东风乘用车2024年1月销量2万,新能源车销量首月

    继东风奕派百200家中介机构成功建设之后,品牌首款电动轿跑车型eπ007已正式登陆门店,订单当日万。东风纳米01车型更是收获超过5000辆业绩,以百上市开启交付模式。
    的头像 发表于 02-02 14:41 795次阅读

    什么是匹配滤波器?如何理解匹配滤波器?

    [导读]为增进大家对匹配滤波器的认识,本文将对匹配滤波器、匹配滤波器的详细理解予以介绍。 匹配滤‍波器作为滤波器的一种,在信号处理系统中发挥着重要作用。为增进大家对
    的头像 发表于 01-12 08:39 1678次阅读