一种有效的无监督深度表示器(Mix2Vec)-电子发烧友网

摘要

本文由深兰科学院撰写，文章将为大家细致讲解一种有效的无监督深度表示器(Mix2Vec)，该方法可将异构数据映射到统一的低维向量空间，避免混合异构数据相似度度量偏差问题。同时，该方法基于深度异构信息网络，采用随机混洗预测学习机制，并融合先验分布匹配和结构信息最大化学习目标，学习混合异构的基于向量空间的通用表示，可以用于无监督和有监督的学习任务。

随着机器学习的发展和广泛应用，(无监督或有监督)表示学习被应用于处理复杂(高维、异构等)特征数据。通过将复杂特征数据映射到统一空间，可以有效避免复杂数据中的差异性，并提供方便有效的数据统一处理(例如：距离度量)。

01问题

混合异构数据中的挑战

现实生活中的大量数据都混合了数值型和类别型属性，这些数据往往表现出以下一些典型特征：(1)数据中一些属性是静态的，而另一些是动态的;(2)某些属性经常存在缺失值，且不同数据的缺失值的稀疏程度不同;(3)数据中可能是异构的，不同的属性可能具有不同的分布和结构;(4)实际数据往往没有足够的可用标记信息并且标记此类数据成本太高，或者标签信息(例如：路径和规划)很难用以模型训练。这些数据特征在企业、制造、商业和医疗保健等典型应用的数据中很常见。图1源自于构造的数据，举例展示了混合异构数据中的上述特征。

一种有效的无监督深度表示器(Mix2Vec)

图1 现实生活中混合数据的特征：动态性、稀疏性、异质性

混合数据表示学习主要的挑战是来自多个方面。首先，很难在一个表示模型中处理上述所有特征和学习目标。因为上述每一种数据特征、每一个学习目标在实际中都非常具有挑战性，并且将他们组合在一起会使学习系统非常复杂。因此，现有方法要么将混合数据类型转换为一种类型，要么对于每种数据类型分别学习其向量表示，然后所学的各种类型数据的表示合并作为混合数据的表示。

此外，混合数据可能是静态的，也可能是动态的，并且在结构和分布上呈现出明显的异质性，表示学习在保留原始信息的同时捕获这样的异质性是非常具有挑战性。现有方法通常侧重于单独的解决某一个方面，而不是在一个模型中同时解决上述这些问题。然后，在没有监督信息的情况下，确定哪些信息应考虑到表示中以及验证生成的表示是否有效则都具有一定挑战性。

最后，数据本身的质量(缺失值)以及其他包括稀疏性、属性冗余和互补性在内的其他问题进一步增加了完成上述表示学习任务的难度，而现有的研究往往只是处理上述问题中的单个问题。

02动机

混合异构数据表示学习的空缺

通过调研现阶段表示学习的文献资料，可知目前没有一种表示学习方法可以同时解决上述的无监督混合数据表示中挑战。现有方法可以根据其学习目标分为基于下游任务的方法，自我监督的方法和基于重构的方法：

1基于下游任务的方法是学习一种数据表示，以最大化在特定学习任务的学习目标(例如，软聚类)。此类方法学习的表示是为提升特定模型的学习性能而定制的，但往往很难迁移到其他模型和任务上。

2自我监督方法需要在数据中指定特定的关系(例如，相同上下文中的对象相似)以学习数据表示，并且用于表示学习的监督信息是针对单个数据类型、特定域(例如，自然语言处理)和假设(例如，时间一致性)，使得这些方法很难应用于混合数据表示学习中。

3基于重构的方法最大化了原始输入及其对应表示之间的相互信息性，以保留与原始输入中足够多的信息。然而，信息保存并不一定能够保证表示质量，而且现有的基于重建的方法集中于研究数值型数据(例如，图像和视频)，数值型数据中两个值之间的距离有特定的语义含义(例如，图像中的值的大小的表示更暗或更亮)来体现。对于基于重构的方法来说，很难重建混合数据，因为混合数据中可能存在各种语义含义，甚至有些没有特定的语义含义。

03方法

混合异构数据表示学习的目标和机制

以下将介绍一种新的混合数据表示学习器Mix2Vec：尝试解决上文中所提到的数据特点和学习挑战，旨在通过构建功能强大的混合数据表示器来学习多方面无监督混合数据表示。该表示器具有多种机制来应对上述数据特征和表示学习中的挑战。

Mix2Vec采用以下三种机制来实现上述多方面目标：

1采用随机混洗预测对输入数据进行随机的变换，并最大化原始数据的表示和经过混洗后数据的表示之间的互信息性。

2采用估计分布匹配的方法来将原始输入分布中的先验知识嵌入到学习的表示中。

3采用结构信息增强的方法来使表示中的结构信息量最大化。

这些机制将同时在深层神经表示器Mix2Vec实现，如此一来，Mix2Vec可以有效地将具有上述各种特征的混合数据转换为基于向量空间的表示形式。这种学习的表示形式是通用的，并且对于不同的学习任务是透明且可复用的。

一种有效的无监督深度表示器(Mix2Vec)

图2 Mix2Vec学习机制

给定混合数据的输入，无监督表示学习将学习一种映射函数，在无监督的情况下以将混合输入转换为连续表示。假定X和Y分别为混合数据原始输入空间和连续表示空间，无监督学习的任务是学习一系列可微分参数方程。对于Mixe2Vec而言，给定来自原始输入空间的n个样本，即，需要学习一个编码器来实现以下三个目标：

01互信息最大化(Mutual Information Maximization)

最大化输入及其表示之间的互信息，在Mix2Vec中通过随机混洗预测(Random Shuffling Predic tion，RSP)目标机制来实现;

02先验分布匹配(Prior Distribution Matching，PDM)

强制数据表示的分布匹配某一先验分布，使得学习的数据表示具有所需的特征;

03结构信息量最大化(Structural Informativeness Maximization，SIM)

最大化表示中的结构信息量，这是对上述目标的补充，有利于从原始输入中保留结构信息。

图2显示了Mix2Vec表示学习的工作流程，其中展示了上述待实现的三个目标以及为不同目标实现的机制。对于目标1，本工作中将原始输入随机混洗变成为新输入，并且将原始输入和对应混洗后的输入都编码为其对应的数据表示，而后通过解码器从原始输入和对应的混洗后输入的数据表示中预测混洗位置(属性);对于目标2，基于从输入中获得的先验知识，将从原始输入编码的数据表示的分布与先验分布相匹配;最后，对于目标3，最大化学习到数据表示的结构信息。将上述三个目标组合起来构成Mix2Vec整体的学习目标和机制，共同指导混合异构数据的表示学习。

04验证

Mix2Vec学习效果

通过可视化包括Mix2Vec及其变体(不同的超参数)在内的所有表示器所学到的数据表示，以显示学习到的数据表示的可分离性。为了将数据集所学到的表示可视化为二维空间，实验中引入了t分布的随机邻居嵌入可视化法方法，将高维表示向量转换为二维表示向量。

实验中，为每个数据集随机抽取600个这些二维向量，并在图3中展示它们的位置，图3展示在Churn上的可视化效果。

从图中结果可知，Mix2Vec可以生成包含更多信息的高度结构化表示，从单个目标的可视化效果来看，RSP擅长捕获单个信息，PDM提供先验匹配，SIM突出结构表示，符合Mix2Vec在设置之初融合三个目标的原因。

一种有效的无监督深度表示器(Mix2Vec)

图3 Mix2Vec在Churn上数据表示的结果可视化

05结论

在现实世界中，以无监督的方式进行混合异构数据表示是非常苛刻的挑战。该工作中针对具有稀疏性、动态性和异构性等复杂特征的混合数据，引入了一种有效的无监督表示方法Mix2Vec。Mix2Vec通过预测输入的随机混洗操作，将数据表示的分布与输入分布匹配，并增强数据表示中的结构信息。Mix2Vec可以生成复杂的混合数据的通用且可重复使用的数据表示，以满足多个方面的目标，包括解决上述混合数据的特征、支持信息表示质量以及实现不同学习任务的更好学习性能。

下一期将介绍Mix2Vec每个机制具体实现方法，以及Mix2Vec在不同下游任务上的性能。

请继续关注此频道以获取最新的研究成果!

原文标题：威廉希尔官方网站冲击波| 异构数据的无监督表示学习(一)

文章出处：【微信公众号：DeepBlue深兰科技】欢迎添加关注!文章转载请注明出处。

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7006

浏览量
88955
模型

模型

+关注

关注
1

文章
3229

浏览量
48813
机器学习

机器学习

+关注

关注
66

文章
8408

浏览量
132576
深兰科技

深兰科技

+关注

关注
1

文章
55

浏览量
5959

原文标题：威廉希尔官方网站冲击波| 异构数据的无监督表示学习（一）

文章出处：【微信号：kmdian，微信公众号：深兰科技】欢迎添加关注！文章转载请注明出处。

时空引导下的时间序列自监督学习框架

【导读】最近，香港科技大学、上海AI Lab等多个组织联合发布了一篇时间序列无监督预训练的文章，相比原来的TS2Vec等时间序列表示学习工作

发表于 11-15 11:41 •241次阅读

一种基于深度学习的二维拉曼光谱算法

近日，天津大学精密仪器与光电子工程学院的光子芯片实验室提出了一种基于深度学习的二维拉曼光谱算法，成果以“Rapid and accurate bacteria identification

发表于 11-07 09:08 •199次阅读

<b class='flag-5'>一种</b>基于<b class='flag-5'>深度</b>学习的二维拉曼光谱算法

mix2015a中的ep引脚是什么

请问mix2015a中的ep引脚是什么？手册里没有，但是实际有，嘉立创里也有

发表于 10-18 19:19

JK触发器是一种什么稳态电路

JK触发器是一种具有两个稳态的数字逻辑电路，广泛应用于数字电路设计中。引言在数字电路设计中，触发器是一种非常重要的基本逻辑元件。触发器可

发表于 08-22 10:39 •908次阅读

边沿式d触发器是一种什么稳态电路

边沿式D触发器是一种双稳态电路。双稳态电路是指具有两个稳定状态的电路，即触发器有两个稳态，可分别表示二进制数码0和1，无触发信号作用时

发表于 08-22 10:15 •682次阅读

一种供电总线威廉希尔官方网站 POWERBUS二总线

首先给大家介绍一种总线威廉希尔官方网站 Powerbus总线，特性： 1.总线可供电，通讯和供电无需电气隔离 2.总线抗干扰能力强，可与市电并走 3.可支持总线电流20A（2400bps） 4.具备总线短路保护

发表于 07-23 13:38

一种无透镜成像的新方法

使用OAM-HHG EUV光束对高度周期性结构进行成像的EUV聚光显微镜为了研究微电子或光子元件中的纳米级图案，一种基于无透镜成像的新方法可以实现近乎完美的高分辨率显微镜。层析成像是一种强大的

发表于 07-19 06:20 •376次阅读

<b class='flag-5'>一种</b><b class='flag-5'>无</b>透镜成像的新方法

为什么深度睡眠期间RTC定时器会丢失呢？

RTC定时器在深度睡眠期间丢失是否是一种设计功能？我观察到以下内容（使用 SDK 1.3）： The chip is awakened from deep sleep after a timer

发表于 07-11 07:17

神经网络如何用无监督算法训练

神经网络作为深度学习的重要组成部分，其训练方式多样，其中无监督学习是一种重要的训练策略。无监督学

发表于 07-09 18:06 •784次阅读

深度学习中的无监督学习方法综述

应用中往往难以实现。因此，无监督学习在深度学习中扮演着越来越重要的角色。本文旨在综述深度学习中的无监督

发表于 07-09 10:50 •691次阅读

基于FPGA的类脑计算平台 —PYNQ 集群的无监督图像识别类脑计算系统

用基于脉冲前馈卷积网络，运用 STDP 无监督学习算法，相较于 CNN 等传统神经网络，更具有生物真实性，事件触发型的权重更新模式使计算需求降低，能耗减少。 (2)利用 SNN 仿真器

发表于 06-25 18:35

无监督深度学习实现单次非相干全息3D成像

论文信息背景引入数字全息术因其能够从单一视点对3D场景进行成像而备受关注。与直接成像相比，数字全息是一种间接的多步骤成像过程，包括光学记录全息图和数值计算重建，为包括深度学习在内的计算成像方法

发表于 05-13 17:38 •436次阅读

一种利用光电容积描记（PPG）信号和深度学习模型对高血压分类的新方法

了深度神经网络在计算机视觉任务中的有效性，并为开发更强大、更复杂的神经网络架构铺平了道路。 ResNet-50是一种深度神经网络架构，由研究人员Kaiming He、XiangyuZh

发表于 05-11 20:01

Meta发布新型无监督视频预测模型“V-JEPA”

Meta，这家社交媒体和科技巨头，近日宣布推出一种新型的无监督视频预测模型，名为“V-JEPA”。这一模型在视频处理领域引起了广泛关注，因为它通过抽象性预测生成视频中缺失或模糊的部分来

发表于 02-19 11:19 •1009次阅读

如何使用UART将TRAVEOTM T 2G设备从深度睡眠中唤醒

睡眠模式下可用，但是 UART 模式不支持从深度睡眠唤醒。在这种情况下，要通过 UART 实现从深度睡眠中唤醒，一种选择是使用 UART_RX 引脚的 GPIO 中断作为唤醒源。在此应用程序中，在

发表于 01-31 06:08

搜索历史

一种有效的无监督深度表示器(Mix2Vec)

评论

时空引导下的时间序列自监督学习框架

一种基于深度学习的二维拉曼光谱算法

mix2015a中的ep引脚是什么

JK触发器是一种什么稳态电路

边沿式d触发器是一种什么稳态电路

一种供电总线威廉希尔官方网站 POWERBUS二总线

一种无透镜成像的新方法

为什么深度睡眠期间RTC定时器会丢失呢？

神经网络如何用无监督算法训练

深度学习中的无监督学习方法综述

基于FPGA的类脑计算平台 —PYNQ 集群的无监督图像识别类脑计算系统

无监督深度学习实现单次非相干全息3D成像

一种利用光电容积描记（PPG）信号和深度学习模型对高血压分类的新方法

Meta发布新型无监督视频预测模型“V-JEPA”

如何使用UART将TRAVEOTM T 2G设备从深度睡眠中唤醒