利用机器学习识别加密项目风险-电子发烧友网

加密货币是一种存在于数字世界的交易媒介（另一种支付形式），依靠加密威廉希尔官方网站使交易安全。加密货币背后的威廉希尔官方网站允许用户直接向他人发送货币，而不需要通过第三方，如银行。为了进行这些交易，用户需要设置一个数字钱包，而不需要提供身份证号码或信用评分等个人细节，因此可以让用户伪匿名。

对于普通的加密货币用户来说，这种匿名性可以让他们放心，因为他们的个人信息或交易数据不会被黑客窃取。然而，这种交易匿名性的提高，也容易被犯罪分子滥用，进行洗钱、恐怖融资等非法活动。这种非法活动给区块链钱包用户以及加密货币实体都造成了巨大的损失。虽然金融行动特别工作组（FATF）等监管机构已经在这些实体的监管中引入了标准化的指导方针，但由于每天都有大量的加密货币实体和交易发生，监控加密货币空间是一项具有挑战性的任务。

解决方案

因此，人们有兴趣利用开源信息，例如新闻网站或社交媒体平台，来识别可能的安全漏洞或非法活动。在与Lynx Analytics的合作中，我们（来自新加坡国立大学的一个学生团队）已经致力于开发一个自动工具，以刮取开源信息，预测每篇新闻文章的风险分数，并标记出风险文章。这个工具将被整合到Cylynx平台（https://www.cylynx.io/）中，这是Lynx Analytics开发的一个工具，用于帮助监管机构通过使用各种信息源监控区块链活动。

开源信息的数据获取

我们确定了3类开源数据，这些数据可以提供有价值的信息，帮助检测加密货币领域的可疑活动。这些类别是：

传统的新闻网站，如谷歌新闻，它将报告重大的黑客事件。

加密货币专用新闻网站，如Cryptonews和Cointelegraph，它们更有可能报道小型实体和小型安全事件的新闻。

社交媒体网站，如Twitter和Reddit，在官方发布黑客新闻之前，加密货币所有者可能会在那里发布有关黑客的消息。

检索文章和社交媒体帖子的内容，然后建立情绪分析模型。该模型为文章中提到的实体分配了一个风险活动的概率。

情绪分析模型

我们尝试了四种不同的自然语言处理工具进行情绪分析，即VADER、Word2Vec、fastText和BERT模型。在通过选定的关键指标（召回率、精度和F1）对这些模型进行评估后，RoBERTa模型（BERT的一个变种）表现最佳，被选为最终模型。

RoBERTa模型对新闻文章（标题和摘录）或社交媒体帖子的文本进行处理，并为特定文本分配一个风险分数。由于该文本在数据收集过程中已经被标记为实体，我们现在已经有了加密实体的相关风险指标。在后期，我们将多个文本的风险分数结合起来，给出一个实体的整体风险分数。

RoBERTa原本是一个使用神经网络结构建立的情感分析模型，我们将最后一层与我们标注的风险分数进行映射，以适应风险评分的环境。为了提高模型在未来文本数据上的通用性，我们进行了几种文本处理方法，即替换实体、删除url和替换hash。然后我们使用这个表现最好的模型进行风险评分。

风险评分

现在，每篇文章都有一个相关的来源（news/reddit/twitter），一个风险概率和一个计数，指的是文章被转发、分享或转发的次数。为了将这些风险概率转换为加密货币实体的单一风险得分，我们首先将文章的概率值缩放到0到100的范围内，并获得每个来源的加权平均值，结合文章的风险得分和计数。加权平均数用于对计数较高的文章给予更大的重视，因为份额数量很可能表明文章的相关性或重要性。

在计算出各来源的风险得分后，我们对各来源的风险得分进行加权求和，得到综合得分，公式如下：

传统的新闻来源被赋予了更高的权重，因为这些来源更有可能报道重大的安全漏洞（相对于单个用户的黑客事件）。

该解决方案的有效性

我们在2020年1月1日至2020年10月30日的174个加密货币实体的名单上测试了我们的解决方案，并将结果与该时间段内的已知黑客案例进行了比较。我们发现，我们的风险评分方法表现相当出色，在37个已知的黑客案例中识别了32个。我们还分析了我们的解决方案对单个实体的有效性。下图显示了Binance从2020年1月1日至2020年10月30日的风险评分。虚线红线代表已知的黑客案例。从图中我们观察到，我们的解决方案报告了5个已知黑客中的4个黑客的风险得分增加。也有几个峰值与已知黑客案例不一致。然而，这并不构成一个主要问题，因为对我们的模型来说，更重要的是识别尽可能多的黑客，减少未识别的黑客数量。

有趣的发现

在风险评分过程中，我们注意到，与规模较小的实体相比，规模较大的实体的风险评分往往有较大比例的假阳性记录。这是因为大型实体被谈论得更多，因此会有更多的负面帖子和虚假谣言，从而导致更高的不准确率。

另一个值得强调的有趣趋势是，围绕着黑客攻击通常有几个明显的高峰。这是由于不同数据源的反应时间不同。社交媒体网站Twitter和Reddit通常是第一个看到高风险事件发生时的高峰，因为用户会发帖提出他们观察到的异常情况，比如一个实体的网站在没有事先通知用户的情况下宕机。官方消息一般是在官方声明之后，稍后才会发布。

局限性

我们发现，我们的解决方案有两个潜在的局限性，首先是需要不断地维护收集器。网站设计可能会随着时间的推移而改变，这些网站的刮擦器需要更新，以确保相关信息仍能被检索到，从而达到风险评分的目的。

第二个限制是，验证一篇文章是否已被正确地标记为加密货币实体是具有挑战性的。例如，一篇报道Bancor可疑活动的文章可能也会因为一个不相关的事件提到Binance。我们的解决方案会错误地将新闻标记为两个实体，并将Binance标记为风险，即使它不是文本中的关键主题。然而，这并不是一个主要的限制，因为我们只使用新闻文章的标题和摘录来进行风险评分，这通常只包含文章的关键信息。

结语

我们的项目让监管机构可以轻松挖掘开源信息，更好地识别加密货币领域发生的风险事件。我们提供了一个分析文章并预测风险分数的语言模型，以及根据实体和来源信息汇总这些分数的方法。这些方法都被编织成一个可以端到端运行的自动化流水线。将该项目整合到Cylynx平台中，将对其现有功能进行补充，并为监管机构识别高风险加密货币实体提供巨大的帮助。

责任编辑：YYX

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

加密货币

加密货币

+关注

关注
21

文章
4521

浏览量
39683

【实战】人工智能0基础入门：基于Python+OpenCV的车牌识别项目（课程+平台实践）

的车牌识别系统项目。02项目功能本项目致力于利用摄像头捕获的图像数据，通过先进的图像处理和模式识别

发表于 12-16 10:43 •274次阅读

ElfBoard开源项目|车牌识别项目威廉希尔官方网站文档

车牌识别项目基于百度智能云平台，旨在利用其强大的OCR服务实现车牌号码的自动识别。选择百度智能云的原因是其高效的API接口和稳定的服务质量，能够帮助开发者快速实现车牌识别应用。这个开源

发表于 12-06 10:30 •244次阅读

ASR和机器学习的关系

自动语音识别（ASR）威廉希尔官方网站的发展一直是人工智能领域的一个重要分支，它使得机器能够理解和处理人类语言。随着机器学习（ML）威廉希尔官方网站的迅猛发展，ASR系统的性能和准确性得到了显著提升。 ASR

发表于 11-18 15:16 •310次阅读

什么是机器学习？通过机器学习方法能解决哪些问题？

来源：Master编程树“机器学习”最初的研究动机是让计算机系统具有人的学习能力以便实现人工智能。因为没有学习能力的系统很难被认为是具有智能的。目前被广泛采用的

发表于 11-16 01:07 •388次阅读

IP风险画像详细接入规范、API参数（Ipdatacloud）

IP数据云的IP风险画像是基于数据分析和机器学习威廉希尔官方网站的产品。工作原理是对IP地址的多维度数据进行综合分析，进而为企业提供全面的IP风险评估和画像。 IP

发表于 11-15 11:11 •267次阅读

NPU与机器学习算法的关系

紧密。 NPU的起源与特点 NPU的概念最早由谷歌在其TPU（Tensor Processing Unit）项目中提出，旨在为TensorFlow框架提供专用的硬件加速。NPU的设计目标是提高机器学习算法的运行效率，特别是在处理

发表于 11-15 09:19 •441次阅读

eda在机器学习中的应用

在机器学习项目中，数据预处理和理解是成功构建模型的关键。探索性数据分析（EDA）是这一过程中不可或缺的一部分。 1. 数据清洗数据清洗是机器学习

发表于 11-13 10:42 •293次阅读

开源项目！用ESP32做一个可爱的无用机器人

简介作者在完成硕士论文答辩后，利用空闲时间制作了一个他一直想做的机器人——可爱无用机器人。无用机器人原理是一个连接到开关的电机，通过逻辑门控制。当开关被推到“开”时，

发表于 09-03 09:34

开源项目！用ESP32做一个可爱的无用机器人

简介作者在完成硕士论文答辩后，利用空闲时间制作了一个他一直想做的机器人——可爱无用机器人。无用机器人原理是一个连接到开关的电机，通过逻辑门控制。当开关被推到“开”时，

发表于 08-30 14:50

【《软件开发珠玑》阅读体验】居安思危之风险

感谢电子发烧友论坛提供的读书机会。本书分享了关于软件开发和管理的 60 条经验教训，第32条提到面对风险，要么控制项目风险，要么被它反杀。 1.什么是风险？知名理财顾问卡尔理查兹曾说：所谓

发表于 07-09 12:48

如何利用CNN实现图像识别

卷积神经网络（CNN）是深度学习领域中一种特别适用于图像识别任务的神经网络结构。它通过模拟人类视觉系统的处理方式，利用卷积、池化等操作，自动提取图像中的特征，进而实现高效的图像识别。本

发表于 07-03 16:16 •1326次阅读

深度学习与传统机器学习的对比

在人工智能的浪潮中，机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着威廉希尔官方网站的进步，为众多领域带来了革命性的变化。然而，尽管它们都属于机器

发表于 07-01 11:40 •1340次阅读

开源项目！设计一款智能手语翻译眼镜

学习功能，使得设备能够识别手语并将其转换为语音输出。项目还包括了音频放大模块和3D打印的眼镜框架，整体装配简洁高效。未来，项目将致力于提升设备的解释能力，包括更复杂的手势和方向

发表于 05-20 15:59

请问PSoC™ Creator IDE可以支持IMAGIMOB机器学习吗？

我的项目使用 POSC62 MCU 进行开发，由于 UDB 模块是需求的重要组成部分，所以我选择了PSoC™ Creator IDE 来进行项目开发。但现在，由于需要扩展，我不得不使用机器学

发表于 05-20 08:06

机器学习怎么进入人工智能

，人工智能已成为一个热门领域，涉及到多个行业和领域，例如语音识别、机器翻译、图像识别等。在编程中进行人工智能的关键是使用机器学习算法，这是

发表于 04-04 08:41 •303次阅读

搜索历史

利用机器学习识别加密项目风险

评论

【实战】人工智能0基础入门：基于Python+OpenCV的车牌识别项目（课程+平台实践）

ElfBoard开源项目|车牌识别项目威廉希尔官方网站文档

ASR和机器学习的关系

什么是机器学习？通过机器学习方法能解决哪些问题？

IP风险画像详细接入规范、API参数（Ipdatacloud）

NPU与机器学习算法的关系

eda在机器学习中的应用

开源项目！用ESP32做一个可爱的无用机器人

开源项目！用ESP32做一个可爱的无用机器人

【《软件开发珠玑》阅读体验】居安思危之风险

如何利用CNN实现图像识别

深度学习与传统机器学习的对比

开源项目！设计一款智能手语翻译眼镜

请问PSoC™ Creator IDE可以支持IMAGIMOB机器学习吗？

机器学习怎么进入人工智能