谷歌推出开源工具DeepVariant，用深度神经网络识别基因变异-电子发烧友网

Google今天推出了一个名叫DeepVariant的开源工具，用深度神经网络来从DNA测序数据中快速精确识别碱基变异位点。

学科研究的革命性进展，特别是基因学上，需要依赖于新威廉希尔官方网站的出现。比如桑格发明了测序法之后，才实现了人类基因组的测序。

再比如DNA（微阵列）芯片威廉希尔官方网站的诞生，使得大规模的基因测序成为可能。这些威廉希尔官方网站让我们能够获得大量遗传信息，可以更广泛地应用于健康、农业和生态上。

基因测序领域里，最革命性的威廉希尔官方网站当属2000年初首次商用的高通量测序（缩写为HTS）了。HTS可以大规模、低成本、快速地获得任何生物的基因序列。

不过，HTS有个致命的问题在于，测序出来的结果不是完整的，而是碎片化的片段信息。

比如测的是人的基因序列的话（也就是说，信息量级为23对染色体上的30亿对碱基排序），那么得到的测序结果是不到10亿个短序列片段，一般每个短序列片段我们称为读取单位（reads）。

每个读取单位含有100个碱基对（不同读取单位的信息需要重叠，才能最后拼全），而每个碱基的错误率范围是0.1%到10%。所以，一直以来，对于HTS来说，最大的挑战是把碎片化的结果信息拼成一整段完整的序列信息。

瓶中基因组联盟Genome in a Bottle Consor tium（GIAB），和精准FDA平台（美国药监局做的基因组信息学社区和共享数据平台）一样，致力于提高基于HTS基因测序结果。他们能提供高精度的人体基准基因组序列信息。

把测序结果与基准基因序列一比对，就可以得到很多个碱基变异位点（就是上图打星的地方），这些位点，可能是SNP单核苷酸多态性导致的，也可能是测序过程中复制出错造成的。

今天，Google Brain团队，联合同属于Alphabet旗下的生命科学兄弟公司Verily，用了两年多时间，研发出了一个名叫DeepVariant的开源工具，专门用深度神经网络来识别HTS结果中DNA测序数据里这些碱基变异位点。这个工具在准确率上和精确度上，比传统的比对拼接方法都高出一大截。

DeepVariant，把工作量巨大的拼接问题（HTS碎片化的结果拼接成完整的基因序列），转变成了一个典型的图像分类问题。而图像分类正是谷歌擅长的威廉希尔官方网站。

2016年，DeepVarient还在PrecisionFDA Truth Challenge中赢得了最高SNP性能奖（Highest SNP Performance）。在那之后，Google Brain团队又将错误率降低了50%。

下面的四幅图，分别代表实际测序的片段和基准序列的比对结果。

△A:单核苷酸多态性造成的碱基变异位点；

B:一条染色体上少了一个碱基；

C:两条染色体上都少了一个碱基；

D:复制错了的碱基变异位点。

在比对过程中，要回答的一个关键的问题是，怎么判断比对后得到的碱基变异位点，是存在于两条染色体中，还是只在一条里，还是都没有。造成碱基变异位点的原因不只一种，最常见的三种可能是单核苷酸多态性，或多插了一个碱基，或少复制了一个碱基。

这些变异位点如果用视觉识别的算法就能快速找出来。大大提高HTS后的比对拼接的效率。

因为瓶中基因组联盟Genome in a Bottle Consortium（GIAB）提供的人体基准基因组序列信息是高精度可信的，或者更严谨地说，是最接近真实序列的信息。

通过这个基准序列得到的复制数据，谷歌团队可以拿它们来训练基于Tensor Flow的图像分类模型，所得到的DeepVariant，最后可以区别真实序列数据和复制数据。

尽管DeepVariant根本不懂什么是基因组序列，也不懂HTS，但是只用了一年，就已经赢得了PrecisionFDA Truth Challenge中的最高SNP性能奖（Highest SNP Performance）。而且到目前为止，把已有最优异的方法拼接错误率降低了50%多。

在发布开源代码的同时，Google Brain还发布Google Cloud上的DeepVarient工作流，方便开发者用它来处理大型数据集。

最后，附上相关链接：

Google Research Blog介绍：https://research.googleblog.com/2017/12/deepvariant-highly-accurate-genomes.html

开源代码：https://github.com/google/deepvariant

Google Cloud版：https://cloud.google.com/genomics/deepvariant

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6167

浏览量
105361
人工智能

人工智能

+关注

关注
1791

文章
47259

浏览量
238419

原文标题：谷歌推出开源工具DeepVariant，用深度学习识别基因变异

文章出处：【微信号：gh_ecbcc3b6eabf，微信公众号：人工智能和机器人研究院】欢迎添加关注！文章转载请注明出处。

卷积神经网络的实现工具与框架

卷积神经网络因其在图像和视频处理任务中的卓越性能而广受欢迎。随着深度学习威廉希尔官方网站的快速发展，多种实现工具和框架应运而生，为研究人员和开发者提供了强大的支持。 TensorFlow 概述

发表于 11-15 15:20 •265次阅读

FPGA在深度神经网络中的应用

随着人工智能威廉希尔官方网站的飞速发展，深度神经网络（Deep Neural Network, DNN）作为其核心算法之一，在图像识别、语音识别、自然语言处理等领域取得了显著成果。然而，传统的

发表于 07-24 10:42 •674次阅读

残差网络是深度神经网络吗

残差网络（Residual Network，通常简称为ResNet）是深度神经网络的一种，其独特的结构设计在解决深层网络训练中的梯度消失和梯度爆炸问题上取得了显著的突破，并因此成为

发表于 07-11 18:13 •1094次阅读

pytorch中有神经网络模型吗

处理、语音识别等领域取得了显著的成果。PyTorch是一个开源的深度学习框架，由Facebook的AI研究团队开发。它以其易用性、灵活性和高效性而受到广泛欢迎。在PyTorch中，有许多预训练的

发表于 07-11 09:59 •700次阅读

PyTorch神经网络模型构建过程

PyTorch，作为一个广泛使用的开源深度学习库，提供了丰富的工具和模块，帮助开发者构建、训练和部署神经网络模型。在神经网络模型中，输出层是

发表于 07-10 14:57 •500次阅读

深度神经网络与基本神经网络的区别

在探讨深度神经网络（Deep Neural Networks, DNNs）与基本神经网络（通常指传统神经网络或前向神经网络）的区别时，我们需

发表于 07-04 13:20 •868次阅读

如何使用MATLAB神经网络工具箱

神经网络是一种模拟人脑神经元网络的计算模型，广泛应用于各种领域，如图像识别、语音识别、自然语言处理等。在MATLAB中，可以使用神经网络工具

发表于 07-03 10:34 •2493次阅读

matlab神经网络工具箱结果分析

神经网络是一种强大的机器学习威廉希尔官方网站，广泛应用于各种领域，如图像识别、语音识别、自然语言处理等。MATLAB提供了一个功能强大的神经网络工具箱，可以帮助用户快速构建和训练

发表于 07-03 10:32 •598次阅读

bp神经网络是深度神经网络吗

BP神经网络（Backpropagation Neural Network）是一种常见的前馈神经网络，它使用反向传播算法来训练网络。虽然BP神经网络在某些方面与

发表于 07-03 10:14 •844次阅读

深度学习与卷积神经网络的应用

随着人工智能威廉希尔官方网站的飞速发展，深度学习和卷积神经网络（Convolutional Neural Network, CNN）作为其中的重要分支，已经在多个领域取得了显著的应用成果。从图像识别、语音

发表于 07-02 18:19 •906次阅读

卷积神经网络的原理是什么

卷积神经网络（Convolutional Neural Network，简称CNN）是一种深度学习模型，广泛应用于图像识别、语音识别、自然语言处理等领域。本文将详细介绍卷积

发表于 07-02 14:44 •649次阅读

深度神经网络模型cnn的基本概念、结构及原理

深度神经网络模型CNN（Convolutional Neural Network）是一种广泛应用于图像识别、视频分析和自然语言处理等领域的深度学习模型。引言

发表于 07-02 10:11 •9741次阅读

深度神经网络模型有哪些

深度神经网络（Deep Neural Networks，DNNs）是一类具有多个隐藏层的神经网络，它们在许多领域取得了显著的成功，如计算机视觉、自然语言处理、语音识别等。以下是一些常见

发表于 07-02 10:00 •1391次阅读

神经网络架构有哪些

神经网络架构是机器学习领域中的核心组成部分，它们模仿了生物神经网络的运作方式，通过复杂的网络结构实现信息的处理、存储和传递。随着深度学习威廉希尔官方网站的不断发展，各种

发表于 07-01 14:16 •708次阅读

详解深度学习、神经网络与卷积神经网络的应用

在如今的网络时代，错综复杂的大数据和网络环境，让传统信息处理理论、人工智能与人工神经网络都面临巨大的挑战。近些年，深度学习逐渐走进人们的视线，通过深

发表于 01-11 10:51 •2040次阅读

搜索历史

谷歌推出开源工具DeepVariant，用深度神经网络识别基因变异