0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

处理器和内存负载、服务器温度和室温的统计信息

lhl545545 来源:存储D1net 作者:存储D1net 2020-06-08 09:35 次阅读

随着人们向基于服务的基础设施部署和自动化程度的提高,存储管理员的角色正在发生变化。智能运维(AIOps)提供了一个框架,既可以减轻资源管理中繁琐任务的负担,同时也解决了通过扩展人力资源无法解决的挑战。

背景

AIOps是调研机构Gartner公司在2016年创造的一个术语。它描述了三个学科(自动化、性能管理和服务管理)组成一个框架来改进基础设施管理员的能力,其实现由多个层组成。

•第1层–数据源。实现自动化以及管理员执行的典型任务需要配置和使用数据。这包括来自系统的遥测和应用程序。

•第2层–实时处理。这意味着实时收集和处理遥测数据,以获取即时价值。

•第3层-规则/模式。需要使用已经确定的规则和模式来分析数据。供应商已经在开发算法,这些算法可以使用PB级的遥测分析,并将其转换为诸如异常检测和故障诊断之类的工具。

•第4层–域算法。其中包括特定于站点的知识,以了解本地化的使用模式和要求。

•第5层–自动化。使用应用程序接口(API)和命令行界面(CLI)来驱动诸如供应和退役(面向客户)之类的任务。这还包括自动化性能管理,例如在可用基础设施中重新平衡工作负载。

跨越所有这些层的是使用机器学习来观察和检测遥测数据中的趋势,异常,这对于工作人员而言是不切实际或无法计算的。因此需要了解人工智能/机器学习如何协助提供更有效的数据和存储管理。

人为因素

为什么企业需要在存储管理中引入诸如AIOps之类的工具?虽然全球创建的信息量继续呈指数级增长,但企业中生成的数据(更重要的是存储在企业中的数据)也呈指数级增长。以前被丢弃甚至没有创建的数据如今被视为具有某种可感知的未来价值。企业越来越多地使用机器学习和人工智能,从越来越多的机器生成的数据获取信息。企业现在正在存储数PB字节的信息,并希望对此进行实际操作。

敏捷性

业务流程正在推动对数据存储容量的更大需求,但这只是IT组织所面临挑战的一方面。平均修复时间(MTTR)对于确保基础设施可用性水平接近100%变得至关重要。IT组织通常希望在问题发生之前就识别并解决问题,而不是等待严重的失败。

•存储和数据保护中对API的需求;

•存储的智慧;

•存储管理和DevOps。

减少或管理硬件干预措施还有其他积极方面。IT部门希望将工程师在数据中心更换故障设备的时间降到最低。任何数据中心干预都是一种风险。众所周知,工程师会因更换而拔出错误的硬件,或者意外地碰到设备并造成意外的停机或重启。

随着企业之间的竞争,从数据分析中获取价值的时间越来越短。这意味着开发人员希望在更短的周期内访问存储设备,最好是自动化和按需访问。随着资源的创建、使用和返回到数据池中,人们预计其配置越来越灵活,这是任何存储管理员都无法有效跟踪的。

第1层-指标

为了实现有效的AIOps,系统需要测量存储操作信息的元数据和度量。这些端点从存储系统的物理和逻辑方面收集数据。例如,单个HDD硬盘或SSD硬盘操作的数据提供了有关温度、永久性和瞬态介质故障、吞吐量、性能和设备正常运行时间的信息。此集合扩展到存储机箱,记录有关前端端口活动、处理器和内存负载、服务器温度和室温的统计信息。

数据收集不仅限于硬件。存储软件非常复杂,许多供应商已将其设计模块化。软件端点可以跟踪内部应用程序崩溃、过度使用内存、硬件驱动程序中的错误以及甚至用于驱动软件的命令的使用。最后一点看起来似乎是一个不寻常的指标,但是,查看最终用户是否在充分利用可用的命令功能或配置正确的最佳实践选项集可能会很有用。

第2、3和4层–实时处理

如果无法实时进行整理和分析,那么所有这些信息都将毫无用处。通常,人们看到两层分析方法。首先,供应商将数据整理到大型的中央存储库或数据仓库中,这些存储库或数据仓库代表了整个客户安装群中数以万亿计的各个端点数据。

这些数据集合提供了足够的信息,可以对硬盘故障或可能影响整个客户群的配置问题进行统计分析。作为信息的长期存档,供应商使用这些数据来修复硬盘固件中的错误或主动替换易发生故障的介质。这个数据源还可用于验证存储操作系统软件的质量。

最终,这种类型的数据收集对供应商有利,因为它有助于提高系统可用性并减少由字段引发的支持调用的数量。不过,客户也看到了好处。通过代码更新可能引入的错误或其他问题可以避免或减轻。向管理员提供信息以做出明智的决策,而不是遇到其他客户已经遇到的问题。

异常现象

整理大量单个客户数据的第二个好处是能够使用机器学习和人工智能威廉希尔官方网站 ,突出配置中的异常或问题。这些场景可能包括确定性能热点、容量或吞吐量的意外增长,或基础设施的其他组件(如主机或虚拟机监控程序层)中的配置数据问题。

供应商越来越多地提供识别勒索软件,在多个硬件配置之间重新平衡工作负载,并为将来的升级或硬件更换提供建议的功能。最后一个选项特别有用,因为它允许管理员建立一个模型,该模型选择最有效的新硬件配置进行升级和替换。

人工智能/机器学习

在讨论过程中,都提到了机器学习和人工智能的使用。为什么这一点作为现代基础设施管理的特征变得如此重要?在存储领域,管理员将认识到许多问题很容易消耗数小时或数天的工作时间。

一些良好的例子包括确定性能热点(并加以解决)、跨系统(前端或后端)平衡I/O活动以及跨多个存储平台管理容量增长。幸运的是,通过设计、现代存储解决方案可以自动解决许多挑战,从而节省管理员数小时的时间来处理更有价值的任务,从而为他们的客户增加价值。

尽管在设计上取得了这些进步,但是仍然出现了人类难以识别的异常现象(勒索软件就是一个很好的例子)。人工智能提供了自动分析大量数据并创建经过训练的模型的功能,然后可以对活跃系统进行实时分析。

新工具

人们需要新的管理工具才能利用AIOps的优势。存储供应商已经开始从基于GUI的系统转移到管理界面,现在提供命令行界面(CLI)和应用程序接口(API)。命令行界面(CLI)提供了将命令集成到脚本和自动构建过程中的能力。应用程序接口(API)提供了更高级的交互级别,尤其是在提取报告或遥测数据时。

这并不意味着图形界面就此终结。实际上,更加精明的存储供应商已经转向使用GUI作为显示系统状态,显示增长和性能趋势的仪表板,并且通常转向基于异常的系统基础设施可视化。
责任编辑:pj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19334

    浏览量

    230177
  • 数据
    +关注

    关注

    8

    文章

    7077

    浏览量

    89158
  • 服务器
    +关注

    关注

    12

    文章

    9222

    浏览量

    85601
收藏 人收藏

    评论

    相关推荐

    服务器怎么做负载均衡?

    服务器怎么做负载均衡 ? 云服务器负载均衡通过分配策略、自动扩展、健康检查和跨区域部署四个核心威廉希尔官方网站 来实现。 分配策略包括轮询、权重分配和最少连接数,确保流量均匀分配。自动扩展根据
    的头像 发表于 12-24 10:40 109次阅读

    Jtti:新加坡服务器的性能如何评估

    支持高达16GB的DDR3内存配置,为运行多个应用程序和处理大量工作负载提供充足的内存。同时,服务器配备了500GB SSD,提供快速的读写
    的头像 发表于 12-19 15:15 92次阅读

    负载均衡服务器服务器如何连接?

    负载均衡服务器服务器如何连接?负载均衡服务器服务器可通过多种方式连接,包括直接连接、交换机连
    的头像 发表于 12-09 13:41 128次阅读

    浪潮信息元脑®服务器率先支持英特尔®至强®6处理器

    北京2024年6月7日 /美通社/ -- 6月6日,英特尔在全球范围内发布了英特尔®至强®6处理器,浪潮信息服务器产品线总经理赵帅受邀参会并发表演讲。会上,浪潮信息多款元脑
    的头像 发表于 06-07 15:36 404次阅读
    浪潮<b class='flag-5'>信息</b>元脑®<b class='flag-5'>服务器</b>率先支持英特尔®至强®6<b class='flag-5'>处理器</b>

    浪潮信息推出业界首个支持50℃进液温度服务器

    近日,浪潮信息再次突破威廉希尔官方网站 边界,其旗舰产品NF5180G7服务器成为业界瞩目焦点。这款服务器不仅实现了1U空间内的超高密度设计,更在散热威廉希尔官方网站 上取得了革命性进展,成为首个支持浸没式液冷50℃进液
    的头像 发表于 05-09 11:27 675次阅读

    集特GS0-5001 支持国产海光2/3号7000/5000系列处理器高性能服务器主板

    处理器服务器
    GITSTAR 集特工控
    发布于 :2024年04月26日 14:30:52

    台积电:AI服务器处理器预计翻番,拉动收入增长 

    台积电将 AI 服务器处理器严格限定为用于 AI 训练与推理的 GPU、CPU 及 AI 加速,剔除网络边缘与消费级设备中的此类产品。
    的头像 发表于 04-19 15:04 373次阅读

    国产龙芯处理器产品:主板,笔记本,工控机, 服务器

    处理器服务器
    GITSTAR 集特工控
    发布于 :2024年03月22日 17:45:51

    服务器入侵现象、排查和处理步骤

    近期有一个朋友的服务器(自己做了网站)好像遭遇了入侵,具体现象是: 服务器 CPU 资源长期 100%,负载较高。 服务器上面的服务不能正常
    发表于 03-22 10:56 1135次阅读
    <b class='flag-5'>服务器</b>入侵现象、排查和<b class='flag-5'>处理</b>步骤

    站群服务器需要多大内存

    站群服务器内存需求取决于网站的数量和流量,以及服务器需要运行的应用和服务。RAKsmart小编为您整理发布站群服务器需要多大
    的头像 发表于 03-04 09:48 418次阅读

    linux服务器和windows服务器

    ,这在满足个性化需求和增强服务器安全 性上具有优势。 Linux服务器还具有出色的性能和稳定性。相比之下,Windows服务器在性能和稳定性方面稍有不足。特别是在处理
    发表于 02-22 15:46

    龙芯单路服务器主板龙芯3C5000处理器集特讲解# 龙芯服务器# 龙芯3C5000

    处理器服务器
    jf_67464575
    发布于 :2024年02月03日 10:20:29

    国产2U机架式服务器,支持单路、双路、四路龙芯处理器

    处理器服务器
    jf_46214561
    发布于 :2024年02月02日 09:43:39

    gpu服务器是干什么的 gpu服务器与cpu服务器的区别有哪些

    gpu服务器是干什么的 gpu服务器与cpu服务器的区别 GPU服务器是一种专门用于处理图形运算的服务器
    的头像 发表于 01-30 15:31 889次阅读