0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

解析关于机器学习的八个核心

ml8z_IV_Technol 作者:工程师之余 2018-10-21 09:12 次阅读

机器学习是大数据、人工智能的核心,是从事这个领域的必经之路。但是懂得算法还远远不能体现机器学习的价值所在。如果你是开发者,方便的机器学习,为你涉入该领域提供了便捷。不过,能够确定一套高商业价值的模型,你需要很长的积淀。总结八个机器学习的核心能力以供把控方向。

1、问题模型化能力

机器学习的最终目的是实现某种问题的利益最大化,所有实际问题最终都会转化为一个数据科学的优化问题,那么就需要你有较好的行业背景认识。尽管海量数据会大量缩小你对行业熟知知识的要求,但数据往往不全是海量的,且熟悉的行业背景知识可大大提高效率。

2、复杂数据结构化能力

喂入算法是数据是设计好的,结构化了的数据,但实际数据往往有各种来源,如图像数据、文本数据、空间、事件序列。..故而合理的结构化数据的能力是很有必要的。

3、数据量、数据结构与数据合理预处理的能力

1)数据量VS异常值

所谓异常值,即不是缺失值,也不是错误值,同样是真实情况的表现,之所以觉得一个数据异常,是因为我们能够用到的数据量不够大,无法准确地代表整个此类数据的分布。故当数据量足够大时,异常值不再异常,且提升了数据的覆盖面,如个性化推荐

2)数据平衡VS采样

如果数据分布均衡,应尽可能避免采样;因为上下采样都有其不利影响,上采样不得当,使得数据中存在大量相同的数据,会导致模型过拟合;下采样则必然减少数据信息量。

数据不平衡时,常见的处理方式有:

简单粗暴地复制小样本数量的样本——容易过拟合;

调整权重——其效果基本近似于上一种;

随机森林,使每棵树训练时的样本均衡;

观察导致样本不均衡的因素,或可在该因素下先分类,再分别训练模型。

4、理解特征、并可以有效转换特征的能力

海量数据特征中,必然有很多特征存在相关性,常常通过降维有效合并相关数据,这样,在防止了过拟合的同时,也缓解了计算机的负担;

有时特征经过转换后,预测效果更佳。如连续变量离散化、重新划分离散区间。..。

也可对特征重要性排序,绘制特征数量增加与模型预测结果的关系曲线。

5、选择适当算法的能力

1) 算法不是越复杂越好的,记住:同样的数据下,当所有模型拟合效果相近时,复杂度越小的算法,带来不必要的麻烦越小,可解释性也相对更高。

2) 在相同算法下,训练的效果会随着数据的增加而增加,但超过一定程度后,训练效果将趋于稳定,此时应该考虑更换复杂度较高的算法。

可以参考下图为数据选择合理的算法。

6、优化损失函数的能力

当数据分布不均、或需要为某个类别增加权重时,就需要调整损失函数的权值参数,或增加惩罚项。如通过在特定的错误类型上,增加更多的惩罚来解释它们的权重

7、模型训练与模型融合的能力

想要训练出一个好的模型参数也不简单,最好对算法参数有较深的理解。可以使用栅格搜索(GridSearchCV)辅助调参,但真正得到的好的参数,还需要与你长期的经验相结合。

有时单一的模型不能很好的拟合数据,此时可以将多个模型融合做训练,常见的模型融合有Boosting、Bagging两种。典型的如Adaboost、随机森林

8、区分经验误差与泛化误差

训练集上的效果不能代表实际效果,要得到好的实际预测效果,及减小泛化误差。交叉验证可以实现这一目的,不过最好还要准备一套测试数据来验证。通俗理解:交叉验证是高考前的各种模考,而最终测试数据的结果就是高考结果。

此外可以使用正则化来减小泛化误差。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    47208

    浏览量

    238290
  • 大数据
    +关注

    关注

    64

    文章

    8884

    浏览量

    137408

原文标题:机器学习的八个核心能力

文章出处:【微信号:IV_Technology,微信公众号:智车科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    PLC梯形图编程八个必须步骤

    文章将向您简单介绍PLC梯形图编程八个必须步骤。
    发表于 03-24 10:23 7953次阅读

    USB的八个问题和答案

    本帖最后由 eehome 于 2013-1-5 09:45 编辑 USB的八个问题和答案
    发表于 07-27 10:57

    labview八个项目

    下面的资料会丝毫不缺的给大家发到邮箱资料一:资料二:下面的八个项目都会给大家带上的我们的工具包,全部支持我们的2012版软件下面的例程都会给大家带上的需要的话 qq:271604202
    发表于 03-17 14:48

    有关域名知识八个问题

    有关域名知识八个问题 什么是域名?    Internet域名是Internet网络上的一服务器或一网络系统的名字,在全世界,没有重
    发表于 01-27 10:07 584次阅读

    有关域名的不可不t知的八个问题

    有关域名的不可不t知的八个问题 了解域名的相关知识,下面有关域名的八个经典问题,将会有助于你了解域名相关问题。  
    发表于 02-23 13:50 738次阅读

    轻松高效地设置PCB设计约束的八个步骤

    轻松高效地设置 PCB 设计约束的八个步骤
    发表于 01-06 14:49 0次下载

    确保PCB设计成功的八个步骤

    确保——PCB的设计成功的必要的八个步骤
    发表于 01-06 14:46 0次下载

    确保 PCB 设计成功的八个步骤

    设计过程中,确保 PCB 设计成功的八个步骤
    发表于 05-24 17:12 0次下载

    轻松高效地设置PCB设计约束的八个步骤

    轻松高效地设置 PCB 设计约束的八个步骤
    发表于 05-11 16:44 0次下载

    PCB布线的八个经典问答

    PCB布线的八个经典问答,学习资料,感兴趣的可以看看。
    发表于 10-26 15:28 0次下载

    可设置八个闹时的智能时钟

    可设置八个闹时的智能时钟
    发表于 01-08 14:14 5次下载

    机器学习研究者必知的八个神经网络架构

    本文简述了机器学习核心结构的历史发展,并总结了研究者需要熟知的 8 神经网络架构。
    发表于 02-26 18:40 1114次阅读

    谷歌的AI钢琴精灵:只需用八个按钮,就可帮助人们即兴创作

    机器学习在艺术和音乐方面实现了一些辉煌的成就。最新的例子来自谷歌的创意研究团队Magenta的AI钢琴精灵,只需用八个按钮就可以让你在钢琴上流利地即兴创作。
    发表于 10-18 08:56 1521次阅读

    AMD锐龙4000有八个核心,性能提升56%

    AMD近日正式发布了锐龙4000U、锐龙4000H系列移动APU(代号Renoir),采用7nm工艺、Zen 2架构,最多八个CPU核心八个GPU计算单元(512SP),热设计功耗15/45W。
    的头像 发表于 01-15 09:08 4004次阅读

    八个开关 输入输出只有Proteus图

    Proteus八个开关输入输出
    发表于 12-30 16:50 0次下载