0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习模型也能分得清菜系吗?

算法与数据结构 来源:未知 作者:胡薇 2018-08-10 15:26 次阅读

吃饭的时候会见到很多奇怪的菜名,很多店常常会取一些奇怪的名字来吸引眼球,吃饭的时候基本靠猜,或者……通过食材预估一下彩色和口味是否符合自己的要求。其实通过食材预测菜系,用 python 也可以做到!

可以用机器学习的方法搭建、训练和测试模型,并通过评估矩阵来选择最优模型,实现原材料与菜系的映射。为了实现预期的功能,我们需要进行以下三个步骤。

1.加载并分析数据

2.建立模型

3.模型预测

加载并分析数据

以意大利菜系为例,我们准备好以下格式的样例数据。其中“id”代表不同的菜肴种类,“cuisine”则代表菜系名称。

拿到数据后,首先对数据进行提取,其中配方节点如下。其中包含了食谱 id,菜肴类型和成分列表的训练集。

之后将 features 与 target 分别赋值到 train_ingredients 和 train_targets。通过统计分析等操作,可以计算出使用最频繁的前 10 种原料,并将原料名和出现次数赋值到 sum_ingredients 字典中。通过样例数据,还能计算出意大利菜系中使用最频繁的前 10 种原料,并将原料名和出现次数赋值到 italian_ingredients 字典中。

得到的结果可以通过 matplotlib 进行可视化。通过数据分析,可以得出许多有意思的信息,比如,巴西菜用的最多的食材有洋葱、橄榄油、柠檬等。而在中国,柠檬显然不是家常饭的常客。我们用的最多的食材有酱、芝麻油、玉米淀粉等。小编猜测,老干妈一定对中国排名第一的食材有巨大贡献!

日本比较有特色的清酒和酱油也都榜上有名。而在寒冷的俄罗斯,黄油则成为餐桌上必不可少的食材,成为战斗民族每天所需能量的重要来源。英国更不必多说,如果你热爱黄油、奶油、土豆和牛奶,去英国就是了!

建立模型

建立模型的过程可能稍微有点复杂,主要分以下四步进行:

1、单词清洗

2、特征提取(使用TF_IDF)

3、数据分割与重排

调用 train_test_split 函数将训练集划分为新的训练集和验证集。

4、训练模型

在训练模型的过程中,需要尝试不同的参数,挑选出泛化力最好的模型。通过训练模型,可以计算得出验证集上的得分。得分越高,说明分类准确度(正确分类的菜肴百分比)越高。这样,一个优秀的模型就大功告成啦!

模型预测

在测试文件 test.json 中,配方的格式与 train.json 相同,只删除了美食类型,因为它是我们要预测的目标变量。

总的来说,要实现通过食材预测菜系的过程并不复杂,但是如何完善代码、优化模型,使分类体系和匹配程度更高,才是我们要完成的关键目标。如果不能做到数据的有效清洗和分类,就会出现很多法国菜被误分为意大利菜这样的情况。

至于能不能分清川菜和湘菜……可以自己来试一试!这个项目其实来自优达学城 Udacity 的「机器学习工程师」纳米学位。

优达学城 Udacity由Google 无人车之父Sebastion Thrun创立,与Google、Facebook、亚马逊等名企联合打造了一系列前沿威廉希尔官方网站 课程,旨在让每个人都能用远低于线下教育的成本学习硅谷前沿威廉希尔官方网站 ,最终成为有能力通过威廉希尔官方网站 改变世界的抢手人才。2017 年8 月,腾讯宣布将 Udacity 纳米学位项目作为内部员工学习内容。

与国内其他平台相比,Udacity 的一大优势是来自硅谷的独家特色实战项目。项目难度深入浅出,能够让学习者快速将所学运用到实际生活,并直观看到学习成果。下面的部分项目成果示例来自「机器学习工程师」和「深度学习」纳米学位的正式课程:

项目示例 1训练机器人走迷宫

通过实现 Q-learning 算法解决走迷宫问题。同时你有机会将你的算法应用在股市中,让机器学习出高收益策略。

项目示例 2猫狗图像识别

使用深度学习方法识别图片中是猫还是狗。

实战项目示例 3训练四轴飞行器学会飞行

设计一个深度强化学习系统,构建惩罚函数、强化学习模型、深度学习隐藏层帮助四轴飞行器了解每一个动作的优劣。你的四轴飞行器将从一系列动作状态中,选择最优的策略来平稳起飞和降落。

实战项目示例 3风格迁移

深度学习模型可以用来完成「风格迁移」项目。神经网络会学习这些画作采用的技巧,并学会如何自己应用这些绘画技巧。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8408

    浏览量

    132575
  • python
    +关注

    关注

    56

    文章

    4793

    浏览量

    84634

原文标题:机器学习模型,能分清川菜和湘菜吗?

文章出处:【微信号:TheAlgorithm,微信公众号:算法与数据结构】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    机器学习模型评估指标

    机器学习模型指标在机器学习建模过程中,针对不同的问题,需采用不同的模型评估指标。
    发表于 09-06 12:51 1106次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>模型</b>评估指标

    DP DP1.0 DP++

    本帖最后由 gk320830 于 2015-3-8 12:15 编辑 有没有大神分得清他们的区别?PIN定义&功能{:11:}
    发表于 03-28 19:00

    机器学习模型之性能度量

    机器学习模型的性能度量
    发表于 05-12 10:27

    什么是机器学习? 机器学习基础入门

    另一方面,机器学习是向计算机提供一组输入和输出,并要求计算机识别“算法”(或用机器学习的说法称为模型)的过程,这种算法每次都将这些输入转化为
    发表于 06-21 11:06

    部署基于嵌入的机器学习模型

    1、如何在生产中部署基于嵌入的机器学习模型  由于最近大量的研究,机器学习模型的性能在过去几年里
    发表于 11-02 15:09

    指令和伪指令分得清吗?

    指令(instruction):告诉计算机从事某一特殊运算的代码,如数据传送指令、算术运算指令、位运算指令、程序流程控制指令、串操作指令、处理器控制指令。一条指令通常由两部分组成:操作码和地址码。
    的头像 发表于 06-01 10:58 6912次阅读
    指令和伪指令<b class='flag-5'>分得清</b>吗?

    统计学和机器学习的真正差别。你分得清吗?

    这两种方法的目标不同,尽管使用的方法类似。机器学习算法的评估使用测试集来验证其准确性。统计模型可以使用置信区间,显着性检验和其他检验对回归参数进行分析,以评估模型的合法性。由于这些方法
    的头像 发表于 04-08 08:55 8619次阅读
    统计学和<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的真正差别。你<b class='flag-5'>分得清</b>吗?

    AI的真真假假你分得清

    AI,人工智能,令人兴奋教人愉快,因为机器居然做的跟人一样,甚至比人做的更好。
    发表于 04-10 16:59 2456次阅读

    微处理器实现机器学习

    许多公司目前专注于为机器学习构建专门的硅材料,以便在数据中心内训练网络。他们还希望在边缘使用硅来对机器学习模型进行推理运行数据,以查看数据是
    的头像 发表于 04-15 16:37 1830次阅读

    灯具的种类百科:你分得清哪些是可以调光的吗

    随着威廉希尔官方网站 的发展,灯具的种类越来越多。那你分得清哪些是可以调光的吗?今天我们来聊一聊,有哪些光源是可以调光的。
    的头像 发表于 12-24 11:14 1697次阅读

    SB接头那么多种怎么分得清

    说起USB,想必大家对这个词儿都不默生,USB接头那么多种,怎么分得清呢? 常见USB接头及连接线介绍 通过上面两幅图,我们心里已经有了一个大致的概念了,那么在USB接口设计的时候,通常我们要在
    的头像 发表于 11-18 10:39 4226次阅读
    SB接头那么多种怎么<b class='flag-5'>分得清</b>

    如何评估机器学习模型的性能?机器学习的算法选择

    如何评估机器学习模型的性能?典型的回答可能是:首先,将训练数据馈送给学习算法以学习一个模型。第二
    发表于 04-04 14:15 1022次阅读

    激光加工纳秒激光、皮秒激光、飞秒激光,你分得清吗?

    大家对激光加工并不陌生,但你对经常能听到的纳秒激光、皮秒激光、飞秒激光等,你是否分得清呢?▌我们先来搞清楚时间单位换算1ms(毫秒)=0.001秒=10-3秒1μs(微秒)=0.000001
    的头像 发表于 06-21 17:25 1359次阅读
    激光加工纳秒激光、皮秒激光、飞秒激光,你<b class='flag-5'>分得清</b>吗?

    机器学习算法汇总 机器学习算法分类 机器学习算法模型

    机器学习算法汇总 机器学习算法分类 机器学习算法模型
    的头像 发表于 08-17 16:11 1098次阅读

    分得清启动电容和运行电容?

    电容器的容量是一个重要的参数,通常以微法拉(μF)为单位。启动电容的容量一般较大,而运行电容的容量则相对较小。因此,可以通过测量电容器上的标注容量来判断哪一个是启动电容,哪一个是运行电容。
    发表于 11-06 09:49 5207次阅读