判菜系、调众囗、打分数,这一回,我们用大数据烧菜?

大数据文摘投稿作品

作者:blmoistawinde

年前,文摘菌曾经扒下了全网所有“年夜饭”菜谱,找到了最有年味的一道菜的一文,对于菜谱数据分析产生了浓厚的兴趣,遂自己也写了个爬虫爬取了某美食网站的一些精选菜谱和食材信息。

当看到这些美味佳肴的数据源源不断入库时,我旺盛的好奇心一下子被激发了起来:

  • 世界菜系琳琅满目,能不能从数据中挖掘出它们的特色?
  • 能不能从大数据中得到大家对美食口味的特别偏好?
  • 若是我自己找到甚至做了一道菜,能不能自动判断它的菜系,甚至给它打分?

我相信丰富的数据挖掘和机器学习方法将能够满足我的好奇心,现在就动手进行探索吧。

菜系特色

我认为菜系的特色食材应该是一个菜系能够用来区别于其他菜系的特殊食材。

我想到,机器学习中的分类方法正好可以帮助我们挖掘出这些区分性的特征!

川菜可能是中国最为人津津乐道的菜系之一了,于是我把每道菜的食材当成特征,先训练了一个区分是否川菜的逻辑回归模型,模型的参数就能够揭示川菜的特色了,让我们看看:

上半部分是川菜的特色食材,大名鼎鼎的郫县豆瓣位列榜首想必是众望所归。而看着后面的那些食材,草鱼、剁椒、鸡爪、花椒…水煮鱼、泡椒凤爪这些菜肴的辛香是不是已经飘入鼻腔了呢?

下半部分则是川菜相对于其他菜系来说不喜使用的食材(排斥食材)。番茄酱、冰糖、蜂蜜等甜味食材榜上有名,是因为习惯了重辣,清甜已经不如法眼了吗?另外,作为上海人的笔者还注意到,自己身边十分普遍的鸡蛋在川菜中似乎并不常用,莫不是蜀道难,难于养母鸡?看来这些数据中确实有颇多内涵,值得我们细细探究哈。

用同样的方法,我得到了22种菜系的特色食材和排斥食材:

看着这张有味道的表格,笔者的脑袋里已经自动冒出了意面、寿司、菠萝饭;夹馍、羊排、扬州饭,种种美食的画面了。不知道来自五湖四海的大家又会想到什么美食呢?

菜谱评分

要给菜谱打分,实际上就可以看成一个回归问题。给出人类对菜品的评分,然后再让模型去学习人的评分标准即可。不过当下有一个问题,就是我的数据中并没有标准的人类评分。

为了解决这个问题,我构造了一个属性,令评分=log(菜谱收藏数)/log(浏览量),这是基于一个直觉——一道菜越好,看到这个菜谱的人就越可能收藏它,也就是收藏的比例会更高。利用这种“评分”,我训练了一个xgboost的回归模型。

有了训练出的模型,我尝试了用它来给几道菜打打分:

或许这个模型比较喜欢重口味?

xgboost模型也有很好的解释性,我们可以通过它输出的特征重要性了解到影响菜谱评分的重要食材。

油盐糖、葱姜蒜等家常食材和调味料位列前茅,看来能把家常的食材驾驭好对于菜品的质量就很重要了,平平淡淡即是真。

各人口味

若是要承办一顿盛宴款待来自五湖四海的朋友,那么众口难调可能就是一个要考虑的重要问题了。再好的一道菜也未必能够合所有人的口味,但是,如果能够让菜桌上菜品的分布与各人的喜好相适应,每个人也就都能吃上自己喜欢的食物了。接下来,我正是要从这里的数据中找到大家的口味偏好。

数据中没有直接的口味信息,不过,我们可以从菜谱的名称、原料、简介等文字信息中粗略的估计其口味。我选取了“酸 辣 咸 甜 香 鲜 清淡”作为7种基本口味,若是它们出现在一道菜的文字信息中,就认为这道菜有这种滋味。一道菜可以有多重口味,比如加辣椒的酸菜鱼至少就有“酸、辣”两种滋味。

下面,以收藏数占比为标准,看看网站上大家的总体口味偏好都是怎样的吧:

看来大家对美食的首要要求就是要香(毕竟真香!),其次鲜、辣也是非常流行的要素。这样看来,理想的一桌宴席,应当是满桌的菜品都香飘四溢,有殷红的辣菜让人食指大动,鲜美的汤品让人久久回味,还有酸、甜、咸味的小菜点心更增胃口。

虽然总体的喜好有很参考价值,但是每个人都有自己好的一口,不能一概而论。不过,要是知道一个人的故乡,就能够大致猜到他的口味爱好了。那么我们怎么了解各地人们的口味爱好呢?

数据中有着各地的菜系信息,若是能够统计各种菜系的口味分布,不就能够估计出这个地方人们的爱好了吗?下面的动图就展示了13种菜系的相对口味偏好。

图中数值为菜系间的相对比较值,而非绝对值。绝对值数据及本可视化代码在后面提供。

所以,若是能够了解宴会上客人的故乡,我们就能够更准确地选择我们的菜品。就比如辣味虽好,若是有江浙地区的客人,也要记得留一些清淡的菜品哦。

那么,我们就大数据烧菜吧?

现在,我们已经可以用数据估计人群的口味偏好,用模型给我们的菜品打分了,那么后面似乎我们就可以用大数据投其所好,择优烧菜?

或许有能力的同仁真的可以做这样的尝试,不过在笔者自己的小家中似乎还没有能与大数据相匹配的丰富食材。这不,一天家里面准备烧意面,正可以在美食网站上查好的烧法,比如我就看中了”罗勒番茄意面”,然而,家中并没有罗勒这种东西。

罗勒是一种香草,青翠的绿色又为菜肴增色不少……这时,我的目光投向冰箱中的香菜,它说不定也能收到类似的奇效呢?

于是,在我的巧思,和家人的巧手下,一道香菜番茄酱意面就这么诞生了,色香味也都不错!

不知道大数据会给我这道奇葩的菜(离群值)打出几分?不过我想,充分发挥创意,开拓现有数据中不存在的全新可能性,似乎是一件更享受的事情呢!

注:

1、本文结论,仅供娱乐。如有吻合,不胜荣幸。欢迎大家提出意见、指出问题。由于代码较多较杂不及整理,我把部分代码(动态可视化和原料标准化)和处理后的数据文件开源在我的Github上,有兴趣不妨看看和star一下~

https://github.com/blmoistawinde/hello_world/tree/master/caipu_data_analyze

2、在正式训练模型前需要进行特征工程,筛选掉不重要的特征。而这里我们又要用大量不规范的食材名来做特征,比如说光是豆瓣酱,就有[‘豆瓣酱’, ‘郫县豆瓣酱’, ‘正宗郫县豆瓣酱’, ‘六月香豆瓣酱’, ‘豆瓣酱盐糖鸡精香菜’, ‘辣豆瓣酱’, ‘老干妈和豆瓣酱可以二选一’]这么多种说法,所以这里我们就要合并这些冗余的特征。我把网上采集得到的食材作为标准实体,利用它们的本名和别名把各种描述与这些实体链接(源码见上),就完成了这一步。还可能存在一些少量的不规范描述,我使用低频词过滤消除了它们。

3、分类模型的效果很不错,能够达到96.6%的准确率。但回归模型的R方=0.156,实际上效果并不是很好,所以这一部分的结论可能会有些问题,或许需要更好的评分标准,这里仅作为一种可能性的探索。

注:本原载于作者的CSDN博客:

https://blog.csdn.net/blmoistawinde/article/details/87884777

希望交流的可以到博客处或上面的Github联系。

本文为投稿作品,仅代表个人观点。

作者介绍:

上海西南某高校学森一枚,数据玩家,喜欢有趣有意义的数据挖掘分析。目前兴趣方向在NLP,社交网络分析和知识图谱等。 向往风一般自由,希望拂过之处给世界带来些清新与滋润~

Image placeholder
blue_summer
未设置
  77人点赞

没有讨论,发表一下自己的看法吧

推荐文章
Nginx 配置常用参数,看这一篇就够了

最近在全面学习Nginx,当作笔记了,如有错误,欢迎指出或深入交流。 主模块 #配置用户或者组,默认为nobodynobody。 #userwwwwww; #Nginx开启的worker进程数,

Nginx 配置常用参数,看这一篇就够了

主模块 #配置用户或者组,默认为nobodynobody。 #userwwwwww; #Nginx开启的worker进程数,建议为CPU的核数 #worker_processes2; #指定ngi

1000亿文本信息,高并发MD5查询,这么大数据量的业务怎么弄?

==提问== 沈老师,你好,想请教一个身份证信息检索的问题。公司有一个每秒5万并发查询的业务,(假设)根据身份证MD5查询身份证信息,目前有1000亿条数据,纯文本存储,前几天看你写LevelDB,请

大数据时代,数据湖并不能完全取代数据仓库

数据仓库为组织了解其历史业务表现和推动持续运营提供了一个接入窗口,为数据分析师和业务用户提供了诸如客户行为、业务趋势、运营效率和销售等方面的信息。尽管出现了基于Hadoop和其他一些大数据技术的数据湖

从关系型数据库到分布式机器学习,揭秘腾讯大数据十年发展历程

大数据技术在过去10多年中极大改变了企业对数据的存储、处理和分析方式。如今,大数据技术逐渐成熟,涵盖了计算、存储、数仓、数据集成、可视化、NOSQL、OLAP分析、机器学习等丰富领域。在未来,大数据技

大数据是个技术,数据库才是它最好的产品形态

星环科技(以下简称:星环)的定位是大数据基础软件公司,而非数据库公司,却在数据库方面,做的比很多数据库公司更好更猛?这是为何?“我们认为,大数据是个技术,数据库才是它最好的产品形态”,星环科技研发总监

做银行家里的数据专家:ING探索大数据时代下的金融最佳实践

大数据文摘出品记者:高延6月18-21日,O’ReillyAIConference在北京召开。大会上,来自荷兰的金融公司ING的IT主管BasGeerdink带来了《关于数字驱动企业》的主题分享。进入

“听完你的评价,我们决定拒绝这位明天入职的技术经理”

每个工作日的中午,只要天气晴朗,我都会在午餐后去附近的公园溜达溜达,一来可以帮助肠胃消化,二来则有助于我静心思考工作总结,从而增强写作主题构思的能力。所以,我比较厌烦在这个时间段里聊工作。上周的某天,

在头条和百度搜索了100个关键词之后,我们发现……

作者|闫丽娇苏琦编辑|苏琦• 常用名词搜索方面,百度站外内容占比更高,内容来源比头条更多元。头条搜索的信息流广告目前还没有接入;• 疑问解答类搜索,百度的内容发散性更杂,而头条在信息准确度上更能理解用

快看,我们的分布式缓存就是这样把注册中心搞崩塌

写公众号两年以来,每当有机会写故障类主题的时候,我都会在开始前静静地望着显示器很久,经过多次煎熬和挣扎之后才敢提起笔来,为什么呢?因为这样的话题很容易招来吐槽,比如“说了半天,不就是配置没配好吗?”,

面向回家编程!GitHub标星两万的”Python抢票教程”,我们先帮你跑了一遍

盼望着,盼望着,春节的脚步近了,然而,每年到这个时候,最难的,莫过于一张回家的火车票。据悉,今年春运期间,全国铁路发送旅客人次同比将增长8.0%。达到4.4亿人次,2020年铁路春运自1月10日开始,

12306遭用户吐槽,我们该支持还是反对?

时近年底,春运火车票已进入销售高峰期,在线购票系统12306成为舆论漩涡,被大众推上风口浪尖。虽然,网络购票为大家带来了便利,省去了很多线下购票的麻烦,速度也比以往快了许多,但还是少不了遭用户吐槽。具

不到一百行代码,我们来实现一个简简简简简简简简简简版react库

goodeveningeverybody!这是一篇关于react故事的文章,这个故事主要是讲在一个夜黑风高晚上,react从一个VDOM变成真实DOM的过程。这个过程react经历了从JSX->Rea

包银消费CTO汤向军:消费金融大数据风控架构与实践

01风险在哪里1.1 信用风险根据银行业的风险理论,信用风险是指借款人因各种原因未能及时、足额偿还债权人或银行贷款而违约的可能性。信用风险的风控重点在于,甄别客户违约的原因究竟是还款能力,还是还款意愿

耗时6年生成代码1.6亿行,农业银行大数据平台打造攻略!

摘要: 耗时6年,135个项目,8000页需求,累计投入11000多人月,生成的代码行1.6亿行,支持了8大业务领域,33条业务线,120多个应用场景,这就是中国农业银行大数据平台。近日,中国人民银行

大数据推动教育产业创新发展

《大数据时代》作者维克托•迈尔-舍恩伯格教授著作《与大数据同行:学习和教育的未来》一书指出:当下大数据正悄悄影响到教育体系的每个层面,对于全世界的学习与教育活动,都会产生极为深远的影响。AI辅助教学,

大数据对移动应用开发的影响

大数据如何影响移动应用程序开发?目前,数据量正以前所未有的速度在增长。由于产生的总数据将在几年内跨越泽字节级别,因此更加需要进行大数据高级分析,并从庞大的数据池中获取有价值的信息。数字互联为移动应用开

建立开放的大数据精准扶贫平台,让全社会参与进来!

精准扶贫”的重要思想最早是在2013年11月,习近平主席到湖南湘西考察时首次作出了“实事求是、因地制宜、分类指导、精准扶贫”的重要指示。2015年6月,习近平主席在贵州召开部分省区市党委主要负责同志座

SACC2019:爱奇艺的大数据中台战略(附演讲实录)

  孙斌爱奇艺高级总监主要负责爱奇艺的大数据中台、商业智能、内容智能制作等业务。在互联网产品设计和研发方面有十多年经验,曾就职于微软、hulu、雅虎等公司。摘要:爱奇艺的业务已经从单一的视频业务发展为

税务信息化跨入大数据云计算时代的思考

现状,目前据了解国税总局执行征收管理、行政管理、决策支持和外部信息等四大类应用系统在全国的推广部署,实施大数据开放与共享的建设与开发,已经完成2个国家级税务处理中心的扩容,包括计算存储资源、系统软件及

百分点万亿级大数据平台的建设实践

从互联网、移动互联网到物联网,数据量之巨大已突破想象边界。与此同时,实时数据分析的需求日益增长,那么,当数据量达到亿级、百亿级甚至万亿级规模,实时数据分析如何来做?尤其在ToB/G来说,大多数企业和政

当前政府发展大数据产业思路分享

笔者认为大数据发展大体会经历三个阶段,一、业务的数据化;二、数据的业务化;三、业务的智能化。2018年,各地方政府包括企业通过这几年的大数据建设,基本完成了业务的数据化、和数据开放共享的第一阶段,20

HPE收购MapR,以Hadoop供应商为首的大数据时代落幕

Hadoop三驾马车之一的MapR陷入困境后终于有了着落,今年5月底MapR宣布由于“业绩极差”将被迫关闭公司,MapR给自己设定寻找资金的最后期限是7月3日,一个月后MapR被HPE收购。8月5日,

穿过大数据迷雾 星环科技六载航行

数据是国家基础性战略资源,是21世纪的“钻石矿”与“新石油”,是几乎所有企业的必争之地,大数据的发展使越来越多的企业看到数据的价值。然而中国企业数据底子薄弱,基础软件发展落后,需要更多的企业和人才去建

电信行业如何应对大数据挑战?

根据思科的预测,到2022年,移动数据将达到每月77艾字节。虽然大多数人不会考虑他们每天产生的大量数据,但电信公司对此了如指掌。同时,物联网、智能设备和新内容平台也让电信公司面临着数据冲击。为了将数据