甜过初恋!浙大博士用200个西瓜130页论文,教你用机器学习科学挑瓜

大数据文摘出品

作者:易琬玉

刚刚送走了最热七月,转眼就迎来了最热八月。

2019年是人类有气象纪录以来最热的几个年份之一,虽然这个夏天还没结束,但气象学家们已经有十足把握做出这个判断。

为了应付热,人们想出了很多办法。在炎热面前,空调是安全感的来源,而西瓜,是幸福感的来源。根据Worldatlas世界地图网2018年的数据,中国人一年要吃掉近800亿斤西瓜。中国的西瓜产量占全世界的70%,约为第二名的20倍,但这依旧无法满足广大吃瓜群众,几乎每年都要依赖进口。

为了提高瓜农收入,扩大西瓜的对外出口,也顺便造福一下我们广大吃瓜群众。三年前,有位浙江大学的博士毛建华,用近200个西瓜,写了篇近130页的博士论文,系统阐释了如何通过机器学习听声音辨别西瓜的成熟度

古往今来传统挑瓜大法

古往今来,有一个全球通用的挑瓜窍门——敲它!

一般来说,未熟西瓜声音较清脆,敲打时会发出「咚咚咚」的声音,成熟瓜声音比较低浊,发声为「嘭嘭嘭」,而过熟西瓜则会发出「扑扑扑」的声音。

虽然在挑选西瓜时,“敲西瓜”是广为采用的方法。但是这种方法完全依靠经验且费时费力,无法用于大量检测。

作者在文中提到,西瓜是否适时采收对西瓜品质影响极大,过熟或者不熟采摘都会影响西瓜的品质与口感。在我国,采收时机主要还是依赖于瓜农的主观经验,他们往往通过生长周期、气候(主要是气温)以及观察瓜皮颜色、纹理来判断西瓜成熟情况。

我国西瓜产量和种植面积居世界第一,但是出口量却不到产量的1%。不仅是因为我们自己吃得多,还因为西瓜产后检测和处理手段落后,导致质量良莠不齐,商品化程度低。

科学挑瓜:声学无损检测技术

论文写道,水果内部品质无损检测是实现水果产后商业化处理的重要一环。随着现代计算机技术、图像处理技术、传感器技术和测量技术的飞速发展,无损检测技术以其非侵入、省时快捷的特点逐渐取代传统的有损检测技术,被广泛的用于农产品品质检测。

相较于其他的无损检测技术,声学检测具有速度快、准确度高、成本低的特点。

声学无损检测方法主要通过检测水果的质地来判定其成熟度或缺陷。西瓜的成熟度与内部结构和成分有关,而这些变化会反应在声音变化上。这个方法的原理和我们拍西瓜听声响是一个意思,只不过更加准确高效。

通过论文图标可以看到,装置包括敲击装置、托盘、麦克风、控制电路和上位机等。通过敲击装置撞击西瓜瓜皮发出声音,在控制电路作用下完成敲击信号采集,并传送给声学参数分析软件。

为了获得更准确的数据,作者对结构和材料都进行了优化处理。

首先是声音信号的预处理,包括敲击声音信号的端点检测和去噪。通过线性预测残差法结合切比雪夫I型低通滤波器进一步去除了原信号中的噪声与毛刺,在提高信噪比的同时,确保原有声学特征的准确提取。

一切准备就绪后,作者进行了两种试验,分别为成熟度分类试验和空心判定试验。

试验中选用的麒麟西瓜样本于2015年5月底至6月初从杭州市余杭区仓前镇吴山前村五组化农吕天欢处的温室瓜棚分四批次采摘,共计200个西瓜。这四挑样本分别作为未成熟样本、成熟样本、过熟样本和空心样本。

剔除在运输和搬运过程中损坏的样本后,剩余190个西瓜样本(49个未熟化+49个成熟瓜+49个过熟化+43个空心瓜)。将剔除空心瓜之后的147个西瓜随机分为校正集(75个)和验证集(72个),用于西瓜坚实度的定量预测的研究。

成熟度分类试验中,选用 147 个非空心瓜,随机分为两组:建模集 75 个,预测集 72 个。

空心判定试验中,选取 190 个样本(包含有空心瓜),随机分为两组,建模集 97 个,预测集 93 个。

建模集用来建立样本的分类或空心判定模型,预测集用来测试模型的性能。

试验采用了四种常见有监督机器学习算法和模式识别算法,分别是线性判别分析法(LDA)、K-最小近邻法(KNN)、BP 神经网络技术(ANN)和最小二乘-支持向量机法(LS-SVM),以声学特征对未熟、成熟和过熟三种西瓜进行了分类,此外还对空心瓜进行鉴别。其中,LS-SVM法分类效果最佳。

商品化处理关键环节,造福广大吃瓜群众

水果内部品质检测是实现商品化处理的关键环节之一,提高果农和销售商利润,满足消费者对水果品质不断提高的需求,扩大出口。

作者成功设计了一套便携式西瓜成熟度分类和空洞判定的声学检测试验装置。目前仅有少数发达国家研制出了商用化的西瓜品质无损在线检测设备,国内尚无同类产品。

之前陕西师范大学博士孙灵霞的八万字论文《八角茴香对卤鸡肉挥发性风味的影响极其作用机制》引发网友热议。

论文主要讲了加入八角茴香和没有加入八角茴香的卤鸡肉到底有什么区别,通过这种对比来了解风味在卤煮过程中有什么影响,风味是如何形成的。了解卤煮的温度、火力、加热时间,让风味达到可控,对于后面的风味的调控和控制才能起到指导作用。

尽管大家都在调侃用掉了多少鸡肉,是否需要帮忙如何处理实验材料,但是孙灵霞博士及其团队的部分研究成果已经被推向市场了。正如她所表示的——研究目的是想要克服传统工艺的弊端,保证品质的一致和稳定,把中国的卤煮推向世界。

这和本文关于西瓜检测的论文作者毛建华的目的不谋而合——提高中国西瓜的商品化、扩大出口。这些题目看起来不那么学术科研工作,背后其实都是科研工作者满满的努力和情怀。

用机器学习科学吃瓜,你学会了吗?

参考资料:https://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CDFD&dbname=CDFDLAST2017&filename=1017071405.nh&uid=WEEvREcwSlJHSldTTEYzVnB3WXI4eW9qNkhrMjdqZFpPYzR4Yk5hVm0zZz0=

Image placeholder
飞coder
未设置
  91人点赞

没有讨论,发表一下自己的看法吧

推荐文章
Adobe又逆天!不用机器学习,用13.5M软件把《长安十二时辰》变成水墨动画

大数据文摘出品作者:曹培信用过修图软件的同学们应该都知道,利用强大的GAN,已经可以实现一键转换照片风格的功能,比如将你拍的风景照转换成一副印象派的画作。现在,轻松转换视频风格的软件也诞生了!Secr

HTTPS虐我千百遍,我却待她如初恋!

本篇将讨论HTTPS的加解密原理,很多人都知道RSA,以为HTTPS=RSA,使用RSA加解密数据,实际上这是不对的。HTTPS是使用RSA进行身份验证和交换密钥,然后再使用交换的密钥进行加解密数据。

NeurIPS 2019公布获奖论文!新增杰出新方向奖项,微软华裔研究员斩获经典论文

大数据文摘出品备受瞩目的NeurlPS2019周日一早在温哥华拉开序幕,今天,组委会通过一篇博客公布了包括杰出论文奖、杰出新方向论文奖等五大类奖项。NeurIPS,全称神经信息处理系统大会(Confe

1000 行 Python 代码脚本 bug,或影响上百篇学术论文

《Nature》杂志2014年的一篇论文包含了一个Python脚本,其中有一个模块是根据文件的排序返回值,但Python并没有定义查询的文件顺序。这意味着在不同的操作系统上,该脚本返回的值是不同的。

一通骚操作,我把SQL执行效率提高了10000000倍!

场景我用的数据库是mysql5.6,下面简单的介绍下场景课程表:create table Course(c_id int PRIMARY KEY,name varchar(10))数据100条学生表:

5分钟带你了解浪潮商用机器FP5466G2服务器

海量数据时代,传统的存储架构已经难以满足大规模高并发下系统稳定性,存储设备的弹性扩展和异构存储资源整合等诸多挑战。浪潮商用机器正是针对复杂而多样化的应用需求和大数据、人工智能等新兴应用场景,全新推出企

浪潮商用机器FP5466G2服务器评测报告

海量数据时代,传统的存储架构已经难以满足大规模高并发下系统稳定性,存储设备的弹性扩展和异构存储资源整合等诸多挑战。浪潮商用机器正是针对复杂而多样化的应用需求和大数据、人工智能等新兴应用场景,全新推出企

2019机器学习框架之争:与Tensorflow竞争白热化,进击的PyTorch赢在哪里?

大数据文摘出品来源:thegradient编译:张大笔茹、曹培信、刘俊寰、牛婉扬、Andy2019年,机器学习框架之争进入了新阶段:PyTorch与TensorFlow成为最后两大玩家,PyTorch

Python 教程-机器学习

Python有着海量的可用于数据分析、统计以及机器学习的库,这使得Python成为很多数据科学家所选择的语言。 下面我们列出了一些被广泛使用的机器学习及其他数据科学应用的Python包。

制定机器学习训练数据策略的6个技巧

人工智能(AI)和机器学习(ML)如今已经十分常见。AI指的是机器模仿人类进行认知的概念,ML是一种用于构建AI的方法。如果AI是指计算机可以根据指令执行一组任务,那么ML就是机器从数据中摄取、解析和

从关系型数据库到分布式机器学习,揭秘腾讯大数据十年发展历程

大数据技术在过去10多年中极大改变了企业对数据的存储、处理和分析方式。如今,大数据技术逐渐成熟,涵盖了计算、存储、数仓、数据集成、可视化、NOSQL、OLAP分析、机器学习等丰富领域。在未来,大数据技

TensorFlow技术主管Peter Wardan:机器学习的未来是小而美

大数据文摘授权转载自OReillyAIPeteWardan任谷歌TensorFlow移动和嵌入式团队的leader,在O’ReillyAIConference2019的Keynote演讲环节,他对机器

做机器学习项目数据不够?这里有5个不错的解决办法

许多开展人工智能项目的公司都具有出色的业务理念,但是当企业AI团队发现自己没有足够多的数据时,就会慢慢变得十分沮丧……不过,这个问题的解决方案还是有的。本文将简要介绍其中一些经笔者实践证明确实有效的办

为什么IoT需要机器学习才能蓬勃发展?

人们一直在热烈讨论大数据和人工智能等技术的机遇和威胁,并对它们的未来表示担忧。与此同时,公司希望通过安装越来越多的传感器,来提高效率降低成本。然而,InData实验室的机器学习顾问表示,如果没有适当的

如何使用TensorFlow机器学习对图像进行分类?

本文将介绍如何使用迁移学习使用TensorFlow机器学习平台对图像进行分类。在机器学习环境中,迁移学习是一种技术,使我们能够重用已经训练的模型并将其用于另一个任务。图像分类是将图像作为输入并为其分配

一份关于机器学习“模型再训练”的终极指南

机器学习模型的训练,通常是通过学习某一组输入特征与输出目标之间的映射来进行的。一般来说,对于映射的学习是通过优化某些成本函数,来使预测的误差最小化。在训练出最佳模型之后,将其正式发布上线,再根据未来生

机器学习在高德用户反馈信息处理中的实践

1.背景作为国内领先的出行大数据公司,高德地图拥有众多的用户和合作厂商,这为高德带来了海量的出行数据,同时通过各个渠道,这些用户也在主动地为我们提供大量的反馈信息,这些信息是需要我们深入挖掘并作用于产

机器学习——单变量线性回归

机器学习之单变量线性回归modelrepresentation模型表示引言 给定房屋面积和房屋价格的数据,然后以房屋面积为横坐标,房屋价格为纵坐标,绘制数据点。通过绘制曲线,获得房屋房价的模型,根据房

2000多个Bug!这个系统让银行瘫痪、13亿人账户出错、最终损失超过28亿

2000多个bug,这样一个千疮百孔的系统,被用在了一家有13亿用户的银行里。这是去年TSB银行系统迁移大事故的报告结果,出自SlaughterandMay律所。Bug连篇、测试没做好、IT服务商无能

盗版12306骗3000万人下载,暴利高仿App是如何花式捞钱的?

眼看着春运一天一天临近,我按捺不住激动的心情,准备加入抢票大军。可是,当我在应用商城搜索12306时,却发现一大批“12306”。这些App下载量从几万到几千万(未标“官方版”的累计下载量超一千万),

在头条和百度搜索了100个关键词之后,我们发现……

作者|闫丽娇苏琦编辑|苏琦• 常用名词搜索方面,百度站外内容占比更高,内容来源比头条更多元。头条搜索的信息流广告目前还没有接入;• 疑问解答类搜索,百度的内容发散性更杂,而头条在信息准确度上更能理解用

Python程序员进阶必备:从新手到高手的100个模块

在知乎和CSDN的圈子里,经常看到、听到一些python初学者说,学完基础语法后,不知道该学什么,学了也不知道怎么用,一脸的茫然。近日,CSDN的公众号推送了一篇博客,题目叫做《迷思:Python学到

让20000人心跳加速的表白!华为云究竟说了什么?

当前, 云市场玩家面临业务增长、能力快速迭代、业务转型的压力,华为云全新优化的华为云生态伙伴计划3.0将设置专项激励、创新扶持基金,以及更多的人材养成、严选市场激励,与合作伙伴共享红利、共担风险、共同

零基础学习Swift中的数据科学

概述Swift正迅速成为数据科学中最强大、最有效的语言之一Swift与Python非常相似,所以你会发现2种语言的转换非常平滑我们将介绍Swift的基础知识,并学习如何使用该语言构建你的第一个数据科学

MongoDB初学者最常用的10个命令

1.登录mongodb 以下命令可以用于登录mongodb数据库,但是需要保证用户你声明的数据库中存在对应的用户和密码 mongo--host--port-u-p--authenticationDat