上万条数据撕开微博热搜的真相!

作者:徐麟,某互联网公司数据分析狮,个人公众号数据森麟(id:shujusenlin)

吃瓜前言

关于新浪微博,向来都是各路吃瓜群众聚集之地,大家在微博中可以尽情吃瓜,各种类型的瓜应有尽有,只有你想不到的,没有你吃不到的。微博热搜榜更是各路明星的“必争之地”,能够上热搜也是代表了其知名度,“包月热搜套餐”,“买热搜”是否存在迄今也是一个未解之谜

除了吃瓜群众,新浪微博也聚集着一群被整个互联网圈所同情的一群苦逼程序员,每当有明星放出新闻,特别是结婚、离婚、分手、恋爱这类婚恋题材,新浪微博程序员都会严阵以待,此时的服务器会因为吃瓜群众的大量涌入而变得脆弱起来,随时有崩溃的风险,下图就是一张此前广为流传的程序员在自己婚礼处理服务器崩溃的经典图片:

我们此次通过爬取2019年2W+条热搜数据,包括内容以及搜索指数,为大家揭开微博热搜2019的诸多秘密,一起利用数据“硬核吃瓜”,包括:2019微博热搜最大的瓜,微博程序员集体加班的日子,微博热搜的常客,热搜里的2019互联网……

瓜源获取

我们此次并没有直接去爬取微博的原始数据,而是从一个专门记录微博热搜历史数据的网站获取,网站界面如下:

通过网站的数据接口,我们获取到了今天1月1日至今的2W多条数据,爬取代码如下:

resou = pd.DataFrame(columns=['date','title','searchCount','rank'])resou_date = getBetweenDay('2019/01/01','2019/07/12')for i in resou_date:    print(i)    url= 'https://www.enlightent.cn/research/top/getWeiboHotSearchDayAggs.do?date={}'.format(str(i))    html = requests.get(url=url, cookies=cookie, headers=header).content    data = json.loads(html.decode('utf-8'))    for j in range(100):        resou = resou.append({'date':i,'title':data[j]['keyword'],        'searchCount':data[j]['searchCount'],'rank':j+1},ignore_index=True)

最终获取到的吃瓜数据如下:

硬核吃瓜

有了前面的瓜源获取过程,我们获取到了2W+吃瓜数据,下面就可以开始利用这些数据愉快地开始我们的吃瓜之旅

第一瓜:2019微博热搜最火事件

说到吃瓜,大家首先关注的一定是那些最大的瓜,要吃就吃最大的瓜也是广大吃瓜群众所遵从的基本原则,我们通过对比热搜数据的搜索指数,选取出了15个最大的瓜,数据如下:

看来最大的瓜都是婚恋题材,排名前四的瓜涵盖了结婚、离婚、分手这些广大吃瓜群众所最为关心的内容,并且有了明星加成,结出这些巨型瓜也就不足为奇,大家可以看到排名第14的热搜“今天到底是什么日子”可能会好奇,为何这种标题也会有那么高的搜索量,想要知道这个问题的答案,就请继续去品尝下面的瓜

第二瓜:2019最让微博程序员抓狂的日子

刚才的瓜中,我们留下了一个悬念,为何“今天到底是什么日子”这种看似没有任何营养的内容,都会有那么高的搜索指数。为了回答这个问题,我们统计了2019年每天的TOP100热搜话题平均指数,并绘制了日历热度图:

可以看到6月27日的指数远高于其他天数,而且基本上是其他时间的两到三倍,这一天就是“今天到底是什么日子”这个话题的诞生之日,并且这一天微博服务器毫无疑问地“应声倒地”,我想这一定是让微博程序员怀疑人生的日子

下面我们就来具体看看,这一天到底发生了些什么:

看到这份榜单,我们仿佛看到了程序员们6月27日的绝望。宋慧乔&宋仲基离婚这个巨型瓜的出现,程序员们还可以用自己的信念支撑着服务器不要崩溃,然而正当程序员们以为稳操胜券的时候,范冰冰&李晨分手这个更加巨大的瓜出现了,我想程序员们内心一定是这样的:

因为有了这两个巨型瓜的存在,使得“张若昀&唐艺昕”,“马思纯当司仪”,“杜江否认出轨”这种平时能够轻松hold住的瓜也产生了威力加成,进一步压垮程序员,就连平时低调的B站也请来了五月天,真可谓是“瓜团锦簇”的一天。我想“今天到底是什么日子”这条热搜的创造者很有可能就是新浪微博的程序员

第三瓜:2019最勤劳的瓜生产商

前面提到了6月27日是微博程序员最为抓狂的日子,那么又有那些生产商为广大吃瓜群众源源不断地创造吃瓜素材呢,我们也统计了相关数据,想必这些生产商也是广大程序员们最怕的人:

榜单中易烊千玺以80次的出现次数荣登榜首,也就是说平均每两天他就会为广大群众生产一次“吃瓜素材”,也是非常地勤劳,想到作者一个月一篇原创的节奏,默默留下了悔恨的泪水。周董也在榜单中以78次的数据位居次席,毕竟周董是一代人的青春记忆,大家也都在时刻关注着周董。

或许大家会认为榜单都被娱乐圈所霸占,没啥新意之时,东哥站了出来,成为荣登本榜单的唯一互联网人士,不过个人还是希望今后不要在榜单中再看到东哥的身影,毕竟老话说得好“no news is good news”。

第四瓜:那些专属热搜的词语

如同“****,是怎样的体验”这样的知乎体,“震惊!***”这样的uc体,热搜也有一些比较常出现,能代表热搜独特气质的词语,我们从中选取了一些比较有代表的词语并统计其出现次数

华为在榜单中出现了86次,也印证了大家在上半年对于华为的关注度,未来也希望有更多类似于“华为**系统上线”这样振奋人心的消息出现在热搜中。

同时在小编看来否认,道歉,心疼这三个词是非常有特色的热搜词语,毕竟很难在其他的地方会时不时就看“心疼**”这种标题,我们针对于这三个词语制作了相应的词云:

否认版

208次否认相关话题出现在了热搜榜单,足以说明在这个信息爆炸的时代有太多的事情难以去分辨真假,其中一些内容确实是虚造的,当事人也及时站出来进行否认。不过对于其他的一些事情,想必是“真亦假来假亦真”,需要大家自己去判断

道歉版

强烈建议广大读者收藏上图,特别是在被老板骂或者因为生产BUG而被同事怼的时候拿出来看一下,调节一下自己的心情。想到连菲利普亲王都要道歉,及时认个怂好像也没啥,毕竟你的工资卡里也没剩几个钱

心疼版

最后这个可以说是极具微博特色了,广大吃瓜群众可谓忧国忧民,心疼的对象从韩庚到吴谨言,张雨绮,就连梅西都心疼名单中,这体现出了吃瓜群众乐于助人的正确价值观。

不过小编表示还是要先心疼一下自己,上面那些被心疼的人收入都是小编的上百倍甚至更多,还是先心疼一下自己的花呗比较现实

除此之外,微博热搜也十分热衷于关心明星是不是哭了以及是不是胖了这种话题,可谓“先天下之忧而忧,后天下之乐而乐”,满满的责任感

第五瓜:明星婚恋话题到底有多火

此前提到,排名靠前的内容大多都是明星婚恋题材的内容,比如**和**离婚,**和**结婚又离婚,或者**和**结婚又离婚又复婚……,我们就来看一下这些话题出现的次数

不出所料,广大吃瓜群众对于这类题材都有着非常高的好奇心,为别人的婚恋情况操碎了心,可以说是很努力了,想必未来的**婚恋上市公司的老总一定会在吃瓜群众中诞生,我们也来具体看看那些相关的话题。

结婚 VS 离婚

恋情VS分手

最后我们以一句话来结束这部分的吃瓜内容:“贵圈真乱”

第六瓜:2019热搜中的互联网专属瓜

前面说的那些大多都是娱乐圈的内容,作为互联网从业(banzhuan)人员,对于互联网的专属瓜品也有着强烈兴趣,我们从中选取了互联网圈为2019热搜所生产的瓜品:

出人意料的是TOP2居然都和B站有关,经过查证,这两条都发生在最让微博程序员抓狂,瓜团锦簇的6月27日(比较奇怪的是B站十周年应该是6月26日,但上榜时间确是27日),平时八成熟的瓜立刻熟透。相信互联网人看到这份榜单,也会回忆起很多上半年发生的事情,2019上半年的互联网也是热闹非凡。

吃瓜结语

今天的吃瓜之旅就到这里结束了,看来吃瓜也是门学问,微博热搜数据也是一个大的分析宝库,里面还有很多可以继续分析的点,等待大家去挖掘

Image placeholder
kcompan
未设置
  90人点赞

没有讨论,发表一下自己的看法吧

推荐文章
走近科学,探究阿里闲鱼团队通过数据提升Flutter体验的真相

背景闲鱼客户端的Flutter页面已经服务上亿级用户,因此用户体验尤其重要,完善Flutter性能稳定性监控体系,以便及早发现线上性能问题,也可以作为用户体验提升的衡量标准。那么Flutter的性能到

网易云音乐热评的规律,44万条数据告诉你

本文转载自凹凸数读网易云的每日推荐里藏着你听过的歌,你听过的歌里藏着你的故事。网易云音乐的评论里,藏着许多人的故事。我们爬取了网易云音乐歌单中48400首歌的444054条热评,来看看网易云的热门评论

17 万条人脸数据遭公开售卖;什么值得买辟谣删库跑路新闻;Oracle 修改 JDK 下载要求

苹果发布iPhone11,游戏和电视订阅服务每月4.99美元 苹果在周二的新闻发布会上发布了iPhone11、iPhone11Pro和iPhone11ProMax三款智能手机,9月13日开放预购,9月

Oracle/云MySQL/MsSQL“大迁移”真相及最优方案

最近一段时间碰到一些数据迁移的项目,如:Oracle迁移到MySQL,MsSQL迁移到MySQL,云MySQL迁移到本地MySQL。对于这方面做了系统的整理。包括:迁移方案的选择、如何跳出迁移遇到的坑

我在华为做外包的真实经历!

一个爱钱如命,又有所不为的人。1写在前面我将用系列文章,回顾十年程序生涯,一方面是对职场生涯的阶段性总结,另一方面希望这些经历,对大家往后职场生涯有所启发。我很庆幸一路走来皆是自己的选择,虽然也走了不

Facebook又叒陷数据门,5亿条数据不安全存储在亚马云服务器中

大数据文摘出品编译:周素云上周Facebook用户又经历了糟糕的一周。Facebook发言人对各大主流媒体承认,用户的多组个人数据被存放在亚马逊AWS数据库中,包括数以百万计的Facebook用户的超

微博广告策略工程架构体系演进

概述 1.广告样式与场景 上图是微博广告目前商业场景流,“一屏四大流”。“一屏”指打开微博的Fashion,“四大流”指占据微博商业化的主体,包括关系信息流、热门流、评论流和热搜流。右图为广告投放的

社交媒体登录认证提供者大全 —— Socialite Providers,支持微博、微信、QQ等

社交媒体登录认证提供者大全——SocialiteProviders,支持微博、微信、QQ等 1、简介 SocialiteProviders是一个扩展自LaravelSocialite的OAuth1&

十岁微博的新焦虑

2019年,微博成立整整10年,当我们看到#微博十年#这个热搜话题时,控制不住的回忆在脑海里开始徘徊。这10年里,微博曾以迅雷不及掩耳之势的速度成长。微博2019年Q2财报显示,第二季度净营收4.32

30万微博评论看翟天临与毕业生的爱恨情仇

作者:朱小五&王小九 来源:凹凸数读我将带着北京电影学院表演系的精神伴随我一生的演艺事业!——翟天临硕士论文致谢辞2019年5月27日凌晨,翟天临又上了热搜。这次的热搜绝对不是买的,因为实时搜索微博“

如何设计 QQ、微信、微博、Github 等等,第三方账号登陆 ?(附表设计)

前言:多账户登陆1.创业初期用户名密码注册登陆手机号注册登陆2.数据库设计3.引入第三方账户方案4.数据库设计5.总结前言:多账户登陆互联网应用当中,我们的应用会使用多个第三方账号进行登录,比如:网易

头条数码3C好物节:一场极致种草的狂欢

2009年,淘宝推出第一届“双十一购物狂欢节”。2010年,京东首次以“京东618”开启店庆日。今年是618的第10年,同样第十一届“双十一”不断临近。谁也不曾想到,这两个由电商双巨头造出的促销节日,

Oracle 之利用BBED修改数据块SCN—-没有备份数据文件的数据恢复

测试环境 OS:redhat6.6 oracle:12.1.0.2  BBED(OracleBlockBrowerandEDitorTool),用来直接查看和修改数据文件数据的一个工具,是Orac

大数据时代,数据湖并不能完全取代数据仓库

数据仓库为组织了解其历史业务表现和推动持续运营提供了一个接入窗口,为数据分析师和业务用户提供了诸如客户行为、业务趋势、运营效率和销售等方面的信息。尽管出现了基于Hadoop和其他一些大数据技术的数据湖

MySQL 数据库操作:创建和查看数据库

数据库是数据的集合。MySQL允许我们高效地存储和检索数据库中的数据。在MySQL中,我们可以使用CREATEDATABASE语句创建数据库。但是,如果数据库已经存在,则会引发错误。为了避免该错误,我

MySQL 数据库操作:删除数据库

使用MySQL的DROPDATABASE命令可以很容易的删除一个数据库。数据库删除的同时,所属的数据表将一起被删除。如果删除的数据库不存在,则会引发错误。为了避免错误的发生,可以在DROPDATABA

数据表和视图:创建数据表

在MySQL数据库中使用CREATETABLE命令来创建一个新的数据表。创建数据表的命令包括三个要点: 数据表名称 数据表字段名称 数据表字段的定义 创建数据表的语句: 下面是一个创建MySQL数

Laravel-Binlog 扩展(用于实时监听 MySQL 数据变更、数据同步等场景)

Laravel-Binlogv0.2.1 (该扩展当前用于我司测试环境实时同步Mysql数据变更到ElasticSearch,稳定性待测试!!哈哈哈)我司正式环境走的阿里云DTS数据订阅 基于Sw

JS 中一定要了解的数据类型和数据转换

数据类型 前言 Js中的类型只有6种,其中基本数据类型有5种分别为string,number,boolen,null,undefined,引用类型有一种,就是object,object是一个大的综合

JS 中一定要了解的数据类型和数据转换

Js数据类型 前言 Js中的类型只有6种,其中基本数据类型有5种分别为string,number,boolen,null,undefined,引用类型有一种,就是object,object是一个大的

你的公司是需要数据科学家还是数据工程师?差别有点大

越来越多的企业关注AI,企业组织也意识到拥有相关人才和技能非常重要。特别是最近对AI、机器学习(ML)、非ML预测分析和“大数据”的应用,使得数据科学家的需求有了显著的增长,未来还将继续。事实上,对数

腾讯基于全时态数据库技术的数据闪回

作者简介:李海翔,网名“那海蓝蓝”,腾讯金融云数据库技术专家。中国人民大学信息学院工程硕士企业导师。著有《数据库事务处理的艺术:事务管理和并发访问控制》、《数据库查询优化器的艺术:原理解析与SQL性能

从关系型数据库到分布式机器学习,揭秘腾讯大数据十年发展历程

大数据技术在过去10多年中极大改变了企业对数据的存储、处理和分析方式。如今,大数据技术逐渐成熟,涵盖了计算、存储、数仓、数据集成、可视化、NOSQL、OLAP分析、机器学习等丰富领域。在未来,大数据技

大数据是个技术,数据库才是它最好的产品形态

星环科技(以下简称:星环)的定位是大数据基础软件公司,而非数据库公司,却在数据库方面,做的比很多数据库公司更好更猛?这是为何?“我们认为,大数据是个技术,数据库才是它最好的产品形态”,星环科技研发总监

ZILLIZ AI数据中台:打破数据处理瓶颈,释放AI效能

在最近结束的第十届中国数据库技术大会(DTCC2019)上,ZILLIZ得到了众多专业评委的一致认可,获选为“2019中国数据库技术年度评选——年度创新企业”。这家成立于2016年的企业,凭借对技术发