每日记录-2020-01-03

记录下今天学习到的东西,分两部分:
1 了解了一些异常检测的算法

  1. 异常检测算法的分类:

    • 统计假设检验
      这个概念无非就是μ和σ,μ±3σ包含了正太分布的95%的数据,所以在这个范围以外的数据就是异常值,简单粗暴。
      缺点就是首先假设数据服从正太分布,但不一定,其次只适合一维数据。
    • Isolation Forest 孤立森林(周志华)
      ITree的概念其实也不算复杂,主要就是用树对数据进行建模,由于异常值和正常值的差异比较大,所以通常异常值离ROOT比较接近,而且没有字子节点。(诶,新人不太会写blog,这里就不贴详细的概念了)
    • Semi-supervised learning
      听说比较适合国内的环境,还没研究,有空可以看看。
    • 伪xgboost
      把异常检测看成是有监督的数据不平衡下的分类问题,然后就是可以使用有监督的异常检测,如xgboost。
    • LOF
      LOF的主要概念还KNN的思想,只是它引入了绝对和相对局部可达密度这个概念(LRD),来衡量数据的离群程度。最终使用每个数据的绝对利群概率来产生

以上只是对常用的异常检测算法进行了一个简述,具体还需要查阅资料。

2 pyspark的继续学习
今天看case study的时候学到了两个非常重要的函数

rdd.combineByKey(f1,f2,f3)       #输入的必须是pair rdd(k,v)

f1:初始函数,给所有非重复的k初始一个值
eg:lambda x:[x]    这个函数的意思就是把所有非重复的k赋初始值[v](把v变成了列表)

f2:合并函数,对所有拥有相同k的数据进行合并
eg: lambda x,y:x+[y]  有点像reduce的味道,就是把所有相同的k的v合并到一个list中去(但是这里只是产生累加器并未合并)

f3:lambda x,y:x+y 这里才是真正的合并操作 得到最后的结果

具体可以参考:https://blog.csdn.net/u010159842/article/details/71471655



还有一个takeOrdered(20, key=lambda s:-s)
rdd.takeOrdered(20, key=lambda s:-s) 这个函数的意思和take差不多,就是附带排序功能,如果想降序的话要这么写key=lambda s:-s

Image placeholder
zhangliubin
未设置
  59人点赞

没有讨论,发表一下自己的看法吧

推荐文章
20200103am

 20200103 css 请简述一下css选择器 \- 选择器类型:     - ID  #id     - class  .class     - 标签  p     - 通用  \*

20200103pm

 20200103 框架 vue的dom-diff是怎么样实现的?https://mp.weixin.qq.com/s/B0... 前言 文章开篇,我们先思考一个问题,大家都说 virtual 

再见,2019!你好,2020!

今天,是2019年的最后一天。虽有不舍,但终归还是得说再见!明天又会翻开新一年的篇章,希望各位在新的一年都能升职加薪迎娶白富美,走上人生巅峰。19年某月某日突发奇想,想用公众号分享一下这些年学到的技术

送别2019,期待2020!

概述2019年时间过得很快。有欢笑、有离别、有压力、有收获。关于工作项目发生了变动,团队也发生了变动,不过总体是成长的,在这感谢领导的关照、信任!下半年开始学习Go语言,并用Go进行搭建项目,也算是刚

20200104am

 20200104 原生js 请你简述原型和原型链 什么是原型链:只要是对象就有原型, 并且原型也是对象, 因此只要定义了一个对象, 那么就可以找到他的原型, 如此反复, 就可以构成一个对象的序列, 

20200107pm

 20200107 html html中有哪些块级元素?有哪些行内元素? \- 行内元素 一个行内元素只占据它对应标签的边框所包含的空间 一般情况下,行内元素只能包含数据和其他行内元素

前端面试每日 3+1 —— 第263天

今天的知识点(2020.01.04)——第263天(我也要出题) [html]html5怎么判断app是否安装? [css]使用sass的方式有哪些? [js]举例说明object.freeze有

嗨!你的 2019 晒好封存了吗?快来看程序老兵的 2019 吧!

时间过得真是太快快快了,2019还剩下最后几个小时了。回望即将过去的这一年,老兵哥做了不少事情,有计划内的,也有计划外的,当然还有不少事情没做。赶在最后时刻晒一晒我的2019年,希望从成绩荣誉中获得一

【跃迁之路】【868天】全栈工程师IT知识库更新记录(2019.1.3更新)

[叨叨两句] 跃迁之路整体迁移至GitHub做为开源项目,未来的更新提交都在那,其它地方只做更新记录的发布 该项目将定位为全栈工程师养成,目标是可以独立完成项目的全流程工作 项目地址https://g

0103-springmvc的基本流程

背景现在的it研发,已经从管理系统时代迈入了互联网系统时代。页面开发已经从基于JSP+struts转变为为前后端分离的方式(springMVC+JS);思想MVCmvc框架不仅适用于java的开发,也

【分享】2020年大前端面试题库 - 备战明年金三银四

https://segmentfault.com/a/119000002122195...2020年大前端面试题库-备战明年金三银四前端面试 阅读约10分钟写在前面现在面试文章已很多,更不觉得新鲜,本

Udemy:人工智能是2020年职场最需要的技能之一

TensorFlow是过去三年中最受欢迎的技术技能,根据Udemy的数据在2016年至2019年之间呈指数增长。·除了Web开发框架,云计算和IT认证(包括AWS、CompTIA和Docker)之外,

Gartner:2020年十大战略技术趋势

技术变革的步伐正在迅速加快,IT专业人员需要研究的因素,他们以前从未处理过的事情(例如超级自动化、多重体验和人员扩充)都将对企业产生重大的影响。Gartner高级研究副总裁ValSribar说:“自从

2020年前必须掌握的数据库面试问题~

一、为什么用自增列作为主键1、如果我们定义了主键(PRIMARYKEY),那么InnoDB会选择主键作为聚集索引。如果没有显式定义主键,则InnoDB会选择第一个不包含有NULL值的唯一索引作为主键索

调查:2020年企业IT预算研究报告

随着云计算、人工智能等技术应用的落地,企业越来越多地用新技术支出来应对新的业务需求,大多数企业都在主动或被动地加入数字化转型浪潮,这一点在IT预算中表现得最为明显。TechRepublic最近进行了一

2020年将成为边缘计算的“突破年”

根据ForresterResearch的预测,2020年将是推动边缘计算技术的重要一年。尽管边缘计算主要是一种与物联网相关的技术,但Forrester表示,满足按需计算和实时应用程序的需求也将在推动边

在2020年及未来,网络会变成什么样子?

日前,由思科全球发起的“Networking.Next联网未来”线上活动取得圆满成功。此次活动上,未来学家、网络专家和Cisco首席战略官分享了对网络未来发展的洞察,并重磅发布了思科《2020年全球网

一张图读懂《2020全球网络趋势报告》

日前,思科发布了《2020全球网络趋势报告》,从网络技术、运营、人才三大维度,了解网络如何与时俱进,满足关键业务需求。那么这份94页的报告,究竟有哪些亮点?戳下图,带你看明白!

公布!达摩院2020年十大科技趋势

刚刚,“达摩院2020十大科技趋势”正式发布!去年,我们预测的科技趋势正一一变为现实:AI芯片崛起、智能城市诞生、5G催生全新应用场景……科技新十年开启,AI、芯片、云计算、区块链、工业互联网、量子计

阿里达摩院 vs Gartner:2020 科技趋势预测,你更信谁?

信息革命、移动互联网革命尚未落幕,智能革命又像一头大象一样撞进人类的生活,激荡着整个世界。任何足够先进的科技,初看都与魔法无异,但魔法背后是对规律和趋势的洞悉。2020年初,阿里巴巴旗下达摩院发布了2

2020年文案怎做的一手好图是多么重要

别说我标题念不通....对不起,我特意的....发博客,发朋友圈,发论坛,发自媒体.......不管你怎么发,都离不开图片....这里就文字做成图片的样式来说....以后的文案都得这样走...时尚无难

低调小熊猫-综合群,2020奥利给~

低调小熊猫-综合群,2020奥利给~最近回家抢票的过程,才体验到群到用时方恨少的感觉。班级群,工作群,发点抢票这些不相关的东西总感觉很尬。技术群,学习群呢,要冒着被踢的风险发,看似不近人情,但是换个角

2020年,你是否更关注个人数据隐私了?

日前,阿里达摩院发布了2020年十大科技趋势,其中趋势九指出保护数据隐私的AI技术将加速落地。“数据流通所产生的合规成本越来越高。使用AI技术保护数据隐私正在成为新的技术热点,其能够在保证各方数据安全

对2020年Linux和开源的5个大胆预测

在这篇文章中,omgubuntu网站列出了对2020年Linux的5个预测,大家也来预测下会不会实现。2020年Linux预测预测1:Linux设备的爆炸式增长好的,因此建议我们明年看到大量新的Lin

2020年PHP面试总结

1.redis输出redis的数据结构?说出redis底层数据结构的实现说出redis的常用场景redis实现分布式锁。2.mysqlMySQL的最左匹配原则MySQL的索引MySQL的常用存储引擎M