菜单 学习猿地 - LMONKEY

VIP

开通学习猿地VIP

尊享10项VIP特权 持续新增

知识通关挑战

打卡带练!告别无效练习

接私单赚外块

VIP优先接,累计金额超百万

学习猿地私房课免费学

大厂实战课仅对VIP开放

你的一对一导师

每月可免费咨询大牛30次

领取更多软件工程师实用特权

入驻
374
0

机器学习集成算法--- 朴素贝叶斯,k-近邻算法,决策树,支持向量机(SVM),Logistic回归

原创
05/13 14:22
阅读数 37492

朴素贝叶斯:

是使用概率论来分类的算法。其中朴素:各特征条件独立;贝叶斯:根据贝叶斯定理。
这里,只要分别估计出,特征 Χi 在每一类的条件概率就可以了。类别 y 的先验概率可以通过训练集算出

 

k-近邻算法:

简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。


决策树:
最优划分属性,结点的“纯度”越来越高。

即如何选择最优划分属性,一般而言,随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高。


支持向量机(SVM)
是支持(或支撑)平面上把两类类别划分开来的超平面的向量点
支持向量机本身便是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中


Logistic回归

主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类,也可以被看成是一种概率估计。

 

 zhuanzai :http://www.cnblogs.com/hemiy/p/6214034.html

 

 

特征工程

feature_extraction.text.CountVectorizer([…])
feature_extraction.text.TfidfVectorizer([…])

类别型变量 独热向量编码
data/adult.csv
老师,dummies 把字符列 多生成一列有什么用呢?
为了更好的统计用
多个环节串起来,
skilenar 常用接口

get_dummies()
linspace()
OneHotEncoder()
PolynomialFeatures():

高阶的项,组合属性特征的交集

文本做特征,
连续的值的特征
分桶quantiletransfromer()
基于模型对特征的选择
逐步特征删除RFE

Cross_val_score()交叉验证
留一交叉验证
GridsearchCV()


搭建流程:
Pipeline:
pipeline(流水线tuple)
pipeline(('name',ss()),('age',getage())
make_pipeline(ss(),log())

xgboost,
lightGBM
数据,噪声,特征:
day of week
day of year
day of month
week of year
hour of day
minute of day
month of year
24,48

用pipeline流程的方式,重新组织Titanic案例,包括特征工程、特征选择、多项式特征、交叉验证、网格搜索

发表评论

0/200
374 点赞
0 评论
收藏