你可能不知道的一些机器学习事儿
最近零零碎碎地看了很多机器学习方法的东西,增长了不少新知识。有很多小技巧虽然不会出现在教科书中,但它们真的很实用。
(1)随机森林模型不适合用稀疏特征。
(2)测试集必须使用与训练集相同的方法进行预处理。
(3)L1正则(特征选择)最小样本数目m与特征n呈log关系,m = O(log n) ;
L2正则(旋转不变)最小样本数目m与特征n呈线性关系,m = O(n) 。
(4)标准的PCA是一种线性转换技术。
(5)呈长尾分布的特征通常需要进行对数转换。
(6)线性SVM适合小样本。
(7)AUC适合作为类不平衡问题的衡量标准。
(8)在nested k-foldcross validation中,“外层循环”的目的是模型评估,“内层循环”的目的是模型选择。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。