62/1000 《数据分析专题》 初用kaggle
2025年05月01日
考虑到后续工作大概率与这个方向有关 在此开个专题
纯记录分享心路历程和思路
kaggle里面有很多竞赛 对于许久没做机器学习的我 需要做一些康复训练 选择了一个简单的比赛
虽然这个比赛没有奖励 但是排名前几名的都是在大公司工作的工程师
从开始用自己的方法开始做 得到的排名是在1000多名
然后经过看讨论帖 他人上传的代码
自己再修改一下 最后蹭到了200名(共3000)人
下面说说经验:
首先,数据的探索性分析很关键,热度前10的文章都是在探讨数据的相关性 不同的维度探索数据集 讨论如何生成等
这个在过去学习中觉得最没含金量的一步是最重要的一步。
其次,特征工程的重要性远远大于模型的调参
在讨论中,大佬们也纷纷建议我先做好特征工程,而非模型的调整。
事实如此,现在的集合模型已经很强大,靠堆节点就能做到很大的性能。
但如何让模型能发现更多的特征,这是特征工程干的活。
喂的数据质量越高,纬度越高,模型更容易分辨出有用的特征,从而表现出更好的性能。
第三,Single model win!
不论在课堂上,还是在实战中,还是在各种领域,我仿佛都感受到这一点,简单的是最好的。
尽量在数据上下功夫,而不是在模型上。
最后,再聊聊学习的感受!
在学机器学习的过程中,我总是想着有没有一些经典的书籍,有没有一些教程。答案是没有的。
其实各种竞赛结束后,大神们都会发布他们的解法,这些文档,就是最新的,最实用的方法。
看别人的文档和讨论,等同于跟大牛们一起沟通。
这些就是最好的学习资料。
最后更新于