📕
追求卓越指南
个人成长
个人成长
  • 初衷
  • 日记
    • 63/1000 人为什么需要记录
    • 62/1000 《数据分析专题》 初用kaggle
    • 61/1000 广撒网策略适合大部分人
    • 60/1000 论讲好故事的重要性
    • 59/1000 停止比较
    • 58/1000 定期清理坏习惯
    • 57/1000 统计学理解1
    • 56/1000 关于AI的思考2
    • 55/1000 拒绝随波逐流,培养主见的N个理由
    • 54/1000 不要忽略常识
    • 53/1000 专注于事情本身
    • 52/1000 如果让你回到川普发B那一天,你会吃到百倍吗?
    • 51/1000 赵长鹏的十一条原则
    • 50/1000 Ai观察随笔
    • 49/1000 你的未来需要你
    • 48/1000 为什么要远离信息流?
    • 47/1000 纳瓦尔宝典--推荐书籍
    • 46/1000 纳瓦尔宝典--关于幸福与欲望
    • 45/1000 人生的第一次被技术革命
    • 44/1000 纳瓦尔宝典--关于退休
    • 43/1000 纳瓦尔宝典--关于思考,耐心与痛苦
    • 42/1000 纳瓦尔宝典--如何不靠运气变得富有
    • 41/1000 投资中的信息与噪音
    • 40/1000 不要低估坏运气
    • 39/1000 毕业生的应聘困境
    • 38/1000 为什么A股的分析师永远都乐观
    • 37/1000 降低期待
    • 36/1000 冲突与价值观
    • 35/1000 课题分离法
    • 34/1000 学习思考 一
    • 33/1000 交易思考
    • 32/1000 一个常见的错误--“害怕犯错”
    • 31/1000 学习不需要挑状态
    • 30/1000 知识的复用性
    • 29/1000 三“不再”,让人生走向上坡路
    • 28/1000 追求流量
    • 27/1000 新方向
    • 26/1000 远离社交媒体
    • 25/1000 聊聊行情
    • 24/1000 闲聊
    • 23/1000 "好习惯"
    • 22/1000 成为自锁结构
    • 21/1000 由多线程导致的效率下降
    • 20/1000 试错的重要性
    • 19/1000 接受波动 拥抱波动
    • 18/1000 等待也是行动的一部分
    • 17/1000 素材库的重要性
    • 16/1000 一笔有逻辑的交易
    • 15/1000 重启
    • 14/1000 向阳花
    • 13/1000 跳出舒适区
    • 12/1000 不要贪心
    • 11/1000 日程管理1.0
    • 10/1000 深套了
    • 9/1000 知足者富足
    • 8/1000 复盘:大大的踏空
    • 7/1000 三个重要的人生系统
    • 6/1000 找更多的软柿子
    • 5/1000 记录第一次见证比特币新高
    • 4/1000 知识的诅咒
    • 3/1000 拿住是一个很难的事情
    • 2/1000 看名人传记有用吗
    • 1/1000 自由之路
    • 如果世界上的财富重新分配,我们如何成为二八定律中掌握财富的人?
    • 《富爸爸穷爸爸》----资产与财商的讨论
    • 探索GPT3.5:优化你的Prompt技巧
    • 记录两次惨痛的“抄底”。
    • 聊聊经历与见识
    • 《模仿的技术》——如何从模仿中学习
    • 当我们在讨论ChatGpt时,我们在讨论什么
    • 如何阅读一本书
    • 关于认知
    • 思考,快与慢
由 GitBook 提供支持
在本页
  1. 日记

62/1000 《数据分析专题》 初用kaggle

2025年05月01日

考虑到后续工作大概率与这个方向有关 在此开个专题

纯记录分享心路历程和思路

kaggle里面有很多竞赛 对于许久没做机器学习的我 需要做一些康复训练 选择了一个简单的比赛

虽然这个比赛没有奖励 但是排名前几名的都是在大公司工作的工程师

从开始用自己的方法开始做 得到的排名是在1000多名

然后经过看讨论帖 他人上传的代码

自己再修改一下 最后蹭到了200名(共3000)人

下面说说经验:

首先,数据的探索性分析很关键,热度前10的文章都是在探讨数据的相关性 不同的维度探索数据集 讨论如何生成等

这个在过去学习中觉得最没含金量的一步是最重要的一步。

其次,特征工程的重要性远远大于模型的调参

在讨论中,大佬们也纷纷建议我先做好特征工程,而非模型的调整。

事实如此,现在的集合模型已经很强大,靠堆节点就能做到很大的性能。

但如何让模型能发现更多的特征,这是特征工程干的活。

喂的数据质量越高,纬度越高,模型更容易分辨出有用的特征,从而表现出更好的性能。

第三,Single model win!

不论在课堂上,还是在实战中,还是在各种领域,我仿佛都感受到这一点,简单的是最好的。

尽量在数据上下功夫,而不是在模型上。

最后,再聊聊学习的感受!

在学机器学习的过程中,我总是想着有没有一些经典的书籍,有没有一些教程。答案是没有的。

其实各种竞赛结束后,大神们都会发布他们的解法,这些文档,就是最新的,最实用的方法。

看别人的文档和讨论,等同于跟大牛们一起沟通。

这些就是最好的学习资料。

上一页63/1000 人为什么需要记录下一页61/1000 广撒网策略适合大部分人

最后更新于1个月前