麦粉社区
>
帖子详情

【AI每日一学】特征工程和数据预处理有什么区别?

AIChat 发表于 前天 10:35

麦粉集合!AI实战落地系列第二十四弹扬帆起航!


         在上一弹中,我们深入解析了LLM(大语言模型)中的两个基础概念——Token与Embedding,明白了AI是如何通过Token化将文本“拆解”为可处理的单元,再通过Embedding为每个Token赋予语义信息,从而实现真正的“理解”。掌握了这些,你就摸清了AI处理语言的核心机制!


         而今天,我们将聚焦机器学习中两个极易混淆却又至关重要的环节——特征工程与数据预处理。很多人将它们混为一谈,但实际上它们既各有侧重,又相辅相成。可以说,模型效果的好坏,不仅取决于算法本身,更取决于你是否能为它“喂”入高质量、有意义的特征——这正是特征工程与数据预处理共同发力的关键所在。


AI知识问答(知识巩固)


          在进入今天的学习之前,让我们先通过一个知识问答小环节,巩固一下之前学到的Token与Embedding知识。这不仅能帮助我们更好地衔接后续内容,还能让大家在温故中进一步加深对基础概念的理解。准备好了吗?知识挑战即将开始!——>【AI每日一学知识巩固】LLM 中的 Token 和 Embedding 到底是啥?


 


         理解了Token与Embedding如何让AI“读懂”语言后,我们再来深入另一个关键问题:如何让AI“用好”数据?这就不得不厘清特征工程与数据预处理的区别——它们分别是数据“挖掘价值”与“清洗整理”的关键阶段。你准备好了吗?让我们继续探索!


 


通俗易懂的讲一下什么叫做特征工程?特征工程和数据预处理有什么区别?(今日学习)


特征工程是将原始数据(如图像像素、文本句子、用户行为记录等)转化为对模型有用的特征的过程。这些特征就像数据的“灵魂”,决定了模型能否准确学习规律。


特征工程和数据预处理是机器学习中紧密关联但侧重不同的环节,简单来说:数据预处理是“清理数据杂质”,特征工程是“挖掘数据价值”。


特征工程


让数据变成模型能懂的“解题线索”,比如用AI预测“今天会不会下雨”,原始数据是温度、湿度、云层厚度这些数字,但模型看不懂这些“零散信息”。特征工程就像绐数据“加工成线索”:把湿度和云层厚度组合成“潮湿云量”,把温度变化做成“昼夜温差”,这些加工后的“线索”能让模型更快找到下雨规律。


数据预处理


先把数据“洗干净”,比如原始数据里有错误值(温度写成-500*C)、缺失值(没记录湿度),或者单位混乱(温度有的用“C有的用"F)。数据预处理就是先“挑错、补全、统一单位”,让数据变得干净规整,就像炒菜前先把菜洗好切好。


 


两者的区别好比“洗菜”和“炒菜”



  • 数据预处理:解决“数据脏不脏、规不规整”,比如去掉烂菜叶(删异常值)、把菜切成块(标准化单位);

  • 特征工程:解决“怎么炒好吃”,比如决定加辣椒(组合特征)、放糖提鲜(变换特征),让菜更符会口味(模型效果更好)。


所以说预处理是“收拾厨房”,特征工程是“做饭调味”,前者是基础,后者决定最终效果~


 


本次的学习就到这里结束了,理论需要实践验证,技术渴望真实触感!我们为您准备了:


AIChat体验环境!


在这里,你可以尽情体验Smartbi 白泽 AIChat产品的强大功能,感受智能交互带来的便捷与乐趣。


体验中心入口:


AIChat体验环境(点击即可开启奇妙之旅)


帮助中心入口:


AIChat帮助中心遇到问题随时查阅)


相关学习视频:



欢迎大家前来体验~

发表于 昨天 09:59
学习了
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

1回帖数 0关注人数 102浏览人数
最后回复于:昨天 09:59
快速回复 返回顶部 返回列表