由于在科大讯飞广告比赛中用pandas处理数据不是太熟练,这里做一个关于数据类型转换的小节。
纯数字类型
最长用的一个:df['xxx'].astype()
当你pandas读取到数据,某一列(行)的原始数据,都是数字的形式:如 字符串:‘123’,7
我在这里处理了‘sid’这一列的数据,然后生成新的一个特征‘newf’,查看一下它的数据类型,可以知道它是一个object类型的
在这后面我用astype()
它的数据类型就变了。
但是用astypes功能有限,只能将数字专户为纯字符串的,或者将纯数字的字符串 转化为数字类型的。
不纯洁的数据
假如某一列的数据并不是“”纯洁“”的,用astypes就处理不来。如:上面最开始用到的df[‘sid’]这一列
它的数据不是纯洁的,因此这个时候想要提取数据的话,可以通过自定义函数清理数据的办法,把你想要的某一段数字提取出来
这个时候就要用到:apply
利用pandas自带的函数
pd.to_numeric(df.['xxx'])
--------待补充------
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。