微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

在功能工具中使用多个 ID

如何解决在功能工具中使用多个 ID

我有一个数据集,我想对其进行自动特征工程。然而它是基于时间序列的,所以为了使它工作,我必须使用 2 个东西作为 id,对象 id 和日期。

x = pd.DataFrame({'id': [1,2,1],'date': [2012021,2032021,4052021],'x1': [1,3]})
y = pd.DataFrame({'id': [1,'label': [3,1]})
entities = {"features": (x,['id','date']),"labels": (y,'date'])}
feature_matrix,features_defs = ft.dfs(entities=entities,target_entity="y")

当我运行这个时,我得到这个错误

TypeError: unhashable type: 'list'

我该如何解决这个问题?

解决方法

您是对的,但在这里,您应该为实体集创建唯一索引,然后在 id 中使用正确的索引 (dfs)。我会推荐这种方式:

  1. 创建单个数据框而不是两个
data = pd.DataFrame({'id': [1,2,1],'date': [2012021,2032021,4052021],'x1': [1,3],'label': [3,1]})
  1. 为列添加唯一索引
data['index'] = data.index
  1. 创建实体集
es = ft.EntitySet('My EntitySet')
  1. 从数据帧创建实体(不使用两种索引)
es.entity_from_dataframe(
    entity_id='main_data',dataframe=data,index='index',time_index='date'
)
  1. 标准化
es.normalize_entity(
    base_entity_id='main_data',new_entity_id='observations',index='id',make_time_index=True
)
  1. 创建特征(如果您不想使用默认设置,请不要忘记设置例如聚合)
feature_matrix,features_defs = ft.dfs(entityset=es,target_entity="main_data")

可能有另一种甚至更好的方法来处理这个问题,请检查 this github questionthis SO answer

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?