如何解决准备决策模型时出现Size-1数组错误
PDB_ID Chain Sequence Secstr
0 101M A GEWQLVLHVWAKVEA | HHHH HHHHGG|
1 102L A MVLSEGEWKVEA |HHHH HHHHHH|
2 102M A MVLSEGEWQLVLHVWAKVEA |HHHHHHHHHGGHH HHH |
3 103L A MVLSEGEWQLVLHVWAKV | HHHHH HHHHHH HH|
4 103L B MVLSEGEWQLVLHVWAKVEAVAL | HHHHH HHHHHH HHHHH |
我的目标是使每个字符从“序列”和“ Secstr”列逐一排列到数组中,并使其可用于分类。
每行具有不同数量的元素。我尝试通过创建alphabet = " ABCDEFGHIKLMnopQRSTUVWXYZ"
然后将字母转换为[12,21,11,18,5,7,22,16,8,22]
此后,我创建了numpy.ndarray
X_array = np.array([np.array(xi) for xi in new_encoded_seq])
y_array = np.array([np.array(xi) for xi in new_encoded_str])
当我这样做时,由于出现错误,我无法使用它来构建模型: TypeError:只有大小为1的数组可以转换为Python标量和 ValueError:设置数组,同时使用
X = X_array
y = y_array
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.33,random_state=42)
model = DecisionTreeClassifier()
model = model.fit(X_train,y_train)
y_pred = model.predict(X_test)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。