准备决策模型时出现Size-1数组错误

如何解决准备决策模型时出现Size-1数组错误

我有一个叫477154行的DataFrame。

    PDB_ID  Chain          Sequence                  Secstr
0   101M     A       GEWQLVLHVWAKVEA         |   HHHH  HHHHGG|
1   102L     A       MVLSEGEWKVEA            |HHHH  HHHHHH|
2   102M     A       MVLSEGEWQLVLHVWAKVEA    |HHHHHHHHHGGHH HHH   | 
3   103L     A       MVLSEGEWQLVLHVWAKV      |   HHHHH HHHHHH HH| 
4   103L     B       MVLSEGEWQLVLHVWAKVEAVAL |   HHHHH HHHHHH HHHHH  |

我的目标是使每个字符从“序列”和“ Secstr”列逐一排列到数组中，并使其可用于分类。每行具有不同数量的元素。我尝试通过创建alphabet = " ABCDEFGHIKLMnopQRSTUVWXYZ"然后将字母转换为[12,21,11,18,5,7,22,16,8,22]

来手动完成此操作

此后，我创建了numpy.ndarray

X_array = np.array([np.array(xi) for xi in new_encoded_seq])
y_array = np.array([np.array(xi) for xi in new_encoded_str])

当我这样做时，由于出现错误，我无法使用它来构建模型： TypeError：只有大小为1的数组可以转换为Python标量和 ValueError：设置数组，同时使用

X = X_array
y = y_array
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.33,random_state=42)
model = DecisionTreeClassifier()
model = model.fit(X_train,y_train)
y_pred = model.predict(X_test)