从for循环生成的df的外部联接

如何解决从for循环生成的df的外部联接

我有一个for循环，在第一次迭代中会生成一个数据帧，如：

pd.DataFrame(columns = ["Al","Si","K","Th"],data = [[1,2,3,4]])

第二次迭代将产生一个数据帧，如下所示：

pd.DataFrame(columns = ["W","Cu"],data = [[5,6]])

列和数据变量都是在每次迭代中通过循环生成的。我希望能够在执行循环的末尾添加一些内容，并在每个数据帧进行外部联接，这样最终结果是：

pd.DataFrame(columns = ["Al","Th","W",4,0],[0,5,6]])

我尝试使用append，concat和外部联接，但无法破解，因为我需要在每次迭代时对最终数据帧进行实时更新，并且无法对其进行整理。

此外，值得一提的是，我无法预先定义总量列，计算的元素取决于数据并在循环期间创建。

编辑：这是循环：

formulas = ("NaAlSiO2","WCu2")

for form in formulas:

    s = re.findall('([A-Z][a-z]?)([0-9]*)',form)

    perc_weight = []
    atoms = []

    for elem,count in s:

        total_weight = molecular_w_calc(form)
        atoms.append(elem)
        perc_weight.append((Element_mass[elem]*100*int(count)) / total_weight)
        perc_df = pd.DataFrame(columns = np.array(atoms),data = [perc_weight])

Element_mass是一个字典，其中包含每个原子的值。 perc_df是每次迭代中产生的数据帧。 molecular_w_calc返回一个值。

谢谢！

解决方法

如果要迭代扩展框架，则concat应该可以正常工作。这个

df1 = pd.DataFrame(columns = ["Al","Si","K","Th"],data = [[1,2,3,4]])
df2 = pd.DataFrame(columns = ["W","Cu"],data = [[5,6]])
df = pd.concat([df1,df2],axis='rows')
df.fillna(0,inplace=True)

给你

    Al   Si    K   Th    W   Cu
0  1.0  2.0  3.0  4.0  0.0  0.0
0  0.0  0.0  0.0  0.0  5.0  6.0

只是一个建议：如果仅使用基本的Python创建基础数据，您会更好吗？

类似

import re
import pandas as pd

re_comps = re.compile(r'([A-Z][a-z]?)([0-9]*)')

formulas = ("NaAlSiO2","WCu2")
elements = {element for formula in formulas
                    for element,_ in re_comps.findall(formula)}
perc_dict = {key: len(formulas) * [None] for key in elements.union({'Formula'})}
for i,formula in enumerate(formulas):
    perc_dict['Formula'][i] = formula
    total_weight = molecular_w_calc(formula)
    for element,count in re_comps.findall(formula):
        count = 1 if count == '' else int(count)
        perc_dict[element][i] = (Element_mass[element] * 100 * count) / total_weight

然后只有熊猫

perc_df = pd.DataFrame(perc_dict)
perc_df.set_index('Formula',drop=True,inplace=True)
perc_df.sort_index(axis='columns',inplace=True)

生成的perc_df的结构看起来像（值显然是错误的，因为我没有Element_mass字典和molecular_w_calc函数）：

           Al   Cu   Na    O   Si    W
Formula                               
NaAlSiO2  1.0  NaN  1.0  2.0  1.0  NaN
WCu2      NaN  2.0  NaN  NaN  NaN  1.0

从for循环生成的df的外部联接

如何解决从for循环生成的df的外部联接

解决方法

相关推荐