如何解决尝试将工作流程从 stata 复制到 python - 循环和导出问题
# import pandas package
import pandas as pd
# List of Tuples
students = [('Ankit','BA','A'),('Swapnil','BSc','B'),('Priya',('Shivangi',]
# Create a DataFrame object
stu_df = pd.DataFrame(students,columns =['Name','Qualification','Section'],index =['1','2','3','4'])
stu_df
stu_df.apply(lambda x: x.value_counts(normalize=True).mul(100).round(2)).T.stack()
freq = stu_df.apply(lambda x: x.value_counts(normalize=True).mul(100).round(2)).T.stack().to_frame()
freq
for column,data in freq.groupby(level=0):
data.to_excel(f'{column}.xlsx')
**我不是真正的编码员,我最近一直在尝试在 Python 上的 Stata 上复制我的工作流程。我使用的数据集有很多分类变量。我在 Stata 上的工作流程的一部分是为每个分类变量生成频率表并将其导出到 Excel 文件中的工作表中。工作表以导出到工作表的变量的描述性统计命名。
在上面的代码中,我已经能够生成我需要的描述性统计数据,但正在将其导出到单独的 excel 文件中。这个想法是有一个 excel 文件,并有三张带有变量名称的表格 - 名称、资格和部分。
我尝试自动化的另一件事是基本上确保结果的格式合适。在这段带有名为“资格”的 excel 文件的代码中,第一列有点奇怪。我想要名为“资格”的第二列和名为“百分比”的第三列,同时完全摆脱第一列。
索取代码感觉很奇怪,但我已经被这个问题困扰了一段时间。也许,如果有人对要完成这项工作的领域有任何指导,那也行! 对不起,我不清楚,第一次在这里寻求建议 - 如果需要,我很乐意澄清我的问题。谢谢! **
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。