如何解决文本到元组列表
.I 1\n.T\nPreliminary Report-International Algebraic Language\n.B\nCACM December,.I 2\n.T\nExtraction of Roots by,5\t3\n .I 3\n.T\nTechniquI 4\n.T\nGlossary of Computer
这是数据集的描述
.I 1,I.2,.I 3 -> 是文档 id,其余的文本是文档的内容。 任务是:创建一个元组列表-> [(doc_id,content)]。非常感谢任何帮助或建议!
解决方法
FILENAME = "your filename"
f = open(FILENAME)
lst = []
lines = f.read().splitlines()
for i in range(0,len(lines),3):
lst.append((lines[i],lines[i+1]))
print(lst)
->>>[('.i 1','lipsumlipsumlipsumlipsum B.lipsumlipsum'),('.i 2','lipsumlipsum'),('.i 3','lipsumlipsum lipsumlipsum')]
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。