微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

从数据生成文件路径的语言模型或 GAN

如何解决从数据生成文件路径的语言模型或 GAN

因此,虽然我是一名中级 ML 工程师,但我的 NLP 技能并不是那么好。这是我的问题

给定数据:

文件路径
C:\Program Files\Microsoft Office\root\Integration\C2RManifest.powerpointmui.msi.16.tr-tr.xml.RYK
C:\Users\admin\AppData\Local\VirtualStore\Program Files\Microsoft Office\root\Licenses16\AccessR...
C:\Program Files\Microsoft Office\root\Integration\C2RManifest.officemui.msi.16.pt-br.xml.RYK
................................
C:\Program Files\Microsoft Office\root\Licenses16\Access2019R_Retail-ul-oob.xrm-ms.RYK
C:\Users\admin\AppData\Local\Packages\windows.immersivecontrolpanel_cw5n1h2txyewy\LocalState\Ind...

总行数:363980

文件路径是从一个沙箱中生成的,在沙箱中引爆了勒索软件二进制文件。我正在尝试创建一个语言模型/GAN,它可以在这文件路径语料库上进行训练,然后自己生成类似的文件路径。

我获得的大多数语言模型和文本生成教程都来自 .txt 文件,其中诗歌/小说作为输入传递给 LSTM 或转换器。

除了模型方面的帮助外,我还需要一些关于如何预处理这些数据的指导。

目前我的想法是将路径从'\'分割出来并用空格连接,这样目录就可以成为句子中的单词。

例如: 输入路径:

C:\Program Files\Microsoft Office\root\Integration\C2RManifest.powerpointmui.msi.16.tr-tr.xml.RYK

输出路径:

C: Program Files Microsoft Office root Integration C2RManifest.powerpointmui.msi.16.tr-tr.xml.RYK

这是正确的方向吗?还有其他建议吗? (更喜欢在 tensorflow 中实现,但如果它真的有用,也可以向 pytorch 开放)

此外,是否可以使用 GAN 以同时学习文件路径序列的方式生成文本?由于勒索软件具有执行签名,并且会以某种已知的顺序运行命令,因此是否有一种模型也可以捕获该维度的数据。 (在更大的数据集中,我还有进程 ID、时间戳和其他标识符来确定哪组事件属于哪个二进制执行)

附注。我知道这个问题的前提可能有点奇怪和令人困惑,但这是我正在测试的东西,只是为了看看会发生什么。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。