如何解决从数据生成文件路径的语言模型或 GAN
因此,虽然我是一名中级 ML 工程师,但我的 NLP 技能并不是那么好。这是我的问题
给定数据:
文件路径 |
---|
C:\Program Files\Microsoft Office\root\Integration\C2RManifest.powerpointmui.msi.16.tr-tr.xml.RYK |
C:\Users\admin\AppData\Local\VirtualStore\Program Files\Microsoft Office\root\Licenses16\AccessR... |
C:\Program Files\Microsoft Office\root\Integration\C2RManifest.officemui.msi.16.pt-br.xml.RYK |
................................ |
C:\Program Files\Microsoft Office\root\Licenses16\Access2019R_Retail-ul-oob.xrm-ms.RYK |
C:\Users\admin\AppData\Local\Packages\windows.immersivecontrolpanel_cw5n1h2txyewy\LocalState\Ind... |
总行数:363980
文件路径是从一个沙箱中生成的,在沙箱中引爆了勒索软件二进制文件。我正在尝试创建一个语言模型/GAN,它可以在这个文件路径语料库上进行训练,然后自己生成类似的文件路径。
我获得的大多数语言模型和文本生成教程都来自 .txt 文件,其中诗歌/小说作为输入传递给 LSTM 或转换器。
除了模型方面的帮助外,我还需要一些关于如何预处理这些数据的指导。
目前我的想法是将路径从'\'分割出来并用空格连接,这样目录就可以成为句子中的单词。
例如: 输入路径:
C:\Program Files\Microsoft Office\root\Integration\C2RManifest.powerpointmui.msi.16.tr-tr.xml.RYK
输出路径:
C: Program Files Microsoft Office root Integration C2RManifest.powerpointmui.msi.16.tr-tr.xml.RYK
这是正确的方向吗?还有其他建议吗? (更喜欢在 tensorflow 中实现,但如果它真的有用,也可以向 pytorch 开放)
此外,是否可以使用 GAN 以同时学习文件路径序列的方式生成文本?由于勒索软件具有执行签名,并且会以某种已知的顺序运行命令,因此是否有一种模型也可以捕获该维度的数据。 (在更大的数据集中,我还有进程 ID、时间戳和其他标识符来确定哪组事件属于哪个二进制执行)
附注。我知道这个问题的前提可能有点奇怪和令人困惑,但这是我正在测试的东西,只是为了看看会发生什么。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。