逻辑回归和词袋 - 编程之家

如何解决逻辑回归和词袋

据我所知，X1 是一个词的出现，而 beta1 是该词的权重。我的问题是关于如何计算重量？基于什么？

解决方法

这有点困难，因为我不知道你到底想做什么。但总的来说，您有数据为您提供 X。和一个结果。结果应该是伯努利分布的。这意味着只有两种结果是可能的。现在您从 X 计算概率。例如，您想知道文本是否是关于汤姆汉克斯的。如果文本中包含单词“Tom”，则您的 x1 为 1。 X 还可以描述“Tom”在文本中出现的频率。您尝试选择一个 Beta，以便 beta1*x1 中的 sogmoid 函数返回文本与“Tom Hanks”有关的正确概率。如果文本中出现“汤姆”一词。为了计算 beta normaly，使用了一些机器学习算法，例如梯度下降。我把它简化了一点以获得这个想法。我认为 this 解释得很好。最后，您会从数据中获得一个模型，该模型可以预测新数据的结果，而您只知道 X。