如何解决使用 gnuplot 进行线性拟合会产生不正确的结果?
我正在尝试使用 GNUplot 来计算某些时间序列数据的最佳拟合线。数据几乎是线性的,具有负斜率。输入数据类似于:
1615840396,138849,510249
1615840406,139011,511152
1615840416,137580,510330
1615840426,137493,510501
1615840436,137261,510186
1615840447,137435,511026
1615840456,137054,510252
1615840466,136955,510174
1615840476,136922,510540
1615840486,136970,510999
第一列是 Unix 时间戳。第 2 列与时间的关系图如下所示:
我正在尝试制作这样一条最合适的产品线:
gnuplot> set xdata time
gnuplot> set timefmt "%s"
gnuplot> set datafile separator comma
gnuplot> f(x) = m*x + b
gnuplot> fit f(x) 'data.csv' using 1:2 via m,b
产生:
Final set of parameters Asymptotic Standard Error
======================= ==========================
m = 8.08062e-05 +/- 1.633 (2.021e+06%)
b = 1 +/- 2.639e+09 (2.639e+11%)
得到的最佳拟合线具有正斜率,并且根本没有真正的 git 数据:
我做错了什么?
解决方法
这是一个关于拟合时间数据的重复问题。我想SO上应该有类似的问题,但我现在找不到它们。不知道gnuplot主页上有没有拟合时间数据的例子。
我猜问题如下:如果您假设一个带有时间数据的线性函数 f(x) = a*x + b
,原点将在 1970 年 1 月 1 日。
通常,这与您的实际数据相距甚远,此外,与到原点的距离相比,您只有一小部分数据。所以,我猜拟合函数不能提供真正好的值。
您最好尝试拟合一个随您的开始日期而变化的函数。
您可以手动设置此开始日期,也可以花几行代码自动找到它。
此外,如果您为拟合参数提供一些起始值,这将有所帮助。
在这里,似乎 a
会在没有给出起始值的情况下被找到,如果你设置 b=1
它不会给出好的结果,但 b=10
似乎可以作为起始值。>
代码:
### fitting time data
reset session
# create some random test data
set print $Data
do for [i=1:100] {
print sprintf("%.0f,%g",time(0)+i*86400,i+rand(0)*10 )
}
set print
set datafile separator comma
# find out the StartDate
StartDate = 16158768671 # manually by setting a value
# or automatically by using stats
stats $Data u 1 index 0 every ::0:0:0:0 nooutput
StartDate = STATS_min
f(x) = a*(x-StartDate) + b
set fit brief nolog
b=10
fit f(x) $Data u 1:2 via a,b
set key top left
set format x "%b %d" timedate
plot $Data u 1:2 ti "Data",\
f(x) w l lc rgb "red" ti "Fit"
### end of code
结果:
Final set of parameters Asymptotic Standard Error
======================= ==========================
a = 1.16005e-05 +/- 1.163e-07 (1.003%)
b = 6.1323 +/- 0.5759 (9.39%)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。