股票交易:创建自己的自变量和因变量
当我整理我的电子表格时,我一般会将原始数据尽量往左放(A列、B列、C列等等);原始数据的变化作为自变量放在中间;因变量放在最右边。我们来看看这样做的意义。
我们把自变量叫做预测因子。这些变量会影响市场。比如,我们可以研究标准普尔500指数前一个交易日的价格变化(自变量)对下一个交易日收益(因变量)的影响。原始数据包括了我们所选择的时期内的标准普尔500指数的价格。自变量为前一日收益的移动计算结果。因变量为次日收益的计算结果。自变量就是我们认为能够带给我们交易优势的东西;而因变量就是我们为了挖掘这种优势而进行交易的东西。
如果我将我的原始数据放在数据表的左边,接着放入原始数据形成的自变量,再接着放入因变量,这样就有明确的分析结果了。
我再具体解释一下。先下载标准普尔500指数过去1000个交易日(收盘价)的日线数据,相当于4年的数据。如果我从尖峰数据获取数据,我会在Excel中打开一个空白工作表;点击Excel菜单项的“文件”,点击“打开”,进入C盘的“Data”文件夹,双击“IDXDATA”文件夹,文件类型选择“所有文件”,然后双击“S&P500”文件,然后选中过去1000个交易日的单元格,在Excel中点击菜单项的“编辑”,点击“复制”,打开一个新的空白工作表,然后再次点击菜单项的“编辑”,光标选中A2单元格,点击“粘贴”。尖峰的数据就会出现在我的工作表中,第一行用来写数据标签(日期、开盘价、最高价、最低价、收盘价)。
如果你从其他地方下载数据,用于获取数据的菜单选项会有所不同,但是结果会是一样的:复制数据,然后粘贴到一个空白工作表的A2单元格,然后再创建你的数据标签。于是,你的原始数据就占据了A列到E列(A列是“日期”、B列是“开盘价”、C列是“最高价”、D列是“最低价”、E列是收盘价)。现在,对于F列(单元格F1)的数据标签,你可以输入(不要输入引号):“SP(1)”。这就是你的自变量,即当天的指数变化率。你首先需要在单元格F3中输入(仍然不要输入引号):"=((E3-E2)/E2)*100)”。这是该指数中A2交易日与A3交易日收盘价的变化百分比。
现在,让我们在单元格G7中创建我们的因变量。在单元格G1使用标签"SP+l”o在单元格G3输入公式"=((E4-E3)/E3)*100)”,代表该指数中下一个交易日的收益百分比。
为了完成你的工作表,你需要点击选中带有公式的单元格F3和G3;点击Excel菜单项“编辑”;选择“复制”选项。你会看到单元I格F3和G3被突出显示。然后,用光标选中单元格F4和G4,并将鼠标向下拖,一直到整个数据结束的单元格,放开鼠标,使所有单元格突出显示。再次点击Excel菜单项的“编辑”,然后选择“粘贴”o你的工作表会对每个单元格按公式进行计算,这样你的工作表的数据部分就结束了。原始数据放在A列到E列。自变量(预测因子)放在F列;我们感兴趣的交易变量——因变量——放在G列。把这个工作表作为练习表保存在一个Excel文件夹中。我们会在未来的课程中用到这个表。
请注意,尽管我们下载了1000个交易日的有价值数据,但是我们样品中的实际数据点只有998个。我们不能从第一个数据点计算SP(1),因为我们没有前一日的收盘价,因此,我们必须在第三个数据行开始使用我们的公式。同样,我们也不能从最后一个数据点计算SP+1,因为我们不知道次日的收盘价。因此,我们仅可以使用我们下载的1000个数据中的998个来进行分析。如果你就想要1000个数据,你就必须下载1002个数据。
练习一段时间以后,这些操作就会变成第二本能。完成工作表只需一两分钟:打开你的数据文件,复制并粘贴原始数据,编写公式,再复制单元格。在本例中,我们所要研究的是前后两天的收益之间有什么关联。我们在创建工作表的同时并提出这样的问题:“如果第一天上涨,第二天买入合理吗?第一天下跌,第二天卖出合理吗?还是说差别不大?“我把自变量叫做预测因子,因为我们并不真正知道自变量是否与我们感兴趣的变量有关系。自变量仅仅是预测因子的原因还在于,我们并不是在做统计显著性检验,无法确定这个变量就能预测。我们所使用方法和画图差不多:形成设想。
请记住,在木例中,我们是在使用历史关系来描述市场模式,并不是用统计学方法做分析。我们是在形成设想,并不是在。如果我以前一直研究前一周价格变化与下一周收益之间的关系,工作表其实是一样的,只是数据为周线数据,不是日线数据。总之,如果你正在研究前一周期数据对下一周期数据的影响,上面给出的方法是最简单的分析方法了。这种方法保证所有的观察结果都是独立的,并且没有重叠数据。
为了让你明白我的想法,我们用日线数据来研究前一周(五个交易日)的价格变化与下一周的价格变化之间的关系。F列中的自变量应该是“=((E7-E2)/E2)*100)”——过去5日的价格变化。G列中的因变量应该是“=((E12-E7)/E7)*100”:接下来5个交易日的价格变化。请注意,当你根据前面讲的方法将那些单元格复制到工作表中时,F8、F9、F10……G8、G9、G10……等单元格中的结果并非完全是独立的。前5个交易日的收益与F8、F9和F10的数值重叠,未来5个交易日的收益与G8、G9和G10单元格中的数值重叠。如果你所使用的原始数据的周期比你研究自变量和因变量的周期更短时,这种情况会一直存在。
推理统计检验取决于自变量数据是独立的,所以在统计显著性时,不适合将数据重叠在一起统计。我只是为了形成设想,我可以容许一定程度的数据重叠,所以我可以用日数据来研究多达20天之久的数据关系——尤其是当重叠量在整个数据所占的比例很小时。也就是说,我不会使用1000个交易日的日线数据来研究未来200个交易日的收益。用4年的数据研究前一个5日价格变化对下一个5日收益的影响是没问题的。
如果你的历史数据包括了很多种市场状况:上涨、下跌、横盘振荡、高波动性、低波动性等等,你的研究绐果就会。非常可靠。
一般情况下,因变量会包括预期价格变化,因为预期价格变化是我作为一个交易者所感兴趣的东西。自变量包括可能与预期价格变化关系很大的任何数据,这些数据都是我通过观测得到的。通常,我会注意那些与次日收益相关的因变量(以帮助形成当日交易思想)以及与下周收益相关的因变量(以帮助形成波段设想)。如果我想从更大的时间框架看待市场,我会研究下一个20个交易日的收益。使用不同时间框架的交易者可以使用不同的时期的数据,包括日内数据。总的来说,我发现1—20天的周期对我的研究最有用。
再次强调,熟能生巧。我鼓励你在开始进行实际的历史研究前,能够熟练地下载数据并将变量放在你的工作表中。毕竟,你的结果只有在你输入数据并在数据上赋予变化时才会有效。
训练提示
根据我的例子,你可以分析向下跳空缺口第二天的平均收益。自变量会是开盘缺口,公式是=((b3-e2)/e2)*100(今日开盘价与昨日收盘价之差的百分比)。日价格变化会是=((e3-b3)/b3)*100(今日收盘价与今日开盘价之差的百分比)。你需要通过使用股指期货数据或交易所交易基金的数据来准确反映市场开盘价;大盘指数无法反映出准确的开盘价,因为不是所有股票在股市开盘时就可以进行交易。