gensim/word2vecにwindow幅を固定する最高オプションが追加されていた

gensim/word2vecではwindow幅を無茶苦茶に大きくしてもランダムにsamplingされるので、実際には単語同士が遠い場合にコンテキストとして扱われない可能性がありました。
そこでこのwindow幅を固定するためのshrink_windowsオプションを追加するp-rがmergeされていました。これをFalseにすることで固定するという感じです。

github.com

このオプションのモチベーションとしては語順が重要でないコーパス(例えば自然言語分かち書きしたものではなく、特定の単語列をsentenceとして読み込ませた場合など)に対してはsentence内の全単語をコンテキストとしたほうが普通に考えたら正しそうだよね、みたいなことがありうるのでそういうパターンで有効です。