gensim/word2vecにwindow幅を固定する最高オプションが追加されていた
gensim/word2vecではwindow幅を無茶苦茶に大きくしてもランダムにsamplingされるので、実際には単語同士が遠い場合にコンテキストとして扱われない可能性がありました。
そこでこのwindow幅を固定するためのshrink_windows
オプションを追加するp-rがmergeされていました。これをFalse
にすることで固定するという感じです。
このオプションのモチベーションとしては語順が重要でないコーパス(例えば自然言語を分かち書きしたものではなく、特定の単語列をsentenceとして読み込ませた場合など)に対してはsentence内の全単語をコンテキストとしたほうが普通に考えたら正しそうだよね、みたいなことがありうるのでそういうパターンで有効です。