- 
                Notifications
    You must be signed in to change notification settings 
- Fork 44
Description
Это нам может пригодиться для тематизации больших научных коллекций, в которых ожидаются десятки миллионов документов и десятки тысяч тем. Модели с очень большим числом тем потребуют не только динамического их создания, но и постепенного разреживания матрицы Фи.
По мере роста коллекции и накопления статистики n_wt мы будем всё точнее понимать, какие слова из каких тем можно совсем исключить. Матрица Фи будет сначала плотной, но в какой-то момент её станет выгодно перевести в разреженную форму. В этот момент алгоритм фактически станет другим, т.к. появится возможность для данного слова w пробегать только темы с ненулевыми p(w|t).
Интересно оценить, при каком числе тем Т и какой степени разреженности матрицы Фи это становится выгодно.
Саша, мы много раз обсуждали эти идеи, где оно сейчас?