Skip to content

Переход от плотной Фи к разреженной #37

@ofrei

Description

@ofrei

Это нам может пригодиться для тематизации больших научных коллекций, в которых ожидаются десятки миллионов документов и десятки тысяч тем. Модели с очень большим числом тем потребуют не только динамического их создания, но и постепенного разреживания матрицы Фи.
По мере роста коллекции и накопления статистики n_wt мы будем всё точнее понимать, какие слова из каких тем можно совсем исключить. Матрица Фи будет сначала плотной, но в какой-то момент её станет выгодно перевести в разреженную форму. В этот момент алгоритм фактически станет другим, т.к. появится возможность для данного слова w пробегать только темы с ненулевыми p(w|t).
Интересно оценить, при каком числе тем Т и какой степени разреженности матрицы Фи это становится выгодно.

Саша, мы много раз обсуждали эти идеи, где оно сейчас?

Metadata

Metadata

Assignees

Labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions