Skip to content

Динамическое пополнение и отсев словарей энграмм #38

@ofrei

Description

@ofrei

В динамически растущей коллекции по мере прихода новых батчей могут появляться новые слова и энграммы (эта проблема вроде давно решена).
Хотелось бы решать задачу отбора энграмм и битермов по мере роста коллекции.
Методы предобработки целиком всей коллекции, которые мы используем сейчас, для этого не годятся.
Надо уменьшать показатель степени в законе Хипса, описывающем рост числа энграмм по мере роста коллекции.
Рецепт тот же, что при разреживании матрицы Фи: когда статистики накапливается достаточно, чтобы понять, что энграмма или битерм не является тематичным, он удаляется из словаря. За новичками придётся следить дольше, но когда станет ясно, что редкий токен не полезен ни для одной темы, его опять-таки придётся удалить.

Готов ли BigARTM к добавлениям и удалениям новых токенов в различных модальностях?
Готов ли он к периодическим проверкам словаря с помощью критериев тематичности и полезности токенов?

Metadata

Metadata

Labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions