- 
                Notifications
    You must be signed in to change notification settings 
- Fork 44
Description
Предположим, каждый день приходят тысячи новостей. Их надо тематизировать по старым темам, выделить то, что плохо тематизируется, создать для них новые событийные темы, оценить число новых тем и перестроить структуру матрицы Фи. У нас есть три уровня иерархии: верхний статичный, в среднем новые темы появлются редко, на нижнем идёт постоянное темообразование, по несколько десятков в день.
Как лучше это сделать?  Готов ли BigARTM к такому режиму использования? Нужно ли нам будет дорабатывать ядро?
Тут возможно нетривиальное решение -- тематическую модель третьего уровня вообще никогда не строить целиком, а строить её налету по тербованию, по отдельному дню или по нескольким дням при фиксированной матрице Фи второго уровня. По сути, темы третьего уровня нужны для того, чтобы агрегировать дублирующие новости и парафразы. Может быть, строить такие "модельки третьего уровня" по требованию и кэшировать их в памяти. Предполагая, что пользователи детально работают только с новостями нескольких последних дней.
Реально ли такое использование BigARTM, или это будет тормозить?
Нам нужен критерий для обнаружения новых тем в новой порции данных. Прошерстить литературу, сравнить варианты, реализовать в BigARTM -- курсовая кому-то из новых студентов. Но можно и обойтись без критерия -- для тематизации нового батча выделяется заданное число новых тем, лишние отбрасываются энтропийным регуляризатором. Эта идея давным-давно обсуждается, теперь её пора реализовать.
Готов ли BigARTM к появлению новых тем в батче?