- 
                Notifications
    You must be signed in to change notification settings 
- Fork 44
Description
Нам предстоит не один проект по социальным медиа. Дойдём и до твиттера, с его короткими текстами. Понадобятся битермы. Кроме того, очень хотелось бы иметь функциональность word2vec в тематических моделях. Это нужно не только по делу, но и для рекламы, так как вортувеком сейчас не пользуются только самые ленивые текстмайнеры. Если BigARTM будет уметь выполнять работу вортувека, да ещё и быстрее, это будет супер-класс. Для всего этого нужно уметь бегать по парам близких слов. Казалось бы, если ширина окна Н=10, то объём вычислений вырастает в Н=10 раз, т.к. для каждой пары слов (u,v) надо оценивать p(t|uv).
Можно ли этого избежать?
Легко, если заменить p(t|uv) пары слов на p(t|окно) всего окна. Заодно получим сглаживание тематики по окну, давно хотелось. Чтобы пересчитать средний вектор по скользящему окну в последовательности векторов, достаточно добавить вектор справа и вычесть крайний вектор слева, который был добавлен Н=10 шагов назад. Обновление матрицы Фи для окна производится только для битермов, образованных уходящим словом на левом конце окна и приходящим словом на правом конце. В результате число векторных операций над векторами длины Т увеличивается лишь вдвое, а не в Н=10 раз.
Аня, Артём, это соотвествует вашим представлениям о BTM, WNTM и вортувек-подобным тематическим моделям?
Аня, Саша, чем в итоге закончилась реализация позиционных регуляризаторов в BigARTM, имеет ли смысл возвращаться к этой задаче?