Онлайновая обработка пар соседних слов

Нам предстоит не один проект по социальным медиа. Дойдём и до твиттера, с его короткими текстами. Понадобятся битермы. Кроме того, очень хотелось бы иметь функциональность word2vec в тематических моделях. Это нужно не только по делу, но и для рекламы, так как вортувеком сейчас не пользуются только самые ленивые текстмайнеры. Если BigARTM будет уметь выполнять работу вортувека, да ещё и быстрее, это будет супер-класс. Для всего этого нужно уметь бегать по парам близких слов. Казалось бы, если ширина окна Н=10, то объём вычислений вырастает в Н=10 раз, т.к. для каждой пары слов (u,v) надо оценивать p(t|uv).

**Можно ли этого избежать?**

Легко, если заменить p(t|uv) пары слов на p(t|окно) всего окна. Заодно получим сглаживание тематики по окну, давно хотелось. Чтобы пересчитать средний вектор по скользящему окну в последовательности векторов, достаточно добавить вектор справа и вычесть крайний вектор слева, который был добавлен Н=10 шагов назад. Обновление матрицы Фи для окна производится только для битермов, образованных уходящим словом на левом конце окна и приходящим словом на правом конце. В результате число векторных операций над векторами длины Т увеличивается лишь вдвое, а не в Н=10 раз.
**Аня, Артём, это соотвествует вашим представлениям о BTM, WNTM и вортувек-подобным тематическим моделям?**
**Аня, Саша, чем в итоге закончилась реализация позиционных регуляризаторов в BigARTM, имеет ли смысл возвращаться к этой задаче?**


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Онлайновая обработка пар соседних слов #39

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Онлайновая обработка пар соседних слов #39

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions