Как работает NameRate
Основа NameRate - неинтерпитируемая модель машинного обучения, которая постоянно дообучается на основе дополнительных данных. Когда новая тестовая модель становится устойчивой, она заменяет основную, а обучение продолжается в новой тестовой моделе.
Где собираются данные
1. Площадки для продажи никнеймов
Открытые данные ресурсов, где продаются никнеймы и домены.
Сегодня оновными источниками являются:
Что анализируется?
- Успешные сделки: никнеймы, которые были проданы, их цены и скорость продажи.
- Неудачные размещения: никнеймы, которые не нашли покупателя, и причины этого (цена, низкий спрос и т.д.).
- Популярность тематик: востребованные категории, например, бизнес, крипто или имена.
2. Рыночные тренды
NameRate анализирует внешние данные, связанные с популярностью слов и фраз. Для этого используются:
- Аукционы поисковых систем: статистика используемая для размещения контекстной рекламы.
- Онлайн-источники: популярные слова в интернет-изданиях, часто упоминаемые фразы.
- Социальные сети: тренды и ключевые темы, актуальные в Telegram, Twitter и других платформах.
- Массовая культура и литература: слова и выражения, часто встречающиеся в поп-культуре, книгах или фильмах.
3. Пользовательские предпочтения через NameRateBot
Несмотря на большой объем косвенной информации для обучения, данных о продажах все еще недостаточно для качественной валидации алгоритма.
Поэтому, мы запустили Telegram-приложение @NameRateBot для получения мнений пользователей. Для нас это очень ценный источник знаний, которые мы используем для проверки качества оценок. А для пользователей это хороший способ получить наши токены.
Сейчас добавлена tinder-like механика:
- Пользователи свайпают никнеймы вправо (нравится) или влево (не нравится)
- Каждый свайп помогает в валидации весов модели
- Пользователи получают награду в $NMRT
Сейчас добавлена только механика свайпов, но для улучшения следующей тестируемой модели мы добавим и другие, например
- Механика с пользовательским вводом (1)
- Механика с попарным сравнением (2)
- Фиксирует то, что пришло пользователям на ум
- Повышает точность ответа
Для защиты от фрода
- Лимит свайпов: не более 10 свайпов в день, чтобы предотвратить накрутки
- Анализ аномальных паттернов: если пользователь оценивает никнеймы слишком быстро или хаотично, такие данные исключаются
Принципы работы алгоритма
NameRate - неинтерпитируемая ML модель. Это значит, что нельзя точно сказать почему алгоритм поставил ту или иную оценку. Ниже мы приведем пример, который показывает как могут работать основные принципы и наиболее весомыми фичи.
Фичи и их веса менются при обновлении версии модели.
Актуальный алгоритм использует все признаки ниже, но не ограничивается ими. Интерпритация признаков приведена справочно (1)
- Похожим образом работал наш прототип.
Пример
Некоторые фичи, обладающие высоким влиянием:
Длина никнейма
Чем короче, тем лучше:
@root или @final более ценны, чем @longnickname123
Небуквенные символы: такие как числа или подчеркивание
Числа в никах снижают ценность:
@josephine лучше, чем @josephine12345
Однако, числа в нике увеличивают вес, если они добавляют смысл (например, @peer2peer или @season4)
Повторы
В общем случае, повторы символов уменьшают ценность:
@eeenemy теряет в оценке из-за избыточных повторов. Исключение - повторы как часть осмысленного слова
Интересно, что повторы осмысленных слов почти не влияют на оценку
Смысловая нагрузка
Реальные слова и фразы ценятся выше
@space_jaguar лучше, чем @qazws_jaguar
Популярность: Тренды в поиске, литературе или социальных сетях
Популярнее = лучше
@blockchain, @meta_boom или @music оцениваются выше благодаря их популярности
Тренды разделяются на статичные и динамичные, а также по их источниками.
Тематика: стоимость тематики определяют тренды и рекламный аукцион поиска.
Словари
Мы создаем и обновляем тематические словари, чтобы определить, к каким категориям относится никнейм.
Например: бизнес, криптовалюты, поп-культура, имена итд. Предусмотрена вложенность - в словарях 1го уровня находятся славари 2го итд.
Непопулярный никнейм может принадлежать популярной тематике и наоборот
Пример: @zkevmbidge почти не упоминается на просторах интернетано - это уменьшает его ценность. Однако он принадлежит к дорогой тематике - blockchain - это повышает его оценку.
Географические привязки: оказывают как положительное так и негативное влияние
@NYC_blah или @London_example получат дополнительное влияение гео-фичей
Это список наиболее очевидных и понятных признаков с высоким влиянием. Кроме них есть плохо интерпритируемые признаки (такие как история продаж), неустойчивые признаки и те, которыми мы не готовы поделиться. Актуальный расчет не учитывает выводы приведенные выше, несмотря на их очевидность. Вы очень помогаете нам, когда честно голосуете в приложении за имена, которые считаете хорошими. Мы специально не даем критериев "хорошего" никнейма, чтобы вы отвечали как чувствуете.