Перейти к содержанию

Как работает NameRate

Основа NameRate - неинтерпитируемая модель машинного обучения, которая постоянно дообучается на основе дополнительных данных. Когда новая тестовая модель становится устойчивой, она заменяет основную, а обучение продолжается в новой тестовой моделе.

Где собираются данные

1. Площадки для продажи никнеймов

Открытые данные ресурсов, где продаются никнеймы и домены.

Сегодня оновными источниками являются:

  • Fragment — платформа, интегрированная в TON, где пользователи продают и покупают никнеймы.
  • GetGems — NFT-маркетплейс, для торговли никнеймами и другими цифровыми активами.

Что анализируется?

  • Успешные сделки: никнеймы, которые были проданы, их цены и скорость продажи.
  • Неудачные размещения: никнеймы, которые не нашли покупателя, и причины этого (цена, низкий спрос и т.д.).
  • Популярность тематик: востребованные категории, например, бизнес, крипто или имена.

2. Рыночные тренды

NameRate анализирует внешние данные, связанные с популярностью слов и фраз. Для этого используются:

  • Аукционы поисковых систем: статистика используемая для размещения контекстной рекламы.
  • Онлайн-источники: популярные слова в интернет-изданиях, часто упоминаемые фразы.
  • Социальные сети: тренды и ключевые темы, актуальные в Telegram, Twitter и других платформах.
  • Массовая культура и литература: слова и выражения, часто встречающиеся в поп-культуре, книгах или фильмах.

3. Пользовательские предпочтения через NameRateBot

Несмотря на большой объем косвенной информации для обучения, данных о продажах все еще недостаточно для качественной валидации алгоритма.

Поэтому, мы запустили Telegram-приложение @NameRateBot для получения мнений пользователей. Для нас это очень ценный источник знаний, которые мы используем для проверки качества оценок. А для пользователей это хороший способ получить наши токены.

Сейчас добавлена tinder-like механика:

  • Пользователи свайпают никнеймы вправо (нравится) или влево (не нравится)
  • Каждый свайп помогает в валидации весов модели
  • Пользователи получают награду в $NMRT

Сейчас добавлена только механика свайпов, но для улучшения следующей тестируемой модели мы добавим и другие, например

  • Механика с пользовательским вводом (1)
  • Механика с попарным сравнением (2)
  1. Фиксирует то, что пришло пользователям на ум
  2. Повышает точность ответа
Для защиты от фрода
  • Лимит свайпов: не более 10 свайпов в день, чтобы предотвратить накрутки
  • Анализ аномальных паттернов: если пользователь оценивает никнеймы слишком быстро или хаотично, такие данные исключаются

Принципы работы алгоритма

NameRate - неинтерпитируемая ML модель. Это значит, что нельзя точно сказать почему алгоритм поставил ту или иную оценку. Ниже мы приведем пример, который показывает как могут работать основные принципы и наиболее весомыми фичи.

Фичи и их веса менются при обновлении версии модели.

Актуальный алгоритм использует все признаки ниже, но не ограничивается ими. Интерпритация признаков приведена справочно (1)

  1. Похожим образом работал наш прототип.

Пример

Некоторые фичи, обладающие высоким влиянием:

Длина никнейма

Чем короче, тем лучше:

@root или @final более ценны, чем @longnickname123

Небуквенные символы: такие как числа или подчеркивание

Числа в никах снижают ценность:

@josephine лучше, чем @josephine12345

Однако, числа в нике увеличивают вес, если они добавляют смысл (например, @peer2peer или @season4)

Повторы

В общем случае, повторы символов уменьшают ценность:

@eeenemy теряет в оценке из-за избыточных повторов. Исключение - повторы как часть осмысленного слова

Интересно, что повторы осмысленных слов почти не влияют на оценку

Смысловая нагрузка

Реальные слова и фразы ценятся выше

@space_jaguar лучше, чем @qazws_jaguar

Популярность: Тренды в поиске, литературе или социальных сетях

Популярнее = лучше

@blockchain, @meta_boom или @music оцениваются выше благодаря их популярности

Тренды разделяются на статичные и динамичные, а также по их источниками.

Тематика: стоимость тематики определяют тренды и рекламный аукцион поиска.

Словари

Мы создаем и обновляем тематические словари, чтобы определить, к каким категориям относится никнейм.

Например: бизнес, криптовалюты, поп-культура, имена итд. Предусмотрена вложенность - в словарях 1го уровня находятся славари 2го итд.

Непопулярный никнейм может принадлежать популярной тематике и наоборот

Пример: @zkevmbidge почти не упоминается на просторах интернетано - это уменьшает его ценность. Однако он принадлежит к дорогой тематике - blockchain - это повышает его оценку.

Географические привязки: оказывают как положительное так и негативное влияние

@NYC_blah или @London_example получат дополнительное влияение гео-фичей

Это список наиболее очевидных и понятных признаков с высоким влиянием. Кроме них есть плохо интерпритируемые признаки (такие как история продаж), неустойчивые признаки и те, которыми мы не готовы поделиться. Актуальный расчет не учитывает выводы приведенные выше, несмотря на их очевидность. Вы очень помогаете нам, когда честно голосуете в приложении за имена, которые считаете хорошими. Мы специально не даем критериев "хорошего" никнейма, чтобы вы отвечали как чувствуете.