

A menudo me pregunto “¿qué hace Nineteen.ai mejor que Chutes.ai ?”. Y es cierto: en la batalla por las emisiones entre Targon y Chutes, se percibe que compiten en igualdad de condiciones, cuando en realidad ni siquiera juegan el mismo juego.
Utilizaré las palabras mucho más educadas de @jon_durbin
de @rayon_sports para proporcionar una respuesta clara:
Nineteen es una subred de inferencia que proporciona una inferencia extremadamente rápida y fiable para un subconjunto específico de modelos. Sus mineros optimizan la inferencia en esos modelos específicos de forma extraordinaria; por ejemplo, los tiempos de inferencia en el modelo de generación de imágenes flux-1.schnell son aproximadamente un 65 % más rápidos que la canalización predeterminada la última vez que revisé (y probablemente sea más rápido ahora que entonces).
Chutes, por otro lado, está pensado para ser un sustrato computacional de propósito general para cualquier tarea de IA, pero en términos generales es un código que usa nuestras plantillas predefinidas y no está necesariamente optimizado por el creador del “chute” (también conocido como ese punto final/modelo de inferencia en particular), al enésimo grado de la forma en que los modelos se optimizan en 19.
En Chutes, cualquier usuario puede implementar cualquier modelo, con cualquier configuración de GPU, y los mineros lo escalarán según el uso. Chutes se centra en proporcionar computación en cualquier momento y para cualquier cosa. Nineteen se centra en la optimización extrema en modelos específicos. En otras palabras, se trata de un problema de “amplitud vs. profundidad”.
Para garantizar esta optimización en la versión 19, utilizan puntuación exponencial, y es fundamental proporcionar una red y una optimización impecables para sobrevivir como minero. En los canales, el objetivo es una mayor fiabilidad y disponibilidad, por lo que normalizamos la puntuación por TPS (tokens por segundo) y SPS (pasos por segundo para modelos de difusión), ya que nos importa más que las solicitudes se completen correctamente que la velocidad.
Cuando un modelo es lo suficientemente popular y/o necesita esa optimización adicional, puede implementarse también en diecinueve para una mejor experiencia del usuario.
Canales actualmente hay 66 “canales” diferentes, y estos también incluyen cosas para las cuales diecinueve no proporciona inferencia (transcripción, incrustaciones, modelos de video, etc.), mientras que 19 tiene 13 modelos actualmente.
Aquí, por ejemplo, se muestra una ilustración extrema de la diferencia: el rendimiento del modelo QwQ-32B. En Chutes, permitimos que este modelo se ejecute en diversos modelos de GPU, y algunos son bastante lentos en comparación con, por ejemplo, los nodos h100 sxm5. En Nineteen, los mineros básicamente siempre usan el hardware de gama alta para obtener la máxima velocidad. En Chutes, no podemos ejecutar todos los modelos en hardware premium porque los costos serían demasiado altos, pero en Nineteen, al seleccionar cuidadosamente los modelos que se ejecutarán, se puede garantizar el máximo rendimiento en ese subconjunto.

En cuanto al propósito de los mineros: Los mineros de Nineteen son especialistas en optimizar modelos de imagen o de generación de texto. En Chutes, los mineros son esencialmente SRE (ingenieros de confiabilidad del sitio), que mantienen miles de GPU, el tiempo de actividad, la monitorización, etc. Los mineros de Chutes no necesitan ser expertos en IA, sino administradores de sistemas o de red, mientras que en Nineteen ocurre lo contrario. Los mineros de Chutes ejecutan exactamente el código creado y escalan según el uso. Los mineros de Nineteen pueden modificar el código y la infraestructura a su gusto, siempre que supere la validación.
Espero que esto ayude a proporcionar una respuesta clara para cualquiera que quiera entender la diferencia y por qué, para la inferencia optimizada y dedicada, nineteen.ai sigue siendo el rey.
Mogmachine https://x.com/mogmachine/status/1903766103647469762
