El futuro de la IA es abierto: por qué Venice usa modelos de IA de código abierto

El futuro de la IA es abierto: por qué Venice usa modelos de IA de código abierto

En este blog exploramos la diferencia entre los modelos de IA de código abierto y cerrado y cómo el desarrollo de IA de código abierto evita la monopolización de la inteligencia artificial, nuestros criterios de selección de modelos y la última incorporación a nuestra lista: el innovador Llama 3.1 405B

Venice.ai

Venice no es la típica plataforma de IA.

Hemos construido nuestra base en modelos de IA de código abierto porque se alinean con nuestras creencias: transparencia, privacidad y exploración de ideas sin censura. Nuestro lema en latín también hace hincapié en este compromiso: ad intellectum infinitum: «hacia una comprensión infinita».

Por otro lado, los principales modelos de IA de código cerrado son cajas negras, lo que suscita preocupación por el control, el sesgo y la vigilancia. Nadie ajeno a estas empresas sabe con qué datos se han formado, cuál es su peso exacto o qué filtros, políticas de contenido e indicaciones del sistema controlan su producción. Las empresas de inteligencia artificial de código cerrado tienen visibilidad de todas tus interacciones (asociadas a tu identidad) y las guardan para siempre. Almacenan tus conversaciones, las revisan y, potencialmente, comparten tus datos con gobiernos y anunciantes.

En Venice, hemos tomado un camino diferente. Al utilizar modelos de código abierto, ofrecemos una IA de vanguardia que cualquiera puede examinar y analizar, lo que incluye la calidad de los datos de entrenamiento, los sesgos y la idoneidad de los datos para los usos previstos del modelo. Los modelos de código abierto actuales están a la altura y, en ocasiones, superan el rendimiento y las capacidades de los principales modelos cerrados.

Pero, ¿cuáles son exactamente las diferencias entre los modelos de IA de código abierto y de código cerrado, y por qué debería importarle?

Este blog profundiza en estas preguntas y también describiremos los criterios de selección de modelos de Venice y presentaremos nuestra última incorporación: el innovador modelo Llama 3.1 405B.

Pero primero, ¿por qué creemos en el valor fundamental del desarrollo de código abierto en la IA?

La IA de código abierto es vital para evitar la monopolización de la verdad

A medida que la IA se vuelve cada vez más influyente, confiar únicamente en modelos de código cerrado controlados por unas pocas empresas de tecnología corre el riesgo de centralizar el poder y limitar el acceso a esta tecnología transformadora. Por ejemplo, durante un año electoral, una empresa de inteligencia artificial podría influir sutilmente en millones de votantes al censurar o priorizar ciertos puntos de vista políticos en sus respuestas, convirtiéndose de hecho en una guardiana de la información que no rinde cuentas.

Por el contrario, La IA de código abierto evita esta monopolización de la verdad.

Garantiza que ninguna entidad o cártel por sí solo pueda dictar lo que la inteligencia artificial puede saber o decir. Esto permite aplicar diversos enfoques al desarrollo de la IA y actúa como salvaguarda contra posibles usos indebidos, sesgos o censura.

Si bien algunos creen que los reguladores gubernamentales deben legislar sobre lo que es verdadero, correcto o permisible saber o decir, creemos que ningún ser humano o grupo de seres humanos debería tener ese poder. No se combaten los prejuicios y la desinformación con el control monopólico de un partido central. Esta es una receta para la corrupción, el abuso y la distopía.

En cambio, los sistemas abiertos y competitivos son más eficaces y menos peligrosos.

Los principios del software de código abierto crean un entorno en el que el desarrollo de la IA puede evolucionar a través de una iteración y una experimentación cuidadosas, sin agendas políticas o corporativas.

¿Cuáles son las diferencias entre los modelos de código abierto y cerrado?

Los modelos de IA de código abierto son transparentes, ya que los desarrolladores ponen su código, arquitectura y «pesos» a disposición del público. Cualquier persona puede inspeccionar, modificar y contribuir a su desarrollo. Miles de desarrolladores de todo el mundo perfeccionan continuamente estos modelos, a menudo superando los ciclos de actualización de las alternativas de código cerrado. Una búsqueda sencilla de «Llama» en el sitio web Hugging Face revela la asombrosa cantidad de más de 47 000 modelos de Llama perfeccionados por la comunidad. Estos modelos también proporcionan un acceso sin restricciones, lo que permite a cualquier persona del mundo utilizar su energía.

Los modelos de código cerrado, por el contrario, son propietarios y, por lo general, son «cajas negras». Su funcionamiento interno está oculto y solo lo conocen las empresas que los desarrollan, como el modelo GPT-4 de OpenAI o el Claude de Anthropic. Estas empresas controlan estrictamente el acceso a estos modelos y, por lo general, los ofrecen a través de API restringidas. Los usuarios, los investigadores y los desarrolladores no pueden inspeccionar el código, modificar la arquitectura ni contribuir al desarrollo del modelo.

Las actualizaciones de los modelos de código cerrado se realizan a discreción de la empresa desarrolladora, a menudo sin transparencia sobre los cambios realizados. Además, los datos de capacitación y los procesos de ajuste de los modelos de código cerrado permanecen confidenciales, lo que dificulta la evaluación de los posibles sesgos o limitaciones. Los usuarios deben confiar en las afirmaciones de la empresa sobre las capacidades del modelo y las consideraciones éticas, sin poder verificar estas afirmaciones de forma independiente.

He aquí una comparación rápida de los criterios clave:

La IA avanza a una velocidad vertiginosa, y los desarrollos recientes han demostrado que los modelos de código abierto ahora suelen ser aproximadamente equivalentes a sus homólogos de código cerrado y, en algunas áreas, superarlos. El mejor ejemplo de ello es la reciente publicación de Modelo Llama 3.1 405B de Meta, que demuestra un rendimiento competitivo con modelos patentados líderes en varios puntos de referencia, de los que hablaremos más adelante en este blog.

Cómo Venice selecciona los modelos de código abierto

En Venice, evaluamos cuidadosamente los modelos de código abierto en función de varios factores.

Puntos de referencia de rendimiento son cruciales: evaluamos el rendimiento de cada modelo en varias tareas. Nuestro objetivo siempre es ofrecer una IA de vanguardia que pueda competir con las alternativas de código cerrado y, a menudo, superarlas.

También consideramos requisitos computacionales para garantizar interacciones eficientes en tiempo real. Soporte para desarrolladores y comunidades es otro aspecto vital, ya que buscamos modelos con un desarrollo activo.

Es importante destacar que damos prioridad a los modelos con restricciones de contenido inherentes mínimas. Si bien todos los modelos tienen algunas limitaciones integradas en función de sus datos de entrenamiento, buscamos aquellos con los límites menos restrictivos. Analizamos las restricciones básicas de capacitación y contenido de cada modelo para identificar aquellos que ofrecen las respuestas más abiertas e imparciales.

También evaluamos cada modelo adaptabilidad, centrándonos en qué tan bien podemos indicarle que ignore las políticas de contenido demasiado cautelosas y, al mismo tiempo, mantenga la precisión de los hechos. Este enfoque nos permite ofrecer interacciones de inteligencia artificial que respetan tu libertad intelectual y tu curiosidad, a la vez que mantenemos nuestro compromiso de ofrecer información imparcial y sin censura.

Nuestra gama actual de modelos refleja este cuidadoso proceso de selección y ofrece una gama de funciones para la generación de texto e imágenes.

Modelos de generación de texto

Venice ofrece una gama de modelos de generación de texto de código abierto que se adaptan a sus necesidades:

  • Nous Theta con acceso a Internet: Especializado para interacciones basadas en la web, optimizado para consultas de búsqueda y que proporciona información actualizada, este modelo también es excepcionalmente rápido y es el predeterminado en Venice

  • Dogge 70B: Ofrece una excelente relación rendimiento-tamaño con 70 mil millones de parámetros, versátil para diversas tareas de procesamiento de idiomas

  • Llama 3.1 405B: Con 405 mil millones de parámetros, proporciona la experiencia de IA de código abierto más vanguardista, con una comprensión y generación de idiomas excepcionales, ideal para tareas de razonamiento complejas. Aunque es relativamente más lento que los otros modelos, sus respuestas suelen ser las más completas (a menos que necesites acceso a la web o información en tiempo real).

Modelos de generación de imágenes

Para complementar nuestras capacidades de generación de texto, también hemos seleccionado una selección de potentes modelos de generación de imágenes de código abierto:

  1. Playground v2.5: Una opción versátil para diversas tareas de creación de imágenes.

  2. FLUJO: Un modelo completamente nuevo que está ganando gran popularidad por su realismo fotográfico, el mejor de su clase.

  3. Final XL con fluidez: Ideal para crear imágenes naturalistas y muy detalladas con una salida de alta resolución.

  4. Dreamshaper y PixArt Sigma: Especializado en generación de imágenes animadas, imágenes estilizadas y visualizaciones abstractas.

Estos modelos forman la columna vertebral de las capacidades de generación de imágenes de Venice. En cuanto al texto, analicemos con más detalle la última incorporación a Venice: el revolucionario Llama 3.1 405B.

El Llama 3.1 405B de Meta ya está disponible para todos los usuarios de Venice

El día de su publicación, Venice tuvo el placer de habilitar el nuevo modelo fronterizo de código abierto de Meta, el más grande (y empíricamente el mejor) publicado hasta la fecha, con 405 mil millones de parámetros.

Recomendamos usar este modelo si desea obtener los resultados más inteligentes. Sin embargo, hay algunas salvedades:

  • El 405B no está conectado a Internet. Recomendamos seguir utilizando la versión web de Nous Theta para las preguntas que requieran información en tiempo real.

  • La inferencia en el 405B será más lenta en comparación con los modelos más pequeños. Es posible que se puedan realizar optimizaciones en el futuro, pero queríamos ofrecer a los usuarios acceso a este modelo lo antes posible.

  • Este modelo todavía está algo censurado, sin embargo, esperamos poder acceder pronto a una versión sin censura de Llama 3.1.

Entonces, ¿qué es lo que nos entusiasmó de este nuevo modelo? La versión 3.1 405B de Meta demuestra que los modelos de código abierto no solo se han vuelto competitivos, sino que, en varios parámetros, superan de manera impresionante las capacidades y el rendimiento de muchos modelos centralizados de código cerrado en 7 de las 15 métricas de LLM estándar.

Estos son algunos aspectos clave de las métricas:

MMLU (comprensión del lenguaje multitarea)

Clasificación: Competitivo con el GPT-4 Omni y supera a todos los demás modelos de su clase.

Este punto de referencia está diseñado para medir el conocimiento adquirido, de forma similar a como evaluamos a los humanos. En esencia, es como la puntuación del SAT para un máster en máster. El punto de referencia abarca 57 materias de STEM, humanidades y más, y varía en dificultad desde un nivel profesional elemental hasta un nivel profesional avanzado, lo que pone a prueba tanto el conocimiento mundial como la capacidad de resolución de problemas.

Desafío ARC (corpus de abstracción y razonamiento)

Calificación: Supera a todos los demás modelos de su clase.

Este punto de referencia está diseñado para medir la adquisición de habilidades de la IA y hacer un seguimiento del progreso hacia el logro de una IA a nivel humano. Considéralo una prueba de coeficiente intelectual para estudiantes de máster en máster, en la que se evalúa la capacidad de una IA para abordar cada tarea desde cero, utilizando únicamente el tipo de conocimiento previo sobre el mundo que los humanos poseen de forma natural, lo que se conoce como conocimiento básico.

GSM8K (Matemáticas de primaria 8K)

Calificación: Supera a todos los demás modelos de su clase.

Este punto de referencia mide la capacidad del LLM para responder problemas matemáticos básicos basados en el conjunto de datos GSM8K, diseñado para evaluar la capacidad de los modelos para comprender y razonar sobre problemas matemáticos verbales con una complejidad lingüística variable. Los problemas conceptualmente simples pueden ser un desafío para los modelos lingüísticos debido a la diversidad de problemas que requieren realizar una secuencia de cálculos mediante operaciones aritméticas básicas e incluyen una serie de pasos para resolverlos.

Venice pone en tus manos una potente IA de código abierto

La monopolización de la IA es una amenaza para el libre flujo de información e ideas.

A medida que la IA se vuelve más influyente en nuestras vidas, confiar en modelos de código cerrado corre el riesgo de crear un árbitro único e irresponsable de la verdad y la inteligencia.

Los modelos de código abierto, como Llama 3.1 405B, son el antídoto contra este riesgo. Estos modelos permiten a cualquier persona inspeccionar, modificar y contribuir a su desarrollo, lo que garantiza que ninguna entidad pueda dictar lo que la inteligencia artificial sabe o dice. Los modelos de IA de código abierto avanzan rápidamente y ahora ofrecen capacidades que compiten o superan a las de los modelos de código cerrado.

En Venice, nos centramos en hacer que estos potentes modelos sean accesibles para todos a través de nuestra interfaz fácil de usar.

Al usar Venice, apoyas un futuro en el que la verdad no sea capturada por intereses autoritarios ni escondida detrás de cajas negras. A medida que esta tecnología revolucionaria sigue avanzando, mantenemos nuestro compromiso de ofrecerte las últimas innovaciones de código abierto.

Prueba Venice ahora y disfruta de toda la potencia de la IA de código abierto, privada y sin censura.

Volver a todas las publicaciones
Room