Apple lanzó hoy varios modelos de lenguajes grandes (LLM) de código abierto que están diseñados para ejecutarse en dispositivos en lugar de a través de servidores en la nube. Los programas LLM, llamados OpenELM (modelos de lenguaje eficiente de código abierto), están disponibles en La pieza central de la cara abrazada.una comunidad para compartir código de IA.
Como se muestra en el documento técnico. [PDF]Hay ocho modelos OpenELM en total, cuatro de los cuales están preentrenados utilizando la biblioteca CoreNet y cuatro son modelos ajustados por instrucciones. Apple utiliza una estrategia de escalado de capas destinada a mejorar la precisión y la eficiencia.
Apple proporcionó código, registros de entrenamiento y múltiples versiones en lugar de solo el modelo de entrenamiento final, y los investigadores detrás del proyecto esperan que esto conduzca a un progreso más rápido y «resultados más confiables» en el campo de la IA en lenguaje natural.
OpenELM, un modelo de lenguaje abierto en evolución. OpenELM utiliza una estrategia de escalado de capas para asignar parámetros de manera eficiente dentro de cada capa del modelo del transformador, lo que resulta en una precisión mejorada. Por ejemplo, con un presupuesto de parámetros de aproximadamente mil millones de parámetros, OpenELM muestra una mejora del 2,36% en la precisión con respecto a OLMo y requiere el doble de tokens para el entrenamiento previo.
Rompiendo con las prácticas anteriores que solo proporcionan pesos de modelo, código de inferencia y entrenamiento previo en conjuntos de datos privados, nuestra versión incluye el marco completo para entrenar y evaluar el modelo de lenguaje en conjuntos de datos disponibles públicamente, incluidos registros de entrenamiento, múltiples puntos de control y entrenamiento previo. puntos. Configuraciones de entrenamiento.
Apple dice que está lanzando modelos OpenELM para “potenciar y enriquecer la comunidad de investigación abierta” con modelos de lenguaje de vanguardia. Compartir modelos de código abierto ofrece a los investigadores una forma de investigar los riesgos, los datos y los sesgos de los modelos. Los desarrolladores y las empresas pueden utilizar las plantillas tal cual o realizar modificaciones.
El intercambio abierto de información se ha convertido en una herramienta importante para que Apple reclute a los mejores ingenieros, científicos y expertos porque brinda oportunidades para trabajos de investigación que normalmente no se habrían publicado según las políticas de confidencialidad de Apple.
Apple aún tiene que incorporar este tipo de capacidades de IA a sus dispositivos, pero se espera que iOS 18 incluya una serie de nuevas funciones de IA, y los rumores sugieren que Apple planea ejecutar sus propios modelos de lenguaje grandes en el dispositivo por motivos de privacidad.
«Gurú del alcohol. Analista. Defensor de la comida. Aficionado extremo al tocino. Experto total en Internet. Adicto a la cultura pop. Pionero de viajes sutilmente encantador».