Este boletín informativo de IA es todo lo que necesita #38

Esta semana, la IA sigue prosperando bajo la presión de la competencia y se está generando entusiasmo por la llegada de GPT-4. Los gigantes tecnológicos, las nuevas empresas de IA generativa e incluso las personas compiten para estar a la vanguardia del panorama de la IA al proporcionar alternativas viables a ChatGPT. El espacio de IA generativa también se ha convertido en un foco cada vez mayor para el capital de riesgo, y el último ejemplo es Stability AI, que, según se informa, está en conversaciones para recaudar fondos con una valoración de $ 4 mil millones. Si bien muchas empresas emergentes de IA generativa se pueden arrancar y construir sobre la base del acceso API a modelos como GPT o ajustes económicos, aún se necesitan aumentos más grandes para construir clústeres de GPU para capacitación o para pagar la inferencia y la capacitación en la nube.

Como hemos estado rastreando en este boletín, ha habido un gran progreso hacia alternativas de código abierto a modelos como ChatGPT en las últimas semanas, así como señales de una mayor flexibilidad en el acceso a estos modelos y alternativas a OpenAI. Estábamos particularmente emocionados de ver un proyecto de Stanford para afinar el modelo de llama 7BN de Meta (cuyos pesos se filtraron recientemente) utilizando un modelo de código abierto llamado Alpaca. Crearon 52.000 ejemplos de seguimiento de instrucciones utilizando OpenAI da-vinci, luego supervisaron el ajuste fino del modelo durante tres horas en ocho A100 de 80 GB (que cuestan solo ~ $ 100). El modelo resultante también puede ejecutarse en una sola GPU, aunque lentamente. Funciona de manera similar a ChatGPT en muchas tareas. Vemos un gran potencial para un mayor ritmo de avances en NLP y transformadores ahora que el acceso a estos modelos está disponible fuera de las grandes empresas de tecnología y por costos de ajuste asequibles.

Esta semana, AI21 Labs lanzó las API Jurassic-2 y Task-Specific, que es otro paso positivo hacia el acceso competitivo a los LLM a través de la API y una mayor transparencia. Jurassic-2 es la próxima generación de modelos básicos de AI21, que incluye mejoras de calidad significativas y nuevas capacidades.

A medida que nos preparamos para un futuro en el que el rápido progreso de la IA conduce a sistemas de IA transformadores, es crucial priorizar el apoyo a la investigación de seguridad de la IA. OpenAI y Anthropic AI, entre otros, han hablado sobre la importancia de la seguridad de la IA. Anthropic cree que la investigación de seguridad basada empíricamente tendrá la mayor relevancia e impacto y reconoce que una de las principales razones de su existencia como organización es la necesidad de realizar investigaciones de seguridad en sistemas de IA «fronterizos». Si bien el nuevo acceso de código abierto a estos modelos es prometedor para el ritmo del progreso y reduce la concentración de poder dentro de unas pocas grandes empresas, también brinda una mayor flexibilidad para el mal uso de estos modelos. Es difícil saber si la política de OpenAI de acceso a estos modelos a través del acceso API con controles y equilibrios o un acceso más abierto a estos modelos sería el mejor modelo para limitar el daño, pero parece que ya estamos yendo por caminos diferentes.

También te puede interesarMastering the Art of Language: A Guide to NLP Techniques
  • Microsoft mencionó el lanzamiento inminente de GPT-4
  • ¡GPT-4 llegará la próxima semana! En un evento informativo híbrido titulado «AI in Focus — Digital Kickoff» el 9 de marzo de 2023, cuatro empleados de Microsoft Alemania presentaron modelos de lenguaje grande (LLM) como la serie GPT como una fuerza disruptiva para las empresas y su oferta Azure-OpenAI.

    2. Stability AI busca recaudar fondos con una valoración de $ 4 mil millones a medida que la inteligencia artificial cautiva a los inversores

    Según los informes, la empresa matriz de Stable Diffusion, una herramienta de inteligencia artificial para crear imágenes digitales, busca recaudar fondos con una valoración de aproximadamente $ 4 mil millones. Sin embargo, no se ha tomado una decisión final con respecto a la financiación y la valoración está sujeta a cambios.

    3. Universal Speech Model (USM) de Google: IA de voz de última generación para más de 100 idiomas

    También te puede interesarLos 7 mejores generadores de voz de IA

    Google compartió recientemente su Universal Speech Model (USM), que afirma ser un primer paso fundamental para admitir 1000 idiomas. USM es una familia de modelos de voz con parámetros 2B entrenados en 12 millones de horas de voz y 28 mil millones de oraciones de texto, que abarcan más de 300 idiomas.

    4. Puntos de vista centrales de Anthropic sobre la seguridad de la IA: cuándo, por qué, qué y cómo

    Anthropic AI compartió recientemente por qué anticipa un rápido progreso en la IA y grandes impactos de la tecnología, lo que ha generado preocupaciones sobre la seguridad de la IA. La compañía enfatiza la urgencia de apoyar la investigación de seguridad de la IA, que debe ser realizada por una amplia gama de actores públicos y privados.

    5. MuAViC: el primer punto de referencia de traducción de voz de audio y video

    También te puede interesarLa IA ayuda a crear cuentos únicos para dormir en la función Crear con Alexa de Amazon

    Meta AI ha lanzado MuAViC (Multilingual Audio-Visual Corpus), el primer punto de referencia diseñado para permitir el uso del aprendizaje audiovisual para la traducción de voz de alta precisión. MuAViC también se utilizará para entrenar el modelo AV-HuBERT de Meta para traducir el habla en entornos desafiantes y ruidosos.

  • Ajuste fino de LLM 20B con RLHF en una GPU de consumo de 24 GB
  • HuggingFace ha lanzado recientemente la integración de trl con peft, que tiene como objetivo hacer que el ajuste fino del modelo de lenguaje grande (LLM) con el aprendizaje por refuerzo sea más accesible. Esta biblioteca está diseñada para simplificar el paso de RL y proporcionar más flexibilidad.

    2. El estado del aprendizaje automático competitivo

    Este artículo resume el estado del panorama competitivo mediante el análisis de más de 200 concursos que tuvieron lugar en 2022. Además, profundiza en el análisis de 67 soluciones ganadoras para identificar las mejores estrategias para ganar en el aprendizaje automático competitivo.

    También te puede interesar[Paper Review] Localización y edición de asociaciones fácticas en GP

    3. Habilidades emergentes de modelos de lenguaje grande

    Este artículo explora el concepto de ‘emergencia’ en general antes de profundizar en su aplicación a los modelos de lenguaje extenso. También analiza las razones subyacentes de estas habilidades emergentes y sus implicaciones.

    4. El efecto Waluigi (megapost)

    Este artículo presenta una explicación mecanicista del Efecto Waluigi y otros extraños fenómenos «semióticos» que surgen dentro de los grandes modelos de lenguaje, como GPT-3/3.5/4 y sus variantes (ChatGPT, Sydney, etc.). Propone una novedosa idea de “adulación y diálogo” en ingeniería puntual.

    5. Usar IA para convertir la Web en una base de datos

    Este artículo presenta un enfoque prometedor para implementar la web semántica utilizando modelos de lenguaje grande (LLM) poderosos combinados con bases de conocimiento. También propone el concepto de “Agentes de la Web Semántica” que pueden navegar por la web y realizar tareas en nombre de los usuarios.

  • PaLM-E: un modelo de lenguaje multimodal incorporado
  • El documento presenta un experimento con un LLM preentrenado (PaLM) y un modelo de visión preentrenado (ViT). Estos modelos se combinan con nuevos pesos aprendibles en una red neuronal más grande para resolver tareas que involucran lenguaje, visión y planificación.

    2. Visual Chat GPT

    Visual ChatGPT conecta ChatGPT con una serie de Visual Foundation Models, lo que permite a los usuarios enviar y recibir imágenes durante el chat. El objetivo es construir una IA que pueda manejar varias tareas al combinar la interfaz general de ChatGPT con la experiencia de dominio de los modelos fundamentales.

    3. Los grandes modelos de lenguaje codifican el conocimiento clínico

    MultiMedQA es un punto de referencia que combina seis conjuntos de datos de respuesta a preguntas abiertas existentes que abarcan exámenes médicos profesionales, investigaciones y consultas de los consumidores.

    4. Prismer: un modelo de visión y lenguaje con un conjunto de expertos

    Prismer, es un modelo de lenguaje de visión eficiente en datos y parámetros que aprovecha un conjunto de expertos en el dominio. Los resultados experimentales demuestran que Prismer logra un rendimiento competitivo con los modelos de última generación actuales en tareas de aprendizaje precisas y de pocos disparos, al mismo tiempo que requiere hasta dos órdenes de magnitud menos de datos de entrenamiento.

    5. Prompt, Generate, luego Cache: Cascade of Foundation Models hace fuertes aprendices de pocas oportunidades

    Los modelos Cascade of Foundation (CaFo) es un marco que combina varios paradigmas de preentrenamiento, incluidos CLIP, DINO, DALL-E y GPT-3, para mejorar el aprendizaje de pocas tomas. CaFo utiliza un enfoque de «Indicar, Generar, luego Caché» para aprovechar las fortalezas de cada método de preentrenamiento y lograr un rendimiento de vanguardia en la clasificación de pocos disparos.

    ¿Disfruta de estos documentos y resúmenes de noticias? Recibe un resumen diario en tu bandeja de entrada!

    Luis Bouchard ha lanzado un nuevo proyecto destinado a desmitificar los diversos roles en la industria de la IA y discutir temas interesantes de IA con invitados expertos. El podcast, disponible en Spotify y Podcasts de Apple, presenta entrevistas con expertos de la industria. El último episodio presenta a Chris Deotte, Quadruple Kaggle Grandmaster en NVIDIA, quien analiza temas como la elaboración de un sólido currículum de ciencia de datos, el logro del estatus de gran maestro en Kaggle, el trabajo en NVIDIA y los enfoques de los desafíos actuales de la ciencia de datos. ¡En este momento, los usuarios tienen la oportunidad de participar en un sorteo de NVIDIA RTX 4080 directamente desde el podcast! Échale un vistazo aquí.

    Meme compartido por dimkiriakos#2286

    Adri Ben#5135 compartió un documento titulado «Una arquitectura de red neuronal convolucional de puerta lógica escalable, interpretable, verificable y diferenciable a partir de tablas de verdad» y un diseño de DCNN que podría ser adecuado para la seguridad para la verificación formal, el modelo de reglas, la equidad y el aprendizaje automático confiable‌. Este documento presenta una nueva definición del operador de convolución elemental como una función booleana manejable, que permite el cálculo de la distribución completa de la red neuronal antes de la producción. léelo aquí y apoyar a un compañero miembro de la comunidad. Comparta sus comentarios y preguntas en el hilo aquí!

    Únete a la discusión en Discord.

    ¿Cómo pueden las reglas codificadas superar el rendimiento de ML? por Iván Reznikov

    Aunque el aprendizaje automático tiene sus ventajas en la resolución de problemas, no siempre es la mejor solución. En ciertas áreas, como aquellas en las que la interpretabilidad, la solidez y la transparencia son fundamentales, los sistemas basados ​​en reglas pueden incluso superar al aprendizaje automático. Este artículo analiza los casos de uso de los sistemas híbridos y los beneficios de integrarlos en una canalización de ML. Examinaremos ejemplos prácticos de industrias, como la atención médica, las finanzas y la gestión de la cadena de suministro.

    El impacto de la tecnología 5G en IoT y ciudades inteligentes por Deepankar Verma

    PCA: la herramienta favorita de los bioinformáticos puede ser engañosa por salvatore raieli

    Si está interesado en publicar con Towards AI, consulta nuestras pautas e inscríbete. Publicaremos su trabajo en nuestra red si cumple con nuestras políticas y estándares editoriales.

    Científico de datos experto @Impact (remoto)

    Ingeniero de datos V @ID.me (remoto)

    Científico de datos asociado @Freenome (remoto)

    Científico de datos @Deep Genomics (remoto)

    Científico de aprendizaje automático @Convergent Research (remoto)

    Ingeniero Senior Full Stack @ClosedLoop (Remoto)

    Ingeniero sénior de ML @SuperAnnotate (Ereván, Armenia)

    Ingeniero sénior de datos — Analytics @ASAPP (Bangalore, India/Híbrido)

    ¿Interesado en compartir una oportunidad de trabajo aquí? Contacto patrocinadores@haciaai.net.

    Si está preparando su próxima entrevista de aprendizaje automático, no dude en consultar nuestro sitio web líder en preparación de entrevistas, papel picado!

    [post_relacionado id=»1757″]

    Scroll al inicio