La nueva serie de sensores de imagen Sony IMX500 Intelligent Vision contiene sistemas de análisis de imagen por IA directamente en el chip, lo que abre capacidades nuevas y más rápidas para las cámaras.
El anuncio describe dos nuevos modelos de chips CMOS Intelligent Vision, el Sony IMX500 y el IMX501. Por lo que pude notar, estos comparten el mismo chip base, excepto que el 500 es el mero producto de chip, mientras que el 501 es un producto empaquetado.
Ambos son chips de tipo 1/2.3″ con 12.3 megapíxeles efectivos. Parece claro que uno de los principales mercados para el nuevo chip son las cámaras de seguridad y de sistema. Sin embargo, tener procesos de IA en el chip ofrece nuevas e interesantes posibilidades para futuras cámaras de video, particularmente aquellas montadas en drones o en cámaras de acción como una GoPro o una Insta 360.
¿Qué puede hacer el sensor Sony IMX500?
Una capacidad destacada del nuevo chip reside en funciones como la identificación de objetos o personas. Esto podría ser a través del seguimiento de dichos objetos, o de hecho identificándolos de verdad. La salida del nuevo chip tampoco tiene que estar en forma de imagen. Los metadatos se pueden generar para que simplemente pueda enviar una descripción de lo que ve sin la imagen visual que lo acompaña. Esto puede reducir el requisito de almacenamiento de datos hasta en 10.000 veces.
Para usos de cámaras de seguridad o de sistema, una cámara equipada con el nuevo chip podría contar el número de personas que pasan frente a él o identificar falta de stock en los estantes de una tienda. Incluso podría programarse para identificar el comportamiento del cliente a través de mapas de calor.
Para las cámaras tradicionales, podría mejorar los sistemas de enfoque automático al poder identificar y rastrear sujetos con mucha más precisión. Con sistemas de IA como este, podría hacer que los sistemas de enfoque automático sean más inteligentes al identificar áreas de una imagen en las que es probable que se esté enfocando. Por ejemplo, si deseas tomar una fotografía de una flor, el sistema de AF sabría enfocarse en eso en lugar de, por ejemplo, la rama de un árbol detrás de ella. El reconocimiento facial también se volvería mucho más rápido y más confiable.
Los sistemas de enfoque automático de hoy en día ya se están volviendo increíblemente buenos, pero si estuvieran respaldados por una identificación ultrarrápida de objetos en el chip, podrían ser aún mejores. También para las cámaras 360, la capacidad de tener metadatos de seguimiento de objetos más confiables ayudaría con el reencuadre en post-producción.
¿Por qué necesitamos IA en el chip?
Hay dos motivaciones principales para querer colocar capacidades de IA directamente en el chip. La primera es que hace que el procesamiento sea mucho, mucho más rápido. El Sony IMX500 puede realizar sus capacidades a la velocidad de un cuadro de video, en lugar de tener que enviar esos datos a lo largo de una tubería para ser procesados en otro lugar. La otra ventaja es una mayor seguridad. Muy a menudo los datos se envían a través de la nube para el análisis de imágenes por IA. Tener estos sistemas en el chip elimina esa posible laguna de seguridad.
La IA en la nube tampoco se puede usar estando desconectado, y además restringe la capacidad de realizar análisis en tiempo real de manera confiable. La energía y el costo de los procesos computacionales en la nube también están aumentando, y eso no es bueno para el medio ambiente.
En términos de cámaras pequeñas como las GoPros, significa que este tipo de procesamiento no necesita ser realizado por otro chip en otra parte de la cámara. Esto ahorra energía, pero también significa que el chip de procesamiento principal de la cámara y la memoria pueden liberarse para hacer otras cosas, como una mejor estabilización electrónica o procesamiento de color.
Solo está limitado por tu imaginación
Pero las capacidades del nuevo chip, que los desarrolladores pueden programar a pedido para que hagan exactamente lo que necesitas, solo están limitadas por la imaginación. Sony usa un automóvil como un ejemplo de cómo podría usarse, identificando al conductor y ajustando automáticamente la posición del asiento del automóvil. Otro ejemplo es poder reconocer si el conductor se esta quedando dormido.
Para las cámaras deportivas, el dispositivo podría ser capaz de identificar tu forma durante el movimiento. Si deseas mejorar tu yoga o artes marciales, por ejemplo, podría ayudarte a identificar áreas de mejoría al compararlo con un ejemplo “perfecto”. El reconocimiento de voz por el movimiento de los labios también podría volverse potencialmente mucho más rápido, e incluirse en todas las cámaras. Para las personas que filman drama, esto tendría un gran potencial cuando se trata de registrar tomas o identificarlas a partir de un guión si la cámara está emitiendo actuaciones de actores en forma de texto al mismo tiempo que está grabando la imagen.
El IMX500 también parece un chip altamente capaz desde una perspectiva de video puro. Es capaz de 4K a hasta 60 fps y 1080p a hasta 240 fps. Aunque actualmente el chip está restringido a 30 fps para el procesamiento completo de video y IA juntos.
Con todo, si bien esta es solo la primera generación de chips, es de esperar que este tipo de capacidad se implemente en otros chips más convencionales con el tiempo y, por lo tanto, es un desarrollo significativo que vale la pena informar.
¿Tienes alguna idea de cómo la inteligencia artificial integrada en el chip posibilitaría una función de cámara que quisieras ver? ¡Cuéntanos en los comentarios debajo!