“Tokenmaxxing”: cuando las métricas de adopción de la IA se tuercen

wpnews.pro

Hacer un seguimiento de la adopción de la IA en la empresa plantea a los responsables de TI un dilema de métricas. Aunque el ROI debería ser el criterio que determine el éxito de las iniciativas de IA, un paso clave en el camino hacia ese ROI es garantizar que los empleados utilizan realmente las herramientas de IA desplegadas.

Entonces, ¿cuál es la mejor forma de medir la adopción de la IA sin perder de vista el objetivo final?

Algunas empresas han adoptado el uso de tokens como métrica para medir la adopción. Incluso llegan a gamificar las interacciones con la IA para fomentar su uso. Algunos expertos en IA advierten de que se trata de un enfoque peligroso.

Según se ha informado, empresas como Amazon, JPMorgan, Meta y Disney han implementado clasificaciones de uso de IA para fomentar la adopción, lo que en algunos casos ha llevado a los trabajadores a generar facturas muy elevadas al agotar sus presupuestos de tokens. Un empleado de Disney interactuó con la IA Claude 460.000 veces en un periodo de nueve días, según Business Insider.

Estas clasificaciones corporativos han dado lugar a un fenómeno conocido como tokenmaxxing. Consiste en el incremento de su uso de herramientas de IA por parte de los empleados con el objetivo de ganar la competición. Varios expertos coindicen en que hacer un seguimiento del uso de tokens de los empleados sin combinarlo con métricas de resultados o productividad es una receta para el desastre, especialmente para los responsables de TI encargados de los presupuestos de IA.

En algunos casos, los mayores consumidores de tokens en las empresas han llegado a gastar millones de dólares.

En opinión de Trevor Stuart, vicepresidente senior del proveedor de soporte al desarrollo de software Harness, las clasificaciones de uso de tokens parten de buenas intenciones, de un deseo genuino de entender cómo interactúan los empleados con las herramientas de IA.

“Simplemente están tratando de entender cómo la gente utiliza estas herramientas y cuántas personas las utilizan”, explica, para añadir que, al fomentar la adopción, estas clasificaciones supuestamente generarán “productividad a posteriori”.

Sin embargo, estas clasificaciones crean incentivos para utilizar herramientas de IA sin pensar en los costes, Incluso algunos empleados llegan a utilizar modelos de IA avanzados para tareas sencillas.

Para Stuart , “es como usar una herramienta equivocada cuando podrías utilizar una más simple para hacer el trabajo. Ahí es donde el tokenmaxxing incentiva realmente el comportamiento incorrecto”.

Todd Olson, CEO del proveedor de analítica de IA Pendo, considera que medir los tokens utilizados se ha popularizado tanto porque es una métrica relativamente fácil de recopilar.

Y lo razona así: “Si alguien no consume ningún token, no está utilizando la IA en absoluto y no obtiene ningún valor de ella. Pero las cosas se vuelven mucho más complejas y difusas una vez que todo el mundo empieza realmente a usarla”.

Olson confirma que, una vez que las organizaciones consiguen que los empleados den el primer paso hacia el uso de herramientas de IA, deben empezar a pensar en otras métricas. “Existe la inercia inicial de hacer que la gente pruebe algo y cambie sus hábitos. Ese es, en cierto modo, un problema de pasar de cero a uno. Pero después la pregunta es: ¿la gente la está utilizando sólo por utilizarla?”.

A juicio de Logan Wolfe, socio de la práctica global de transformación empresarial, IA y estrategia de tecnología soberana en Kyndryl, el gran problema es que el uso de tokens no conduce necesariamente a la productividad.

En su opinión, “las empresas están utilizando el número de tokens consumidos como un indicador indirecto de lo productivos que son los empleados al usar la IA. En la práctica, los empleados están incentivados a utilizar tokens o, en algunos casos, penalizados por no utilizar suficientes, y es evidente que se trata de una métrica muy fácil de manipular”.

Wolfe compara estas métricas con recompensar a los desarrolladores que escriben más líneas de código, lo que conduce a aplicaciones sobredimensionadas.

“Cuando el uso de tokens se convierte en el KPI, se incentiva el volumen de output por encima de resultados como la eficiencia, la calidad y la reducción de riesgos”, añade.

Es más, advierte de que uno de los principales riesgos para los responsables de TI es que los incentivos ligados al uso de tokens pueden disparar el presupuesto, advierte Wolfe.

“Teniendo en cuenta que las reducciones del precio por token y por inferencia no parecen estar en el horizonte, en gran medida por el aumento de los costes energéticos, esto acaba generando una curva inversa en la economía unitaria y en el ROI de las iniciativas de IA”, afirma.

Itamar Friedman, CEO del proveedor de revisión de código con IA Qodo, hace hincapié en que medir únicamente el uso de tokens sería similar a que una persona controle cuántos kilómetros camina cada día para mejorar su salud sin tener en cuenta las calorías que consume o sin revisar regularmente sus métricas médicas básicas. “Si caminas dos millas al día pero consumes 5.000 calorías, es poco probable que mejores tu salud”, precisa.

Y añade que hacer seguimiento del uso de tokens por parte de los empleados no es una mala práctica, pero utilizarlo como única métrica ofrece una visión incompleta de los beneficios de los despliegues de IA.

De ahí que afirme lo siguiente: “Creo que existe cierta correlación entre maximizar el uso de tokens y ser más productivo. Pero el problema es que, si se trata como la única o la principal métrica de productividad, puede acabar generando una métrica de vanidad”.

Incluso advierte de que, en algunos casos, las empresas parecen estar monitorizando el uso de tokens de sus programadores. Cuando se incentiva a los desarrolladores a generar grandes cantidades de código con IA sin revisiones de calidad y seguridad, este puede contener errores importantes y vulnerabilidades.

Para evitar los problemas de centrarse únicamente en el uso de tokens, Stuart, de Harness, recomienda que las empresas establezcan también métricas de productividad o resultados.

“Hay que configurarlo de forma que se gamifiquen los comportamientos y los incentivos que realmente importan», afirma. «Quizá el incentivo para nosotros en Harness no sea la cantidad de tokens que consumes, sino el output que somos capaces de generar y el paso de los* inputs *a los outputs”, sostiene.

Y añade que las métricas de productividad variarán de una empresa a otra. En el caso de los desarrolladores que utilizan asistentes de IA, por ejemplo, la métrica principal puede no ser el número de líneas de código escritas, sino el número de líneas que llegan a producción.

Lo que le lleva a plantearse: “¿Se ha gastado dinero en escribir líneas de código que fueron rechazadas, revertidas o que no llegaron a producción? Existe la necesidad de entender el dinero desperdiciado. Si se van a utilizar clasificaciones, también hay que contrarrestarlos con ese posible despilfarro e incorporarlo a la medición”.

También considera que las empresas pueden analizar cómo los empleados optimizan el uso de la IA. “Hay dinero optimizable, dinero desperdiciado y tokens consumidos —afirma—. Empezar a analizar conjuntamente esas tres dimensiones es realmente importante. Y la cuarta es: ¿cuál fue el output? ¿El código llegó a producción?”.

source & further reading

cio.com — original article The 8 biggest issues IT faces today Why your AI pilot died in a data ownership meeting, not the demo La carrera por abaratar la IA: así intentan las empresas bajar el coste de los ‘tokens’

“Tokenmaxxing”: cuando las métricas de adopción de la IA se tuercen

Run your AI side-project on zahid.host