Crédito: Autor a través de MidjourneyOpenAI ha lanzado ChatGPT, un nuevo modelo de lenguaje de diálogo (LM) basado en la serie de la familia GPT-3.5 (entrenado en texto y código) y similar a InstructGPT (alineado con el aprendizaje por refuerzo a través de la retroalimentación humana). La empresa realizó una demostración en línea y la gente se está volviendo loca. En pocas palabras, ChatGPT es un chatbot que puede “responder preguntas de seguimiento, admitir sus errores, desafiar premisas incorrectas y rechazar solicitudes inapropiadas”. Esto resume muy bien la razón por qué ChatGPT es tan especial: “admit”, “challenge” y “reject” son verbos inusuales para describir el comportamiento de un LM. Sin embargo, no es una exageración en el caso de ChatGPT (innumerables ejemplos que compartiré pronto lo afirman). ChatGPT es, con diferencia, el mejor chatbot del mundo. puede escribir ensayos y poesía Puede encontrar indicaciones geniales para modelos artísticos de IA. Puede juego de rol. Puede escribir código, encontrar un error, explicarlo, resolverlo y explicar la solución. Y puede combinar ideas de las formas más extrañas posibles:PíoLas habilidades superiores del modelo y una mejor alineación que, digamos, el GPT-3 básico, lo hacen sentir más humano. A su vez, esto lo hace más creíble, aunque no necesariamente implica que sea más confiable y, por lo tanto, confiable. Ninguna de esas deficiencias ha cambiado significativamente (ChatGPT es mejor pero se basa en los mismos principios).PíoPero ese no es mi enfoque hoy. No lo molestaré con otra historia de advertencia sobre por qué no debemos confiar en estos modelos o un artículo sobre el pensamiento crítico. En este artículo, compartiré con usted una recopilación de los hallazgos e implicaciones más interesantes. han desenterrado de ChatGPT (con mi comentario agregado, por supuesto). Y, para poner la guinda, lo llevaré en un viaje. Quiero explorar una hipótesis: ¿qué pasaría si los modelos de IA fueran tan buenos para ocultar las imperfecciones que ya no pudiéramos encontrar defectos o deficiencias en ellos? Este artículo es una selección de El puente algorítmico, un boletín educativo cuyo propósito es cerrar la brecha entre los algoritmos y las personas. Te ayudará a comprender el impacto que la IA tiene en tu vida y a desarrollar las herramientas para navegar mejor en el futuro. En caso de que no hayas consultado Twitter últimamente, la gente ha pasado los últimos dos días hablando con ChatGPT sin parar. Voy a revisar sus hallazgos y conclusiones. Una vez que veas lo que te voy a mostrar, entenderás por qué la hipótesis anterior no es tan loca después de todo.
Estoy 100% de acuerdo en que los ensayos, como forma de evaluación, morirán pronto. He escrito sobre esto antes, y sobre cómo ni los maestros ni el sistema educativo están preparados para esto. Con ChatGPT, esta es ahora una declaración generalmente aceptada:PíoSe hizo evidente que sucedería después de que los estudiantes comenzaran a hacer trampa en sus tareas con GPT-3 y los maestros se dieran cuenta de que tuvo que prepararse. Ahora es una realidad tangible. Escribí un ensayo de 1000 palabras (inédito) sobre las cinco principales predicciones de IA para 2023, y todo parecía muy plausible. Sin embargo, debo decir que perspicaz, atractivo, innovador o estimulante no son los mejores adjetivos para describir las creaciones de ChatGPT. Gran parte de su producción es aburrida (lo cual es inevitable a menos que realmente intente obtener una pieza memorable, o dos), repetitivoo no es correcto – cuando no absoluto sin sentido.Lo que me preocupa, más allá de las reformas que necesitará el sistema educativo, es si alguna vez volveremos a ser capaces de reconocer el trabajo escrito hecho por humanos. Los LM pueden volverse tan buenos como para difuminar por completo la brecha entre ellos y nosotros. Tanto es así que ni siquiera un discriminador de IA (estilo GAN) sería capaz de encontrar cuál es cuál porque puede que no haya diferencia. Sin embargo, existe otra posibilidad: la escritura humana tiene características que pueden, usando las herramientas adecuadas, revelar la autoría. . A medida que los LM se vuelven maestros de la prosa, pueden desarrollar algún tipo de idiosincrasia de escritura (como una característica y no como un error). para distinguir su estilo de todos los demás.
La otra gran implicación de ChatGPT es que “matar” Google — el hegemón de la búsqueda en Internet “está hecho”. Nadie insinúa que ya sucedió o que está a punto de suceder, pero claramente no es una exageración dado que las personas ya están usando el modelo para reemplazar a Google satisfactoriamente:PíoPero hay algunas advertencias aquí.Google está por encima de OpenAI en términos de capacidad de investigación, talento y presupuesto, si alguien puede construir esta tecnología antes que OpenAI, son ellos. Sin embargo, el gigante de los anuncios en Internet es simplemente demasiado grande para reaccionar y maniobrar adecuadamente. Podría decirse que la rama de investigación de IA de Google es la mejor del mundo, pero ya casi no envía productos/servicios.Google se enfrenta a un caso de “dilema del innovador”: la empresa no puede poner en jaque su principal modelo de negocio con innovaciones arriesgadas solo porque otros podrían eventualmente destronarlo.PíoLos LM podrían ser la primera amenaza real a la que se enfrenta Google en 20 años. Sin embargo, si analizamos las diferencias entre los motores de búsqueda y los LM, nos damos cuenta de que no se superponen a la perfección. Por un lado, los motores de búsqueda son rígidos. Simplemente ingresan a Internet para encontrar sitios web y le muestran una lista de enlaces que le brindan aproximadamente lo que está buscando; esa es básicamente la forma más simple de búsqueda en Internet. Pero, por otro lado, son confiables. Sabes que no se inventan las cosas. (La búsqueda de Google, como todas las demás, está sesgada y puede mostrarle noticias falsas, pero puede verificar las fuentes, lo cual es fundamental aquí). ChatGPT es mucho más flexible, pero, debido a que su objetivo no es ser fáctico o veraz, puede inventar información tan fácilmente como puede darte una respuesta asombrosa, altamente complicada y precisa. Nunca se sabe cuál será a priori y es posible que tenga dificultades para verificarlo después (ChatGPT no le brinda fuentes y, si pregunta, podría inventarlas de todos modos).PíoEn resumen, los motores de búsqueda son mucho más limitados pero están mejor equipados para la tarea. Dicho esto, no creo que el motor de búsqueda sobreviva a los LM. El tiempo corre en su contra: mientras que la tecnología de los motores de búsqueda no avanza en absoluto, los LM se desarrollan a la velocidad de la luz. se convertirán automáticamente en motores de búsqueda súper generativos. Nadie volvería a usar Google. Ahora, intentaré explicar por qué la hipótesis que planteé en la introducción es tan importante, y lo será aún más en un futuro cercano. Ya he visto algunas de las muchas habilidades impresionantes que tiene ChatGPT, así que ahora entiendes por qué me lo tomo en serio: ChatGPT está haciendo que sea más difícil para las personas que luchan contra la exageración encontrar deficiencias, lo que no significa que no estén allí.PíoPíoTodavía es bastante evidente que ChatGPT carece de habilidades de razonamiento y no tiene un gran ventana de memoria (Gary Marcus escribió un gran ensayo sobre por qué “puede parecer tan brillante un minuto y tan asombrosamente tonto al siguiente”).como galácticahace sonido sin sentido plausible. La gente puede “fácilmente” pasar sus filtros y es susceptible a inyecciones rápidas. Obviamente, no es perfecto. Sin embargo, ChatGPT es un salto hacia adelante, un salto hacia nosotros, ya que no podemos hacerlo tropezar probándolo y probando:PíoY esto es un gran problema. Hace un tiempo escribí un ensayo sobre AGI que titulé “AGI tomará a todos por sorpresa”. ChatGPT no está en ese nivel ni cerca de él (en realidad es solo GPT-3 con esteroides), pero vale la pena mencionar mis argumentos sobre ese artículo:
“Todo tiene límites. El Universo tiene límites —nada fuera de las leyes de la física puede pasar, por mucho que lo intentemos— e incluso el infinito —el conjunto de los números naturales es infinito, pero no contiene el conjunto de los números reales. GPT-3 tiene límites, y nosotros, los que intentamos encontrarlos, también tenemos límites. Lo que demostró Gwern [here] fue que buscando los límites de GPT-3, encontramos los nuestros. No fue GPT-3 el que no pudo realizar algunas tareas, sino nosotros quienes no pudimos encontrar un aviso adecuado. Nuestros límites impedían que GPT-3 realizara una tarea. Estábamos impidiendo que GPT-3 alcanzara su verdadero potencial. Esto plantea una pregunta inmediata: si las limitaciones de GPT-3 a menudo se confunden con las nuestras, ¿cómo podríamos definir con precisión los límites de lo que el sistema puede o no puede hacer?… Al final, somos un sistema limitado que intenta evaluar otro sistema limitado. ¿Quién garantiza que nuestros límites estén más allá de los suyos en todos los sentidos? Tenemos un muy buen ejemplo de que esto puede no ser así: somos muy malos evaluando nuestras limitaciones. Nos seguimos sorprendiendo con las cosas que podemos hacer, individual y colectivamente. Seguimos rompiendo límites físicos y cognitivos. Por lo tanto, nuestras herramientas de medición pueden no alcanzar las capacidades de acción de una IA lo suficientemente poderosa”.
En su ensayo, Gwern (un popular bloguero de tecnología) señaló que “el muestreo puede probar la presencia de conocimiento pero no la ausencia”. Usó esta idea para defender su tesis de que la causa de las fallas de GPT-3 podría ser una mala indicación y no una falta inherente de “conocimiento” por parte del modelo. Lo que quiero subrayar aquí es que las limitaciones del muestreo como metodología de prueba no aplique solo en caso de que encontremos nuestros límites (argumento de Gwern) o las deficiencias de AI (argumento anti-hype), sino también si no encontramos ninguna. Cuando las personas encuentran deficiencias en las respuestas de ChatGPT, un contrapunto común es “usted no No sé cómo aprovechar al máximo la IA”. Eso es justo, pero insuficiente, porque una vez que se encuentra una deficiencia sistemática, podemos concluir que el sistema no es confiable. su fachada de razonamiento, ¿la gente no lo hace? Esto puede parecer un experimento mental filosófico no basado en la realidad, pero creo que es muy posible que, al aplicar este razonamiento a un futuro modelo de súper IA, podamos encontrar los límites superiores de la metodologías a la mano antes de encontrar las deficiencias de la IA. (No estoy insinuando que el modelo en realidad sería capaz de razonar perfectamente, sino que un conjunto de barandas bien diseñadas, filtros y conservadurismo intrínseco, combinado con nuestras limitaciones como humanos, haría parece que sí.) No tendríamos manera de probar que el modelo no puede razonar. Nadie le creería a la gente que ahora usa el muestreo como una forma de probar estas limitaciones y eventualmente todos comenzarían a confiar en el sistema. Si no reconocemos este problema pronto y encontramos una solución, será demasiado tarde. Si hay algo que debemos sacar de las magníficas capacidades de ChatGPT es que inevitablemente nos estamos acercando a esta realidad.
Los días felices de la PDA y Blackberry han quedado definitivamente atrás, pero el factor…
Tutorial sobre cómo pronosticar usando un modelo autorregresivo en PythonFoto de Aron Visuals en UnsplashForecasting…
Si tienes un iPhone, los AirPods Pro son la opción obvia para escuchar música, ¡aunque…
Ilustración de Alex Castro / The Verge Plus nuevos rumores sobre el quinto Galaxy Fold.…
Se rumorea que los auriculares premium de próxima generación de Apple, los AirPods Max 2,…
El desarrollador Motive Studio y el editor EA han lanzado un nuevo tráiler de la…