Mi Blog

July 5, 2023

Technology
Adriana P

Google tiene claro cómo va a entrenar sus modelos de IA. Cogiendo todo lo que publiquemos en internet

Google tiene claro cómo va a entrenar sus modelos de IA. Cogiendo todo lo que publiquemos en internet

Uno suele saber a lo que atenerse cuando usa servicios de Google. Es el Gran Hermano definitivo, y sabemos que la recolección de datos es una constante al usar cualquiera de sus plataformas. Es un sacrificio que aceptamos implícitamente al usar herramientas como Gmail, YouTube o Google Maps, pero las cosas pueden ir aún más allá. De hecho, lo acaban de hacer.

Nuevos términos de privacidad. Como indican en Gizmodo, Google actualizó hace unos días su política de privacidad. Lo hicieron con un cambio importante que hace mención específica a cómo entrenan sus modelos de inteligencia artificial. En el documento oficial explican lo siguiente:

“Google puede recoger información públicamente disponible online, o a partir de otras fuentes públicas, para ayudar a entrenar modelos de IA de Google y desarrollar productos y funciones como el Traductor de Google, Bard y funciones de IA de Cloud”.

Si es contenido público, lo usarán (potencialmente). Es importante destacar que Google habla de información públicamente disponible online. La empresa parece por tanto reservarse el derecho de recopilar y potencialmente aprovechar contenidos de toda la web, y hacerlo precisamente por el hecho de que ese contenido es público.

Cuidado con lo que publicas. Eso hace que una vez más no sea mala idea reflexionar sobre todo lo que publicamos o subimos en internet sin más. A menos que marquemos esos contenidos como privados o protegidos por derechos de autor, Google los podrá usar para cosas como entrenar sus modelos de inteligencia artificial. Lo dicen bien en Gizmodo: lo importante ya no es tanto quién puede ver esa información que publicamos, sino cómo va a acabar usándola (porque podrá acabar haciéndolo).

Transparencia casi nula. Y mientras esto pasa, las empresas que ofrecen modelos de IA generativa siguen sin ofrecer datos claros sobre cómo entrenan sus plataformas. Google es una de las pocas que expone esos “datasets” utilizados en algunos modelos: el llamado Google C4 es un gigantesco conjunto de datos que permiten descubrir que las fuentes más relevantes son Google Patents, Wikipedia y Scribd.

Modelos

Entre las fuentes de datos la Wikipedia parece quedarse pequeña frente a otras fuentes como Reddit o la navegación web en bruto, que recopila información públicamente disponible de internet (“Common Crawl”). Fuente: LifeArchitect

Sin embargo no hay apenas datos sobre Infiniset, el conjunto de datos usados para el modelo de lenguaje LaMDA utilizado en Bard. De PaLM2 no sabemos mucho, y tampoco está demasiado claro cómo entrenó OpenAI el modelo GPT-3 —hay un estudio de sus ingenieros que no aclara demasiado la cuestión— y la opacidad se ha convertido en una máxima últimamente: las empresas desvelan cada vez menos detalles porque la competencia es feroz.

Pero todas usan internet sin piedad. Lo que sí está claro es que los contenidos publicados en internet en todo tipo de plataformas —blogs, redes sociales, foros, etc— acaba siendo potencialmente usada para entrenar esos modelos de datos. Lo que no sabemos en la mayoría de los casos es si eso que nosotros publicamos estará o no, y sin saber las fuentes concretas, tampoco es posible entender hasta qué punto los ChatGPT o Bard del mundo pueden tener ciertos sesgos en un sentido u otro.

Por eso Reddit y Twitter están tomando medidas. Lo que acaba de hacer Google al cambiar su política de privacidad tiene mucho que ver con la decisión de Reddit y Twitter de limitar el acceso a sus APIs: si no se paga, no se podrá acceder a ellas. O lo que es lo mismo: si no se paga, usar las enormes cantidades de contenido publicado en esas redes es mucho más difícil para empresas que quieren entrenar sus modelos de IA con esos datos.

Internautas sin voz ni voto. Y mientras, los internautas que publicamos esos contenidos no parecemos poder hacer nada al respecto. Cuando publicamos algo en internet, sea donde sea, normalmente lo hacemos de forma automática y sin pensar en si ese contenido debería estar sujeto a alguna licencia. Mi blog, por ejemplo, usa una licencia Creative Commons que requiere atribución. Aunque el dataset Google C4 ha recopilado algunos de mis posts para su entrenamiento, a mí jamás se me ha pedido permiso (en realidad no tendrían que hacerlo obligatoriamente) ni se me ha citado o atribuido (que sí deberían hacer según esa licencia).

¿Demandas a la vista Google, como todas las demás, están aprovechando internet como su particular campo de entrenamiento para trabajar en el campo de la inteligencia artificial, pero eso podría acabar costándole caro. OpenAI y Microsoft están ahora en medio de una demanda por GitHub Copilot y todo el código que esa herramienta ha usado sin pedir permiso a los programadores.

A Stable Diffusion le pasa algo similar con Getty, cansada de que la IA le robe sus fotos. El propio David Holz, fundador de Midjourney, admitía que al entrenar su modelo “No hay realmente una forma de coger cien millones de imágenes y saber de  dónde provienen. Estaría bien que las imágenes tuvieran metadatos  incrustados sobre el propietario del copyright o algo así. Pero eso no  existe; no hay ningún registro”.

La AI Act persigue este tipo de problemas. Mientras tanto en la Unión Europea progresa la aprobación definitiva de la AI Act, su primer intento de regular la inteligencia artificial. En esta normativa hay un apartado específico dedicado a la transparencia, y teóricamente se exigirá a las empresas que desarrollan modelos de IA que expliquen de dónde provienen los datos de entrenamiento

Eso es mucho más fácil de hacer que de dedir aparentemente, pero nos enfrentamos a un futuro en el que este tipo de recopilación masiva de datos puede tener problemas adicionales: ya no solo de posible violación de privacidad, sino de su uso en según qué escenarios. En Xataka nos hemos puesto en contacto con los responsables de Google, y actualizaremos la noticia si recibimos más información sobre estos cambios en su política de privacidad.

Imagen | Xataka con Bing Image Creator

En Xataka | OpenAI ha usado millones de textos para entrenar a ChatGPT. El problema es que muchos de ellos tienen copyright


La noticia Google tiene claro cómo va a entrenar sus modelos de IA. Cogiendo todo lo que publiquemos en internet fue publicada originalmente en Xataka por Javier Pastor .

Technology
Adriana P

La verdadera pelea entre Musk y Zuckerberg no es en un ring: es por ver quién se hace más rico en 2023

La verdadera pelea entre Musk y Zuckerberg no es en un ring: es por ver quién se hace más rico en 2023

La rivalidad de Elon Musk y Mark Zuckerberg va más allá de los bravucones desafíos a luchar en un ring de Las Vegas. Los millonarios también se entretienen midiéndose las fortunas. 2023 está siendo un buen año para ellos ya que su balance de resultados está siendo muy positivo en esta primera mitad del año.

Un semestre para enmarcar. Lo de los brotes verdes en la recuperación económica cobra especial relevancia cuando se trata de las mayores fortunas del mundo. Según Bloomberg, los más ricos del mundo sumaron un total de 852.000 millones de dólares a sus fortunas en lo que va de año, con una media de 14 millones de dólares al día durante el primer semestre de 2023.

Con este incremento en las ganancias, las principales fortunas cogen velocidad de crucero y se igualan a los niveles prepandémicos, antes de acusar la caída en beneficios que acusaron algunas inversiones.

Musk y Zuckerberg en positivo. Elon Musk ocupa el segundo puesto de las personas más ricas del mundo con un patrimonio estimado de 180.000 millones de dólares, mientras que para encontrar a Zuckerberg tenemos que descender hasta el puesto 16 con una fortuna de 64.400 millones de dólares. Pese a esa diferencia en el patrimonio neto, ambos magnates de la tecnología cuentan con la distinción de ser las dos personas con mayores ganancias en lo que va de año.

Elon Musk incremento su patrimonio en 96.600 millones de dólares hasta el 30 de junio, mientras que Mark Zuckerberg sumó un total de 58.900 millones de dólares.

Buenas inversiones y los mercados con viento a favor. Lo buenos resultados económicos de ambos millonarios son el fruto de la bonanza económica que están viviendo los mercados de inversión en este primer semestre pese a inestabilidades como la guerra de Ucrania.

El índice Standard & Poor’s 500 ha escalado posiciones en los últimos meses con un incremento del 16% en su cotización, mientras que el Nasdaq 100 lo hizo en un 39% firmando el mejor trimestre de su historia. El viento de cola en los mercados ha hecho que las acciones de Meta o Tesla se coticen a valores mucho más altos.

Donde hay vencedores, también hay perdedores. Musk y Zuckerberg han conseguido ganancias de récord con sus inversiones en 2023, pero no todos en la lista Forbes de las personas más ricas del mundo han corrido la misma suerte. El empresario indio Gautam Adani, que ocupa el puesto 24 de la lista con un patrimonio de 47.200 millones sufrió una crisis reputacional después de que la firma estadounidense Hindenburg Research acusara a Adani y sus empresas de fraude financiero y manipulación del mercado de valores. Esto llevó a que el millonario indio haya perdido 60.200 millones de dólares en lo que va de año.

No es el único que está sufriendo para mantener su imperio a flote. El magnate del entretenimiento Wang Jianlin, fundador de Dalian Wanda Group también se enfrenta a serios apuros tras el estallido de la crisis inmobiliaria en China.

En Xataka | Ketamina, psilocibina y LSD: las microdosis alucinógenas están triunfando entre los millonarios de Silicon Valley


La noticia La verdadera pelea entre Musk y Zuckerberg no es en un ring: es por ver quién se hace más rico en 2023 fue publicada originalmente en Xataka por Rubén Andrés .