Publishers vs AI-Companies
Plus: Non-consensual AI-Porn / AI as a Collective Good / The Big Five of AI-ethics
Here’s my latest posts on Piqd, the german distribution-platform for journalists and experts. I machine translated the posts with ChatGPT for my international readers and edited them for juiciness. Find the german originals below the english versions.
ENGLISH
Publishers vs AI-companies
Publishers are on the verge of forming a coalition to assert claims amounting to billions of dollars against AI companies. Among those involved are heavyweights like The New York Times, Rupert Murdoch's News Corp, and Axel Springer.
Details are currently sparse, but it's becoming clear where this is headed: a revival of the dispute over snippets in Google News in the era of artificial intelligence. Back then, publishers sued the tech giant for millions, resulting in Google News being temporarily unavailable in many EU countries. Today, Google has reached agreements with publishers, paying some of them for licenses to use their content. Now, the franchise is getting a reboot, as AI systems have a fundamental issue with copyright that goes beyond AI-enhanced Google searches pushing source links to the background and reducing traffic to publishers' websites.
In a piece on Heise.de and in my newsletter a few weeks ago, I described how the interpolative nature of latent spaces in AI systems is fundamentally incompatible with copyright: AI synthesis is always an interpolation of patterns learned by the AI from its training data. For example, if an AI learns that dogs like to bark and cats like to meow, and both are animals, if prompted with an animal, it will create a meowing-barking hairy hybrid. This principle applies to text, images, and music in the same way.
This principle applies to all AI systems, but we're not dealing with just two dimensions of cats and dogs; we're dealing with millions and millions of them, known as parameters. How collecting societies should respond to this atomization of copyrighted culture is still entirely unclear, although a consensus is emerging in which AI companies will at least pay for high-quality training data, such as that provided by publishers. OpenAI recently signed a licensing deal with the AP, and more are likely to follow.
To enforce this consensus, publishers are now forming a new coalition and are already threatening lawsuits. "Google News Reloaded – The Interpolation Strikes Back" could be the blockbuster of the media circus in 2024.
UPDATE to this piece: The New York Times left beforementioned coalition and is readying it’s own lawsuit against OpenAI on copyright grounds, and if successfull according to ArsTechnica, “OpenAI could be fined up to $150,000 for each piece of infringing content“.
Presumably, the GPTs are trained on thousands of NYT-pieces alone, which could cost them billions of dollars only for one outlet. Also, “OpenAI risks a federal judge ordering ChatGPT's entire data set to be completely rebuilt — if the Times successfully proves the company copied its content illegally and the court restricts OpenAI training models to only include explicitly authorized data.“
Needless to say, such a ruling would be a desaster not just for OpenAI, but this could mean that every single generative AI-company could become open game for any publisher out there, including me and you, and let’s not forget that the NYT is far from the only one readying or already suing an AI-company. As Venture Beat put it: Generative AI datasets could be in for a reckoning, and with them, the whole GenAI corporate landscape.
I’ve written about the copyright situation regarding AI-systems from the start of this new wave — because i just couldn’t believe for life that this practice, data scraping during research on fair use grounds and then building a commercial product on top that does compete with the violated sources, could be legal — and i’ve always said that this is a ticking timebomb waiting to go off.
I was right, and time is running out.
Non-consensual AI porn with everywoman for everyman
Following the bankruptcy of Vice Media, some reporters from their excellent tech magazine, Motherboard, have launched a new independent outlet called 404 Media.
Their first major scoop: A deep dive into the world of AI porn generators and the disturbing reality that we already face a world where, with just little technical know-how, I can create explicit images of anyone engaging in various sexual acts, using only a few pictures I've collected – all without their consent, of course.
Up until the 2010s, mainly female celebrities had to contend with the existence of Photoshop porn. Internet users in questionable forums would use XXX images and Photoshop to create more or less realistic images of celebrities caught in the act. Today, there's no need for Photoshop skills — all you need is to download specialized AI models, such as one trained on porn and another on images of a particular movie star. With just a few clicks, I can merge both into a new AI model and generate thousands upon thousands of new explicit images featuring my favorite actress.
Similarly, it's possible to create your own Stable Diffusion model using images of any woman from whom you can gather a few pictures from social media accounts. Then, all you need to do is combine it with a porn AI model, and you can generate thousands of XXX images featuring her.
Although such non-consensual explicit images of celebrities and amateurs are prohibited on major platforms, the practice thrives on Discord servers and in relevant forums like "AnonIB," where thousands of non-consensual AI porn images are shared and published.
In my newsletter, during my last foray into the world of non-consensual AI pornography, I adapted the well-known "Rule 34 of the Internet" for the AI age: "If you have selfies on the web, there's explicit content of it — but only if you're a woman."
However, this Rule 34 1st Amendment is only amusing on the surface. Explicit images of anyone, available to everyone, are a psychological weapon already being used against female politicians and activists. Women online, especially those with opinions and stances, become targets for psychological abusers armed with AI porn generators. There's a whole host of parasitic website operators who profit from these dynamics.
That's why I recently signed this Change.org petition and am sharing this report that sheds light on these new AI-enabled psychologically abusive activities in the so-called online underground.
Artificial Intelligence as a Public Collective Good
Since the rise of ChatGPT, a series of articles have emerged addressing the specific situation of the workers behind the scenes who make the creation of datasets possible, without which the AI revolution would not be possible.
In October of last year, the respected magazine Noema reported on The Exploited Labor Behind Artificial Intelligence. In June, The Verge and NY Mag collaborated on an article about the new transnational underclass of AI workers. Just a few days ago, The Guardian reported that the curators of datasets work under the same traumatizing conditions as content moderators of social media platforms, a profession recognized as dangerous by the platforms themselves, leading to a lawsuit against Facebook three years ago that ended with a $50 million dollar settlement.
Anthropologist Mary L. Gray has long referred to this work as "Ghost Work," a fitting term that describes how this form of outsourced labor is overshadowed and made invisible by the hype surrounding our shiny new digital products.
But there’s another way.
In the text I’m sharing, Time Magazine introduces the Indian startup Karya as "the world's first ethical data company." The company shamelessly pays its workers decent wages roughly twenty times higher than the Indian minimum wage, and also offers them "de facto ownership rights to the data they create on the job." Each resale of a dataset means additional income for the workers, giving a completely new labor law significance to the old Digital Rights Movement of Own Your Data, which extends beyond Indian startups.
In a short piece about AI as stochastic libraries, I compared the development of AI systems to the operation of public libraries, which are run by the state as public collective goods. The comparison seems obvious to me: a data model that can combine all the knowledge in the world through algorithms and is based on data scraping from public sources, collective efforts like Wikipedia, copyrighted and public domain works and millions of other public sources, already has the inherent character of a public collective good.
An ethical minimum effort by multimillion-dollar corporations would involve a push for a universal basic income: If we all contribute to the data streams that supply the "intelligence" of current and future AI generations, then we all deserve a share in this development. And lets not forget that Sam Altman himself makes this point too and thinks that “the board of OpenAI should be democratized to all of humanity“, which, to me, sounds a lot like he thinks about AI as a public good too. We’ll see how serious he is about this.
Recognizing AI systems as public collective goods would be a step in this direction.
The Big Five warning of AI-risk before it was cool
A supermarket chain in New Zealand offers an AI-based app that allows customers to generate new recipes from various ingredients. As people began experimenting with the software a few days ago, they discovered that artificial intelligence not only generated amusing glue sandwiches and mosquito spray potatoes but also a recipe for producing chlorine gas, a deadly chemical weapon. The supermarket responded disappointedly to its customers' experimentation and was forced to add a warning.
This example shows, on one hand, that AI software is only as good as its input: If you ask a chatbot about chlorine gas, you'll get a recipe for chlorine gas, depending on how much the software has been "aligned" with human values through fine-tuning methods. This is not an example of the much-praised hallucinations where AI generates nonsense; it's simply an AI system doing exactly what it was designed to do – in this case, create a recipe based on water, bleach, and ammonia – but not adjusted for its task, which was creating fun-cooking-receipes for leftovers, not chemical weapons.
On the other hand, this example also demonstrates that AI software is not yet ready for mainstream use. Especially an AI-based chatbot for food and beverage preparation should be subject to strict control and adhere to regulations for food production. Offering a chatbot for fun and shrugging off the risk that kids might mix up humorous poison cocktails is irresponsible.
I tweeted about another, not quite as dangerous example this morning: Google seriously generates an answer to the question about African countries starting with the letter 'K' that a small child could do better: There are somehow no African countries that start with the letter 'K,' while Kenya is the closest since it starts with 'K' — but it doesn't begin with 'K.' The kicker: Google's AI learned this summarized confusion from a dialogue with OpenAI's ChatGPT, an example of the so-called Model Autophagy Disorder, where AI systems get worse the more AI output is included in their training data.
Such systems are simply not (yet) ready for use by the general public, and I haven't even begun to address the risks to privacy and information security due to prompt injection and other hacking methods. However, these dangers arising from the premature deployment of AI systems are by no means the only ones.
The shared piece from Rolling Stone Magazine introduces five women who have been warning about inherent biases in algorithmic systems and their impact on disadvantaged populations for years. For their warnings about technology that is not yet truly ready for broad, public use, Joy Buolamwini, Timnit Gebru, Safiya Noble, Rumman Chowdhury, and Seeta Peña Gangadharan have been ridiculed, fired, and ostracized by the usual Silicon Valley tech circles.
Their work goes beyond the often overly discussed, often just as abstract as nonsensical doomsday scenarios and illuminate the effects of algorithms on bureaucratic mechanisms that disproportionately affect minorities and are already effective today. That's why, for me, they are the "Big Five warning of AI risk before it was cool."
GERMAN
Verleger fordern Milliarden von KI-Unternehmen
Die Verlage sind im Begriff, eine Koalition zu bilden, um Forderungen in Milliardenhöhe gegenüber KI-Konzernen geltend zu machen. Unter anderem dabei: die Schwergewichte der New York Times, Rupert Murdochs News Corp und Axel Springer.
Die Details sind derzeit noch spärlich, aber es ist abzusehen, wohin die Reise geht: Eine Neuauflage des Streits um Snippets in Google News in Zeiten der künstlichen Intelligenz. Damals hatten Verlage den Konzern auf Millionen verklagt, mit der Folge, dass Google News in vielen Ländern der EU zeitweise nicht verfügbar war. Heute hat sich Google mit den Publishern geeinigt und zahlt einigen davon Lizenzen für die Nutzung ihrer Inhalte. Nun kommt der Reboot des Franchises in die Kinos, denn AI-Systeme haben ein ganz grundsätzliches Problem mit dem Urheberrecht, wie wir es kennen, das weit darüber hinausgeht, dass eine KI-erweiterte Google-Suche die Links zu den Quellen in die zweite Reihe verbannt und damit den Traffic auf die Websites der Verleger verringert.
In einem Text auf Heise und in meinem Newsletter hatte ich vor ein paar Wochen beschrieben, wie die interpolative Natur von Latent Spaces in AI-Systemen grundsätzlich mit Kopierrechten nicht kompatibel sind: KI-Synthese ist immer eine Interpolation aus verschiedenen Mustern, die von der KI anhand ihrer Trainingsdaten gelernt wurde. Nehmen wir an, eine KI lernt, dass Hunde gerne bellen und Katzen gerne miauen und beides Tiere sind. Prompte ich nun ein KI-System mit einem Tier, wird es ein miauend-bellendes haariges Mischwesen erzeugen. Das funktioniert genau so für Text, Bild und Musik.
Dieses Prinzip gilt für alle KI-Systeme, nur haben wir es nicht nur mit zwei Dimensionen von Katzen und Hunden zu tun, sondern mit Millionen und Abermillionen davon, den sogenannten Parametern. Wie die Verwertungsgesellschaft auf diese Atomisierung von urheberrechtlich geschützter Kultur reagieren sollen, ist bislang völlig unklar, auch wenn sich bereits ein Konsens abzeichnet, in dem KI-Unternehmen zumindest für hochwertige Trainingsdaten, wie sie eben etwa von Verlagen kommen, bezahlen werden. So hat OpenAI jüngst einen Lizenz-Deal mit AP geschlossen und weitere dürften folgen.
Zur Durchsetzung dieses Konsenses formieren die Verlage nun eine neue Koalition und drohen bereits mit Klagen. Google News Reloaded – The Interpolation strikes back könnte der Blockbuster des Medienzirkus 2024 werden.
UPDATE to this piece in english: The New York Times left beforementioned coalition and is readying it’s own lawsuit against OpenAI on copyright grounds, and if successfull according to ArsTechnica, “OpenAI could be fined up to $150,000 for each piece of infringing content“. Presumably, the GPTs are trained on thousands of NYT-pieces alone, which could cost them billions only for one outlet. Also, “OpenAI risks a federal judge ordering ChatGPT's entire data set to be completely rebuilt—if the Times successfully proves the company copied its content illegally and the court restricts OpenAI training models to only include explicitly authorized data.“
Needless to say, such a ruling would be a desaster not just for OpenAI, but the whole corporate AI-landscape, with every single generative AI-company becoming open game to any publisher out there, including me and you.
I’ve written about the copyright situation regarding AI-systems from the start of this new wave — because i just couldn’t believe for life that this practice: data scraping on fair use grounds and then building a commercial product on top that does compete with the violated sources can be legal — and i’ve always said that this is a ticking timebomb waiting to go off. I was right, and the ticking becomes louder and louder by the minute.
Nonkonsensualer AI-Porno mit jederfrau für jedermann
Nach dem Bankrott von Vice Media starteten nun einige Reporter des dortigen exzellenten Tech-Magazins Motherboard ein neues, unabhängiges Outlet namens 404 Media.
Ihr erster großer Coup: Ein Deepdive in die Welt der AI-Porno-Generatoren und die heute bereits Realität gewordene Aussicht auf eine Welt, in der ich mit nur wenig Knowhow Pornobilder in jeder nur erdenklichen Praktik mit jeder Person erzeugen kann, von der ich ein paar wenige Bilder einsammeln kann -- alles ohne Einwilligung selbstverständlich.
Bis in die 2010er Jahre mussten vor allem weibliche Prominente mit der Tatsache des Photoshop-Porns leben. Internet-User in zweifelhaften Foren bastelten mit Hilfe von XXX-Vorlagen und Photoshop mal mehr mal weniger realistische Bilder von Celibrities caught in the act. Heute braucht es keine Photoshop-Skills, heute genügt der Download von spezialisierten AI-Modellen, etwa einem Modell, das auf Porno, und einem, das auf Bilder eines Filmstars feingetuned wurde. Beide kann ich mit nur wenigen Klicks zu einem neuen AI-Model fusionieren und mit meiner Stable Diffusion-Installation tausende und abertausende neuer Pornobilder mit meiner Lieblingsschauspielerin generieren.
Genauso ist es möglich, ein eigenes Stable Diffusion-Model mit Bildern von jeder Frau zu generieren, von der ich ein paar Bilder von Social Media-Accounts abgreifen kann. Dieses muss ich dann nur noch mit einem Porno-AI-Model vereinen und kann tausende XXX-Bilder von jederfrau erzeugen.
Solche nonkonsensualen Pornobilder von Celebrities und Amateuren sind zwar auf den größeren Plattformen untersagt, doch floriert die Praxis auf Discord-Servern und in einschlägigen Foren wie "AnonIB", wo tausende nonkonsensualer AI-Pornobilder getauscht und veröffentlicht werden.
In meinem Newsletter hatte ich bei meinem letzten Ausflug in die Welt der nonkonsensualen AI-Pornographie bereits eine Anpassung der bekannten Regel 34 des Internets ("If it exists, there's porn of it") für das AI-Zeitalter vorgenommen: "If you have selfies on the web, there's porn of it — but only if you're a woman".
Doch dieses Rule 34 1st Amendment ist nur scheinbar lustig: Pornobilder von jederfrau für jedermann ist eine psychologische Waffe, die heute bereits gegen Politikerinnen und Aktivistinnen eingesetzt wird. Frauen im Netz, vor allem solche mit Meinung und Haltung, sind sexuelles Kanonenfutter für psychologische Misshandlungstäter mit AI-Pornogeneratoren, und es gibt einen ganzen Haufen parasitärer Websitebetreiber, die mit diesen Dynamiken Geld verdienen.
Unter anderem deshalb habe ich neulich diese Change.org-Petition unterzeichnet und verlinke diesen Bericht, der diese neuen psychologisch-gewalttätigen Vorgänge im sogenannten Netz-Untergrund beleuchtet.
Künstliche Intelligenz als öffentliches Kollektivgut
Seit des Siegeszuges von ChatGPT erschienen eine Reihe von Artikeln, die sich mit der konkreten Situation der Arbeiter beschäftigen, die hinter den Kulissen die Erstellung der Datasets bewerkstelligen, ohne die die KI-Revolution nicht möglich ist.
Im Oktober vergangenen Jahres berichtete das angesehene Magazin Noema über The Exploited Labor Behind Artificial Intelligence, im Juni berichteten The Verge und das NY Mag in einer Kooperation über die neue transnationale Unterklasse von AI-Arbeitern, und vor wenigen Tagen erst meldete der Guardian, dass die Kuratoren der Datasets unter den gleichen traumatisierenden Bedingungen arbeiten, wie die Content Moderatoren der Social Media Plattformen, ein von den Plattformen selbst als gefährlich anerkannter Beruf, dessen Arbeitsbedingungen zu einer Klage gegen Facebook führte, die vor drei Jahren mit einer Zahlung von rund 50 Millionen Dollar beigelegt wurde.
Die Anthropologin Mary L. Gray bezeichnet diese Arbeit schon seit einiger Zeit als Ghost Work, ein treffender Begriff, der beschreibt, wie diese Form ausgelagerter Arbeit vom Hype um die shiny new digital products überlagert und unsichtbar gemacht wird.
Aber es geht auch anders.
Im von mir gepiqten Text stellt das Time Magazine das indische Startup Karya vor, "the world’s first ethical data company". Das Unternehmen bezahlt seinen Arbeitern unverschämterweise einen anständigen Lohn, der um das zwanzigfache über dem indischen Mindestlohn liegt, und bietet ihnen darüber hinaus auch noch "de-facto besitzrechte an den Daten, die sie im Job erstellen". Jeder Resale eines Datensets bedeutet noch einmal zusätzliche Einkünfte für die Arbeiter, was dem alten Digital Rights Movement um Own Your Data eine völlig neue arbeitsrechtliche Bedeutung zukommen lässt, die nicht vor indischen Startups haltmacht.
In einem kurzen Text über AI als stochastische Bibliotheken habe ich vor Monaten die Entwicklung von KI-Systemen mit dem Betrieb öffentlicher Bibliotheken verglichen, die als öffentliches Kollektivgut vom Staat betrieben werden. Mir erscheint der Vergleich naheliegend: Ein Datenmodell, das mit aufgesetzten Algorithmen jedes Wissen der Welt miteinander kombinieren kann, und das auf Data-Scraping von öffentlichen Daten, kollektiven Anstrengungen wie Wikipedia, auf urheberrechtlich geschützten wie gemeinfreien Werken und Millionen weiterer öffentlicher Quellen basiert, weist bereits einen inhärenten Charakter als öffentliches Kollektivgut auf.
Eine ethische Mindestanstrengung der Multimillionendollarkonzerne wäre hier eine Offensive bei den politischen Akteuren für das bedingungslose Grundeinkommen: Wenn wir alle unseren Teil zu den Datenströmen beitragen, die die sogenannte "Intelligenz" dieser und kommender AI-Generationen liefern, so steht uns allen ein Anteil an dieser Entwicklung zu.
Die Anerkennung von AI-Systemen als öffentliches Kollektivgut wäre ein Schritt in diese Richtung.
The Big Five warning of AI-risk before it was cool
Eine Supermarktkette in Neuseeland bietet eine KI-basierte App an, mit der Kunden neue Rezepte aus verschiedenen Zutaten generieren können. Als Menschen vor einigen Tagen begannen, mit der Software zu experimentieren, stellten sie nun fest, dass die künstliche Intelligenz nicht nur lustige Kleber-Sandwiches und Mückenspray-Bratkartoffeln generierte, sondern auch ein Rezept, das Chlorgas erzeugt, ein tödlicher chemischer Kampfstoff. Der Supermarkt reagierte enttäuscht auf die Experimentierfreudigkeit seiner Kunden und sah sich gezwungen, einen Warnhinweis hinzuzufügen.
Dieses Beispiel zeigt einerseits, dass KI-Software nur so gut ist wie ihr Input: Wer einen Chatbot nach Chlorgas fragt, wird Chlorgas erhalten, je nachdem, wie sehr die Software mit Finetuning-Methoden "aligned", also menschlichen Werten angepasst wurde. Dies ist kein Beispiel der viel gerühmten Halluzinationen, in der eine KI Nonsense generiert, sondern schlichtweg ein KI-System, das genau tut, was es soll – in diesem Fall ein Rezept basierend auf Wasser, Bleiche und Ammoniak –, das aber für seine Aufgabe nicht angepasst ist.
Andererseits zeigt dieses Beispiel auch, dass KI-Software noch nicht bereit ist für den Einsatz im Mainstream. Grade ein KI-basierter Chatbot für die Zubereitung von Speisen und Getränken muss grundsätzlich einer scharfen Kontrolle unterliegen und sich grundsätzlich an Auflagen für die Lebensmittelproduktion halten. Einen Chatbot for fun anzubieten und damit das Risiko einzugehen, dass etwa Kinder einen lustigen Giftgas-Cocktail anmischen, ist unverantwortlich.
Ein weiteres, nicht ganz so gefährliches Beispiel habe ich heute Morgen getwittert: Google generiert auf die Frage nach afrikanischen Ländern, die mit K beginnen, ernsthaft eine Antwort, die ein Kleinkind besser hinbekommen würde: Es gibt keine afrikanischen Länder, die mit dem Buchstaben K beginnen, und Kenia sei das nächstliegende, da es mit einem K beginne, aber nicht mit einem K beginnt. Der Kicker: Googles KI hat diese Wirrnis aus einem Dialog mit OpenAIs ChatGPT gelernt, ein Beispiel der sogenannten Model Autophagy Disorder, laut der KI-Systeme schlechter werden, desto mehr KI-Output in ihren Trainingsdaten enthalten ist.
Solche Systeme sind schlichtweg (noch) nicht bereit für den Einsatz in der breiten Öffentlichkeit und von den Risiken für Privacy und Informationssicherheit dank Prompt Injection und anderen Hacking-Methoden habe ich hier noch gar nicht angefangen. Doch diese Gefahren, die von dem verfrühten Einsatz von KI-Systemen ausgehen, sind bei Weitem nicht die Einzigen.
Der von mir gepiqden Text im Rolling Stone Magazine stellt fünf Frauen vor, die bereits seit Jahren vor inhärenten Biases in algorithmischen Systemen und deren Auswirkungen grade auf benachteiligte Bevölkerungsgruppen warnen. Für ihre Warnungen vor einer Technologie, die noch nicht wirklich bereit ist für einen breiten, öffentlichkeitswirksamen Einsatz wurden Joy Buolamwini, Timnit Gebru, Safiya Noble, Rumman Chowdhury und Seeta Peña Gangadharan verlacht, gefeuert und von den üblichen Silicon Valley Tech-Zirkeln ausgegrenzt.
Ihre Arbeit geht über die viel zu viel diskutierten, oft genauso abstrakten wie unsinnigen Doomsday-Szenarien hinaus und beleuchtete vor Jahren schon die heute bereits wirksamen Effekte von Algorithmen auf bürokratische Mechanismen. Und genau deshalb sind sie für mich die "Big Five warning of AI-risk before it was cool".