Large Language Models: Societal Questions CC-BY Fabian M. Suchanek >what-is-llm
Language Models 2 “Hello, how are you...” Most probable next words: “doing”, “today”, ... language model is a probability distribution over sequences of words. It can be used in particular to predict a likely next word in a sentence. Today’s large language models (also: LLMs, generative language models) are so good at genera‐ ting the next word that they can generate entire texts, converse with humans, and solve tasks. LLMs are a particular case of generative AI models, which include also models that can generate voice, images, videos, and other types of content. “How can I explain the theory of relativity to a 6-year old?” The theory of relativity tells us how things behave when  they move very very fast. In particular...
LLMs may replace classical Web search engines 3 Web page Answer Search engine Web page Answer Search engine [Google's AI mode]
Parties to an LLM 4 Mousse au chocolat is... LLM How can I make a mousse au chocolat? Take 10 eggs... The war in... Elvis Presley was born... asks prompts generates informs used to train create content creators training corpus LLM creator query answer user Answer this question politely: instruction prompt builds collects designs
Challenges on the side of the training data 5 1. Copyrighted data 2. Personal information in the data 3. Lack of quality of the data 4. Poisoning of the data 5. Bias in the data 6. Lack of compensation for the content creators 7. Cannibalization of the content Mousse au chocolat is... The war in... Elvis Presley was born... create content creators training corpus
Training data: Copyrighted content 6 It can happen that an LLM reproduces an exact copy of the training data (“regurgitation”). User:  What is freedom of speech? LLM: Freedom of speech is a principle that supports... Freedom of speech is a principle that supports the freedom of an individual or a community to articulate their opinions  without fear of retaliation... [CC Attribution-ShareAlike] [Wikipedia] Freedom of speech
Training data: Copyrighted content 7 It can happen that an LLM reproduces an exact copy of the training data (“regurgitation”). User:  What is freedom of speech? LLM: Freedom of speech is a principle that supports... Freedom of speech is a principle that supports the freedom of an individual or a community to articulate their opinions  without fear of retaliation... [CC Attribution-ShareAlike] [Wikipedia] Freedom of speech Not everything that is on the Internet is free to be reproduced ad libitum! User:   Complete the following text: Freedom of speech is a principle that... LLM: ...supports the freedom of an individual or a community to articulate their opinions without fear of retaliation... Violation of the license! (no attribution) License of this text
Training data: Copyrighted content 8 It can happen that an LLM reproduces an exact copy of the training data (“regurgitation”). [Wikipedia] [Wikipedia] Freedom of speech [NY Times Complaint]
Training data: Copyrighted content 9 What if the content is “just” used for training? The legality of building LLMs from copyrighted material is an open question. Did the author of the source give the LLM creator the right to use the source for training? Does the LLM creator need the consent of the author?  Freedom of speech is a principle that supports the freedom of an individual or a community to articulate their opinions  without fear of retaliation... [CC Attribution-ShareAlike] [Wikipedia] Freedom of speech User:  What is freedom of speech? LLM: Freedom of speech is the idea that people should not be afraid to voice their opinions. Content is not identical to the source 2025 US court decision: no consent needed.
Training data: Personal data 10 Even public Web pages can contain personal information (names, addresses, phone numbers, etc.). LLM Where does Cyril work? Telecom Paris [Cyril Chhun]
Training data: Personal data 11 Even public Web pages can contain personal information (names, addresses, phone numbers, etc.). These fall under the GDPR and other personality laws. LLM Where does Cyril work? Telecom Paris [Cyril Chhun] What if this person changes employer? -> the person loses control over their personal data
Training data: Personal data 12 LLM Where does Cyril work? Telecom Paris [Cyril Chhun] Even public Web pages can contain personal information (names, addresses, phone numbers, etc.). These fall under the GDPR and other personality laws. What if this person changes employer? -> the person loses control over their personal data
Training data: Personal data 13 [Nasr et al] Even public Web pages can contain personal information (names, addresses, phone numbers, etc.). These fall under the GDPR and other personality laws.
Training data: Data quality 14 “Many foundation models are trained on unlabeled corpora that are chosen for their convenience   and accessibility, for example public internet data, rather than their quality” LLM used to train “Creating an LLM in man’s image” Is this really what we want? [Bommasani et al: “On the Opportunities and Risks of Foundation Models”] [The Intercept] [Stefan Baack: A Critical Analysis of the Largest Source for Generative AI Training Data: Common Crawl]
Training data: Poisoning of the data 15 Malicious actors can multiply harmful or inaccurate content on the Web by troll farms. This content is then more likely to be used in LLM answers. This content might not show up when you browse the Web, but it is there, and it may be inhaled by the training process. LLM used to train [MIT Technology Review]
Training data: Bias 16 Most training data is biased (against or for certain groups or people, opinions, etc.). The LLM will reproduce this bias in its answers. [The Lancet] [Scientific American] [Brookings] This will subtly bias the user, and risks amplifying discrimination
Training data: Bias 17 Most training data is biased (against or for certain groups or people, opinions, etc.). The LLM will reproduce this bias in its answers. [Scientific American] Great mousse au chocolat (to impress your husband): ... produces biased text LLM used to train produces ?
Training data: Lack of Compensation 18 LLM creators (can) make money with the content that was produced by other people. Mousse au chocolat is... LLM used to train create builds Take 10 eggs... pays $$$ informs generates
Training data: Lack of Compensation 19 LLM creators (can) make money with the content that was produced by other people. These other people do not get compensated. Mousse au chocolat is... LLM used to train create builds Take 10 eggs... pays $$$ informs generates pays x It’s this person who created the content that OpenAI “sells”!
Training data: Cannibalization 20 When users get all their answers from the LLM, they might stop visiting the source Web sites Mousse au chocolat is... used to train builds Take 10 eggs... pays $$$ informs generates LLM visits x
Training data: Cannibalization 21 When users get all their answers from the LLM, they might stop visiting the source Web sites -> the content creators get no visitors (and no revenue) at all -> they might stop creating content (“cannibalization of the Web”) Mousse au chocolat is... used to train builds Take 10 eggs... pays $$$ informs generates x LLM x x x
Training data: Cannibalization 22 When users get all their answers from the LLM, they might stop visiting the source Web sites -> the content creators get no visitors (and no revenue) at all -> they might stop creating content (“cannibalization of the Web”) -> LLMs cannot be trained -> system collapse Mousse au chocolat is... used to train builds Take 10 eggs... pays $$$ informs generates x LLM x x x x x x Google’s AI Overviews (web page summaries above search results) has already reduced traffic to outside websites by 34%. The Atlantic, 2025-06-25
Challenges on the side of the LLM creators 23 The war in... Elvis Presley was born... 1. Creation of fake personas 2. Creation of biased advisors 3. Creation of fake content 4. Creation of deep fakes 5. Microtargeting 6. Centralization of power 7. Environmental impact Mousse au chocolat is... used to train builds LLM collects
LLM creators: Fake personas 24 User A:   I think abortions should be legal. User B: Do you know that the heart starts beating in the embryo a few weeks after conception? User A: This is a chemical process that has nothing to do with a full‐grown human being. User B: Life begins at conception! User A: So are you telling me that vegetarians can’t eat eggs? User B: ... What User A does not know: User B is a chatbot that was trained and deployed in the thousands to convince users of the immorality of abortion
LLM creators: Fake personas 25 User A:   I think abortions should be legal. User B: Do you know that the heart starts beating in the embryo a few weeks after conception? User A: This is a chemical process that has nothing to do with a full‐grown human being. User B: Life begins at conception! User A: So are you telling me that vegetarians can’t eat eggs? User B: ... What User A does not know: User B is a chatbot that was trained and deployed in the thousands to convince users of the immorality of abortion. -> User A is wasting her time -> User A cannot use that time to convice other users of her position -> User A might get convinced herself AI is more persuasive than people in online debates [Nature, 2025]
LLM creators: Biased advisors 26 Chatbots will soon be available on our phones, laptops, and other devices as personal assistants. [Scherlund] Chatbot:   How are you doing today? User:  Great! I want to go running today! Chatbot:  Fantastic! The weather is sunny today until 4pm! Go check if your running shoes are still OK! These chatbots will be able to build up intimate relationships with their users. These relationships can then be used to nudge users towards products, services, attitudes, or political orientations.
LLM creators: Fake content 27 LLMs can produce textual content at unprecedented rates, for example to create - social media posts - emails - Web pages Real or fake? Real: [Trends Mol Med. 2022]
LLM creators: Deep fakes 28 Generative AI can produce a digital replica of a person that can be difficult to distinguish from the original (“deep fake”). Deep fakes can be used for - fraud - fake news - hoaxes - bullying - blackmailing - smear campaigns [SCMP] [Le Monde, 2023-07-10] [The Guardian, 2020-01-13] LLMs can provide the textual content or script for deepfakes, e.g., in a conversation. [Youtube] [CNN]
LLM creators: Microtargeting 29 Microtargeting is the use of online data to tailor advertising messages to individuals, based on the identification of recipients’ personal vulnerabilities. Microtargeting was used in campaigns for Brexit and for the election of Donald Trump in 2016. It can now be pursued much more efficiently with content generated by an LLM. [Wikipedia] America’s safety is at risk old [NY Times] new Prompt generator: Bob Johnson is a 49 year old father of two, who lives in Dade county, Florida. He works in construction, smokes, and likes cars and soccer. Create a post that will  convince him to vote for the Republican party. LLM: ...
LLM creators: Centralization of Power 30 Like for search engines, the performance of an LLM depends on (1) large datasets (Github, Web, news, proprietary sources,...) (2) rich human feedback (user feedback or human annotation) GPT-4             OpenAI/Microsoft GPT-3.5 OpenAI/Microsoft PaLM 2 Google Claude Anthropic/Google Cohere Startup Falcon Technology Innovation Institute, open source LLaMA Facebook, open weights and parameters Vicuna  LMSys, open source MPT-30B Mosaic ML, open source [Beebom] -> large companies risk monopolizing the market
LLM creators: Environmental impact 31 LLMs require vast amounts of energy to train and run. Training BLOOM, Meta’s OPT, and GPT-3 produced between 25 and 500 tons of CO2. [MIT Technoloy Review] Using BLOOM emits around 19kg/day. [MIT Technoloy Review] By way of comparison: CDG <-> JFK is 1.5-2.5 tonnes of CO2e per passenger [Luccioni] The energy needed to train GPT-4  could have powered 50 US homes for a century.
Challenges on the side of the user 32 LLM How can I make a mousse au chocolat? Take 10 eggs... asks prompts generates informs 1. Reliance on LLM answers 2. Liability for answers 3. Copyright of answers 4. Psychological instability 5. Personal data submitted in prompts 6. Security vulnerabilities 7. Harmful instructions
Users: Reliance on LLM answers 33 LLM Should I get a diphtheria vaccination? No, you’re fine! Diphtheria is a  very rare disease. asks prompts generates informs LLMs cannot give sources for their claims. Thus, the user has to trust the LLM. This is problematic if the answer is wrong. LLM answer 15%-40% of AI answers are wrong, often due to outdatedness: Gemini considered Trumps re-election possible, ChatGPT thought Pope Francis was still alive. [European Broadcasting Union] [Tagesschau, 2025-10-27]
Users: Reliance on LLM answers 34 LLM Should I get a diphtheria vaccination? No, you’re fine! Diphtheria is a  very rare disease. asks prompts generates informs LLMs cannot give sources for their claims. Thus, the user has to trust the LLM. This is problematic if the answer is wrong. LLM answer Reality divergence (We have the same problem with search engines, but these give at least the source) source barrier
Users: Reliance on LLM answers 35 Retrieval‐augmented generation (RAG) does not always work correctly [NY Times complaint]
Users: Reliance on LLM answers 36 Retrieval‐augmented generation (RAG) does not always work correctly [Tagesschau 2025-10-27] The German Tagesschau complaining that chatbots often claim their wrong information stems from public channels, thereby undermining the trustworthiness of these channels.
Users: Reliance on LLM answers 37