Information Extraction: How does it work? ©  Fabian Suchanek 39
Overview •   Sources for information extraction •   Steps of information extraction •   Methods for information extraction •   Evaluation of information extraction 2
Information Extraction Information Extraction  (IE) is the process of deriving structured information from digital text documents. 3 [Weikum et al: Machine Knowledge]
IE from premium sources 4 [Wikipedia: France] Premium sources are e.g., wikis, dictionaries, etc., and it is relatively easy to extract information from them, thanks to their consistent structure. Entity Coordinates Type Capital Language Flag image Location Labels
IE from structured data 5 Structured data are, e.g., lists or tables in Web pages. IE is harder, but still feasible. [] [Wikivoyage: France]
IE from unstructured data 6 Unstructured data is a misnomer to talk about natural language text. Information extraction from unstructured data is usually difficult. date(DRMC, 1789-08-04) label(DRMC, “Déclaration des droits...”) type(DRMC, statement) influenced(Enlightenment, DRMC) type(Jean-Jacques Rousseau, thinker) [ France]
IE from Social Media 7 IE from social media is very difficult, because the sentences are often syntactically (and semantically...) faulty.
Overview •   Sources for information extraction •   Steps of information extraction •   Methods for information extraction •   Evaluation of information extraction 8
Information Extraction How natural language looks to you: Elvis Aaron Presley (born January 8, 1935) is an American singer and actor. Regarded as one of the most significant... How natural language looks to a computer: Элвис Арон Преcли (8 января 1935), американский певец и актёр, один из самых коммерчески успешных... 9 IE processes (from all sources) have some things in common. IE usually comprises a series of steps, which we analyse now.
Tokenization 10 Tokenization  (also: Word Segmentation) is the task of splitting a text into words or other tokens (punctuation symbols, etc.). Элвис | Арон | Преcли | ( | 8 | января | 1935 | ) |, | американский | актёр | , | один | из | самых | коммерчески | успешных |... For English, a simple splitting by white space and punctuation goes a long way.
POS Tagging Noun Noun Noun Verb Adjective 11 Part‐of‐speech tagging  (POS tagging) is the task of determining the lexical category for each word in a text. Elvis Aaron Presley was an important American singer. Det. Adjective Noun POS tagging is done by conditional random fields or neural networks. Several very good off‐the‐shelf solutions exist for several languages. [] , text from  French Wikipedia Try it out!
POS Tagging in Python 12 NLTK: import nltk sentence = 'Time flies like an arrow. Fruit flies like a banana.' tokens = nltk.word_tokenize(sentence) tagged = nltk.pos_tag(tokens) -> [('Time', 'NN'), ('flies', 'VBZ'), ...] import spacy nlp = spacy.load(‘en_core_web_sm’)  sentence = 'Time flies like an arrow.' for ent in nlp(sentence):       print(ent, ent.pos_)
13 Parsing Noun Noun Noun Verb Adjective Elvis Aaron Presley was an important American singer. Det. Adjective Noun subj obj mod mod mod mod det Parsing  is the process of determining the syntactic structure of a sentence. There exist several off‐the‐shelf solutions that work very well. [] Try it out!
14 Co‐reference resolution  is the task of determining which expressions of a text refer to the same entity. Examples: • Pronouns: “Bob hit John. He enjoyed it.” • Split antecedents: “Bob and John play. They enjoy it.” • Coreferring noun phrases: “Merkel quit. The chancellor...” ? Elvis was a singer. He is one of the most important... Co‐reference Resolution Co‐reference resolution
Entity‐level analysis Named Entity Recognition 15 Named Entity Recognition  (NER) is the task of determining entities (such as dates, people, or locations) in a text. Elvis Aaron Presley was an important American singer.
NER and Classification Person Location 16 Named Entity Recognition and Classification  (NERC) is the task of determining entities in a text and classifying them into predefined categories (typically persons, dates, locations, organizations, numbers). Named Entity Recognition Elvis Aaron Presley was an important American singer. Elvis Aaron Presley was an important American singer. Entity‐level analysis
Entity Typing Singer Location 17 Entity Typing  is the task of assigning entities to classes (which are not predefined). Named Entity Recognition Elvis Aaron Presley was an important American singer. Elvis Aaron Presley was an important American singer. Entity‐level analysis
Disambiguation <Elvis_Presley> <USA> 18 Disambiguation  is the task of mapping an entity mention to its meaning (from a set of predefined entities). Named Entity Recognition Location Elvis Aaron Presley was an important American singer. Elvis Aaron Presley was an important American singer. Elvis Aaron Presley was an important American singer. Entity‐level analysis Entity Typing Singer
Fact extraction type(<Elvis_Presley>, <singer>) nationality(<Elvis_Presley>, <USA>) 19 Fact extraction  (also: relation extraction, slot filling, information extraction) is the task of generating a logical representation for a text. Fact‐level analysis ->KBs
Fact extraction Question Answering What was Elvis? => singer 20 Question answering  (QA) is the task of answering a natural language question. type(<Elvis_Presley>, <singer>) nationality(<Elvis_Presley>, <USA>) Fact‐level analysis ->KBs
Fact extraction Textual Entailment Did Elvis live in the US? => yes 21 Textual entailment  is the task of determining whether one sentence logically entails another sentence. type(<Elvis_Presley>, <singer>) nationality(<Elvis_Presley>, <USA>) Fact‐level analysis ->KBs
Fact extraction Reasoning Elvis did not live in the Middle Ages. 22 Reasoning  includes the task of drawing logical conclusions from facts. type(<Elvis_Presley>, <singer>) nationality(<Elvis_Presley>, <USA>) Fact‐level analysis
Fact extraction Knowledge Base Construction 23 Knowledge Base Construction  is the task of creating a coherent fact collection with an over‐arching semantics. type(<Elvis_Presley>, <singer>) nationality(<Elvis_Presley>, <USA>) singer USA Washington person Fact‐level analysis
24 The  Semantic Web  is a set of standards for publishing KBs. singer USA Washington person The Semantic Web