Fabian M. Suchanek Disambiguation 60
Semantic IE You are here 2 Source Selection and Preparation Entity Recognition Entity Disambiguation singer Fact Extraction KB construction Entity Typing singer Elvis
Overview •   Disambiguation •   Basic approach •   Local features •   Global features •   Only textual features 3
The Problem of Ambiguity After having recognized and typed entity names, we want to identify the entities. 4 Roosevelt oversaw the drafting of the UN Declaration of Human Rights.
The Problem of Ambiguity After having recognized and typed entity names, we want to identify the entities. 5 Roosevelt oversaw the drafting of the UN Declaration of Human Rights. ?
6 Roosevelt oversaw the drafting of the UN Declaration of Human Rights. Wikipedia: Eleanor Roosevelt [National Archives] After having recognized and typed entity names, we want to identify the entities. The Problem of Ambiguity
Def: Disambiguation 7 (Named Entity) Disambiguation  (NED) is the task of mapping an identified mention of an entity in a corpus to the intended entity in a knowledge base.  Entity Linking  (EL) is the task of identification(NERC)&disambiguation.  Roosevelt oversaw the drafting of the UN Declaration of Human Rights. Anna_Eleanor_Roosevelt “Roosevelt” label nationality United_States born 1884 occupation diplomat Corpus Know‐ ledge base
Def: Disambiguation 8 Roosevelt oversaw the drafting of the UN Declaration of Human Rights. entity mention surface form: “Roosevelt” This is the unique identifier of the entity in the knowledge base. This is the human‐readable label of the entity. Several entities can have the same label! desired mapping Anna_Eleanor_Roosevelt “Roosevelt” label (Named Entity) Disambiguation  (NED) is the task of mapping an identified mention of an entity in a corpus to the intended entity in a knowledge base.
Def: Disambiguation 9 Roosevelt oversaw the drafting of the UN Declaration of Human Rights. entity mention This is the unique identifier of the entity in the knowledge base. It can be an illegible string of characters! This is the human‐readable label of the entity. Several entities can have the same label! surface form: “Roosevelt” Q_Roosv_89970AC57F7 “Roosevelt” label desired mapping (Named Entity) Disambiguation  (NED) is the task of mapping an identified mention of an entity in a corpus to the intended entity in a knowledge base. >examples
Where Disambiguation is needed 10 Disambiguation is essential for information extraction. Roosevelt served as the First Lady of the US during the four terms in office of her husband Franklin D. Roosevelt, making her the longest‐ serving First Lady of the United States.