Fabian M. Suchanek Instance Extraction 50
Semantic IE You are here 2 Source Selection and Preparation Entity Recognition Entity Disambiguation singer Fact Extraction Reasoning Instance Extraction singer Elvis
Def: IsA 3 is‐a(Elvis, singer) is‐a(dog, animal) For now, let us ignore the distinction between the two. IsA  is the relation that holds between   and  if   is an instance of  , or   is a subclass of  . Observation: The relations “subclass” and “type” are expressed very similarly in natural language: type(Elvis, singer) subclassof(dog, animal) Elvis is a singer. A dog is an animal.
IsA Extraction 4 IsA Extraction  is the task of extracting “IsA” facts from a corpus. (Different from NEA, the class names are not given upfront.) The problem: Corpora rarely contain sentences that explicitly define the type of an instance. is‐a(Elvis, singer) is‐a(dog, animal) Elvis is a singer. A dog is an animal.
Example: IsA Extraction In the Simpson episode "HOMR", Doctor Monson discovers a crayon in Homer's brain and removes it. His IQ goes up from 55 to 105, but he feels uncomfortable and wants it back. Moe, who is not only a bartender but also an unlicensed physician, puts the crayon back, returning Homer to the idiot. 5
In the Simpson episode "HOMR", Doctor Monson discovers a crayon in Homer's brain and removes it. His IQ goes up from 55 to 105, but he feels uncomfortable and wants it back. Moe, who is not only a bartender but also an unlicensed physician, puts the crayon back, returning Homer to the idiot. 6 isA isA isA isA isA Simpson episode Doctor idiot bartender unlicensed physician Example: IsA Extraction HOMR Monson Homer Moe Moe
Def: Hearst Patterns Hearst pattern  is a simple textual pattern that indicates an IsA fact that is mentioned implicitly. ...idiots such as Homer... 7 "Y such as X" is‐a(Homer, idiot) Marti Hearst:  Automatic Acquisition of Hyponyms , COLING 1992
Def: Hearst Patterns 8 ...many activists, such as Lisa...   ...some animals, such as dogs...   ...some scientists, such as computer scientists...   ...some plants, such as nuclear power plants.... ...idiots such as Homer... "Y such as X" Hearst pattern  is a simple textual pattern that indicates an IsA fact that is mentioned implicitly. is‐a(Homer, idiot)
Def: Hearst Patterns 9 ...many activists, such as Lisa...   ...some animals, such as dogs...   ...some scientists, such as computer scientists...   ...some plants, such as nuclear power plants.... is‐a(computer, scientist)  ? is‐a(nuc.Pow.Plants, plants)   ? is‐a(Lisa, activist) is‐a(dog, animal) ...idiots such as Homer... "Y such as X" Hearst pattern  is a simple textual pattern that indicates an IsA fact that is mentioned implicitly. is‐a(Homer, idiot)
Hearst patterns need • NER • disambiguation • plural removal Def: Hearst Patterns 10 ...many activists, such as Lisa...   ...some animals, such as dogs...   ...some scientists, such as computer scientists...   ...some plants, such as nuclear power plants.... is‐a(computer, scientist)  ? is‐a(nuc.Pow.Plants, plants)   ? is‐a(Lisa, activist) is‐a(dog, animal) ...idiots such as Homer... "Y such as X" Hearst pattern  is a simple textual pattern that indicates an IsA fact that is mentioned implicitly. is‐a(Homer, idiot)
Def: Classical Hearst Patterns The classical Hearst Patterns are Y such as X+ such Y as X+ X+ and other Y Y including X+ Y, especially X+ ...where X+ is a list of names of the form “X  ,...,X  (and|or)? X ”. These imply is‐a(X  ,Y). 11 (In the original paper, the X   are noun phrases) (assuming that the words are noun phrases and disambiguated) >examples Marti Hearst:  Automatic Acquisition of Hyponyms , COLING 1992
Task: Classical Hearst Patterns 1. Y such as X+ 2. such Y as X+ 3. X+ and other Y 4. Y including X+ 5. Y, especially X+ Trump is a candidate for the Nobel Peace Prize, together with Kim-Jon-Un and other world-class-leaders. I lived in such countries as Germany, France, and Bavaria. I love people that are not genies, especially Homer. 12 Apply >examples
Example: Hearst on the Web try it out 13 >examples
Example: Hearst in the NELL project 14 NELL: “Robin”
Problems with Hearst Patterns 15 • ...domestic animals other than dogs such as cats ... • ...companies such as IBM, Nokia, Proctor and Gamble ... • ...classic movies such as Gone with the Wind ... • ...people in Europe, Russia, Brazil, China, and other countries ... Hearst Patterns won’t extract the right is‐a facts from Wentao Wu, Hongsong Li, Haixun Wang, Kenny Q. Zhu: Probase: A Probabilistic Taxonomy for Text Understanding , SIGMOD 2012 -> end ->set expansion ->taxonomy induction
Determining the right super‐concept 16 • ...domestic animals other than dogs such as cats ... Wentao Wu, Hongsong Li, Haixun Wang, Kenny Q. Zhu: Probase: A Probabilistic Taxonomy for Text Understanding , SIGMOD 2012 1. Extract all possible super‐concepts and all possible sub‐concepts is‐a(cat, dog) ? is‐a(cat, domestic animal) ? 2. Choose the most likely one, given what we have seen before We have seen is‐a(cat, animal) more often than is‐a(cat, dog) =>  is‐a(cat, domestic animal) is‐a?
Determining the right sub‐concept 17 • ...people in Europe, Russia, Brazil, China, and other countries ... Wentao Wu, Hongsong Li, Haixun Wang, Kenny Q. Zhu: Probase: A Probabilistic Taxonomy for Text Understanding , SIGMOD 2012 1. The words that are close to the pattern words are most likely correct 2. If a word has been seen before, then all words between it and    the pattern are most likley correct. Assume we have seen is‐a(Russia, country) before => is‐a(Brazil, country) is‐a? is‐a(China, country)
Determining the right sub‐concept 18 • ...companies such as IBM, Proctor and Gamble ... Wentao Wu, Hongsong Li, Haixun Wang, Kenny Q. Zhu: Probase: A Probabilistic Taxonomy for Text Understanding , SIGMOD 2012 1. Check how often the words co‐occur 2. Choose more likely one => is‐a(Proctor and Gamble, company) is‐a?       IBM | Proctor, companies     vs   IBM | Proctor and Gamble, companies    
19 tree plant grass is‐a herb tree plant grass flower Distinguishing word senses Wentao Wu, Hongsong Li, Haixun Wang, Kenny Q. Zhu: Probase: A Probabilistic Taxonomy for Text Understanding , SIGMOD 2012 plants such as trees, grass, and herbs plants such as trees, grass, and flowers plants such as nuclear power plants nuclear power plant plant
20 tree plant grass is‐a herb tree plant grass flower tree plant grass herb flower + = high similarity Distinguishing word senses Wentao Wu, Hongsong Li, Haixun Wang, Kenny Q. Zhu: Probase: A Probabilistic Taxonomy for Text Understanding , SIGMOD 2012 plants such as trees, grass, and herbs plants such as trees, grass, and flowers plants such as nuclear power plants nuclear power plant plant
21 tree plant grass is‐a herb Constructing the taxonomy Wentao Wu, Hongsong Li, Haixun Wang, Kenny Q. Zhu: Probase: A Probabilistic Taxonomy for Text Understanding , SIGMOD 2012 plants such as trees, grass, and herbs tree organism grass plant organisms such as trees, grass, plants high similarity
22 tree plant grass is‐a herb Constructing the taxonomy Wentao Wu, Hongsong Li, Haixun Wang, Kenny Q. Zhu: Probase: A Probabilistic Taxonomy for Text Understanding , SIGMOD 2012 plants such as trees, grass, and herbs tree organism grass plant organisms such as trees, grass, plants + high similarity = tree organism plant grass tree grass herb
Distinguishing instances & classes 23 Wentao Wu, Hongsong Li, Haixun Wang, Kenny Q. Zhu: Probase: A Probabilistic Taxonomy for Text Understanding , SIGMOD 2012 company organization entity university person IBM Apple Stanford Joe Cocker is‐a is‐a is‐a is‐a is‐a is‐a is‐a is‐a Leaf nodes of the isA taxonomy are instances.
Distinguishing instances & classes 24 Wentao Wu, Hongsong Li, Haixun Wang, Kenny Q. Zhu: Probase: A Probabilistic Taxonomy for Text Understanding , SIGMOD 2012 company organization entity university person IBM Apple Stanford Joe Cocker subclass type type subclass subclass type type subclass Leaf nodes of the isA taxonomy are instances.
ProBase & Microsoft Concept Graph 25 Wentao Wu, Hongsong Li, Haixun Wang, Kenny Q. Zhu: Probase: A Probabilistic Taxonomy for Text Understanding , SIGMOD 2012