Übungen zur Computerlinguistik

Übung 2 (12.4.2016)

Analysieren Sie einen Text aus einer Tageszeitung auf Mehrdeutigkeiten. Unterscheiden Sie dabei zwischen verschiedenen Arten von Mehrdeutigkeit, z.B.

  • phonetische Mehrdeutigkeit
  • lexikalische Mehrdeutigkeit,
  • strukturelle Mehrdeutigkeit,
  • referentielle Mehrdeutigkeit,
  • Skopusmehrdeutigkeit, sowie
  • pragmatische Mehrdeutigkeit.

  • Welches sprachliche und außersprachliche Wissen ist in den einzelnen Fällen notwendig, um die Mehrdeutigkeit aufzulösen?
  • Mit welcher Häufigkeit treten die verschiedenen Arten von Mehrdeutigkeit in Ihrem Text auf.
  • Geben Sie Beispiele aus dem Alltagssprachgebrauch (Journalismus, Werbung, Humor, Literatur) an, bei denen bewusst mit Mehrdeutigkeiten gearbeitet wird.

  • Abgabe der Lösungen bis zum 11.4.2016

Übung 3 (19.4.2016)

Formulieren Sie drei Beispiel für (semi-formale) Regeln aus dem Bereich der Morphosyntax bzw. Phonologie. Geben Sie jeweils drei Ausnahmefälle für diese Regeln an. Gibt es Ausnahmen zu den Ausnahmen? Lassen sich die Ausnahmen regelhaft beschreiben?

  • Abgabe der Lösungen bis zum 18.4.2016

Übung 4 (26.4.2016)

Modellieren Sie einen (nichttrivialen) Bereich der deutschen Morphotaktik als endlichen Automaten. Testen Sie Ihren Automaten im Analyse- und Generationsmodus. Dokumentieren Sie positive und negative Testbeispiele. Wie könnte man die Abdeckung des Automaten verbessern?

  • Abgabe der Lösungen bis zum 25.4.2016

Übung 5 (3.5.2016)

Testsuite aus besonders "kniffligen" Testfällen zusammen und dokumentieren Sie die Testergebnisse.

  • Erweitern Sie den Automaten aus Übung 4 um weitere morphologische Bildungsvarianten.

  • Abgabe der Lösungen bis zum 2.5.2016

Übung 6 (10.5.2016)

Implementieren Sie mit HIlfe eines Transducers einen morphologischen Analysator/Generator für ein nichttriviales Fragment des deutschen Wortschatzes . Achten Sie dabei insbesondere auf eine angemessene Modellierung von Mehrdeutigkeiten der morphosyntaktischen Merkmale (Teller: singular/plural), bzw. der Wortartenzuordnung (laufen: Verb/Nomen). Analysieren Sie das Leistungspotenzial und die Beschränkungen Ihres Modells.

  • Abgabe der Lösungen bis zum 9.5.2016

Pfingstwoche (17.5.2016)

Übung 7 (24.5.2016)

Implementieren Sie ausgewählte Phänomene der deutschen Phonologie als Transducer, z.B. die schwa-Epenthese, die Auslautverhärtung, die Wahl der Vokalqualität, oder die Stimmhaftigkeit bei fremdsprachlichem Einfluss (z.B. /v/ vs. /f/ bei Vase vs. Vater)

  • Abgabe der Lösungen bis zum 23.5.2016

Übung 8 (31.5.2016)

Untersuchen Sie die syntaktischen und semantischen Eigenschaften verteilter lexikalischer Repräsentationen anhand eines der unter http://arne.chark.eu/emnlp2015/ gegebenen Wörterbücher. Alternatively use one of the interactive demos on the web, e.g. http://deeplearner.fz-qqq.net/ or http://rare-technologies.com/word2vec-tutorial/#app. Welche Ähnlichkeiten und Analogien zwischen Wörtern und Wortformen lassen sich finden? Wie verlässlich sind die Resultate?

  • Abgabe der Lösungen bis zum 30.5.2016

Übung 9 (7.6.2016)

Überlegen Sie sich eine Fragestellung für ein kleineres Projekt zur Arbeit mit verteilten lexikalischen Repräsentationen, z.B. zur Kompositionalität von Wortvektoren. Entwerfen Sie ein oder mehrere Experimente zur Beantwortung ihrer Fragestellung und führen sie diese durch. Arbeiten Sie dazu in Kleingruppen zusammen, die so zusammengestzt sein sollen, dass jeweils ausreichend linguistische und informatische Kompetenzen vertreten sind.

Dokumentieren Sie Experimentdesign und -ergebnisse in systematischer Form.

  • Abgabe der Lösungen bis zum 6.6.2016

Übung 10 (14.6.2016)

Informieren Sie sich über Aufbau und Inhalt von WordNet. Bearbeiten Sie mit Hilfe des online-Interfaces von WordNet die folgenden Aufgaben
  • Ermitteln Sie jeweils ein Substantiv, Verb bzw. Adjektiv mit möglichst wenigen Wortbedeutungen.
  • Ermitteln Sie jeweils ein Substantiv, Verb bzw. Adjektiv mit möglichst vielen Wortbedeutungen. Clustern Sie die Wortbedeutungen intuitiv nach ihrer semantischen Nähe.
  • Ermitteln Sie jeweils ein Substantiv, Verb bzw. Adjektiv mit möglichst wenigen/vielen Schwesterknoten.
  • Ermitteln Sie jeweils drei möglichst kleine bzw. große Synsets.
  • Definieren Sie sich ein struktur-basiertes Maß für die semantische Ähnlichkeit von Worten. Überprüfen Sie anhand einer kleinen Stichprobe von ca. 20 Wortpaaren, ob ihr Maß mit der Ähnlichkeit von verteilten Wortrepräsentationen korreliert.

Alternativ: Vervollständigen der Lösung zu Übung 9.

  • Abgabe der Lösungen bis zum 13.6.2016

Übung 11 (21.6.2016)

Implementieren Sie mit Hilfe des DCG-Formalismus eine kontextfreie Grammatik, die eine kleine Teilmenge deutscher Sätze erkennen kann (Anleitung zum Schreiben und Testen einer Grammatik). Betrachten Sie dazu z.B. die folgenden Satztypen:

Peter schläft.
Peter sieht ein Buch.
Sie sieht dich.
Die Frau liest ein spannendes Buch.
Er liest.
Er warnt die Frau mit dem Telefon.
Ich gebe ihr das Buch.
Sie glaubt, dass er liest.
Du glaubst ihr.
Sie nimmt das Buch, das neben dem Telefon liegt.

  • Testen Sie Ihre Grammatik auch im generativen Modus.
  • Geben Sie mindestens drei Beispiele für unterschiedliche deutsche Satzkonstruktionen an, die von Ihrer Grammatik nicht lizensiert werden.
  • Geben Sie mindestens drei Beispiele für ungrammatische Sätze an, die von Ihrer Grammatik lizensiert werden. Klassifizieren Sie diese nach der Art der Abweichung von der Norm.
  • Dokumentieren Sie Probleme bei Grammatikentwicklung und -test.
  • Verfolgen Sie die Verarbeitung bei Analyse und Generierung an einfachen Beispielen im Trace-Modus. Geben Sie dazu am Prompt des Prolog-Systems (?-) trace. ein. Der Trace-Modus kann durch Eingabe von nodebug. wieder verlassen werden. Welche Suchstrategie realisiert das Prolog-System?

  • Abgabe der Lösungen bis zum 20.6.2016

Übung 12 (28.6.2016)

Modifizieren Sie Wörterbuch und Grammatik aus Übung 11 so, dass auch morpho-syntaktische Merkmale und die zugehörigen Kongruenz und Rektionsforderungen berücksichtigt werden.

  • Achten Sie dabei darauf, dass Ihre Grammatik möglichst wenige ungrammatische Konstruktionen lizensiert.
  • Dokumentieren Probleme bei Grammatikentwicklung und -test
  • Geben Sie mindestens drei Beispiele für unterschiedliche deutsche Satzkonstruktionen an, die von Ihrer Grammatik nicht lizensiert werden.
  • Geben Sie mindestens drei Beispiele für ungrammatische Sätze an, die von Ihrer Grammatik lizensiert werden. Klassifizieren Sie diese nach der Art der Abweichung von der Norm.
  • Erweitern Sie Grammatik und Lexikon so, dass auch lexikalische und strukturelle Mehrdeutigkeiten auftreten. Überlegen Sie, in welchen Fällen und durch welche Art von Information ggf. eine Disambiguierung möglich ist.

  • Abgabe der Lösungen bis zum 27.6.2016

Übung 13 (5.7.2016)

Modifizieren Sie Ihre Grammatik aus der vorangegangenen Übung so, dass auch Strukturbeschreibungen für Sätze erzeugt werden, z.B.

Peter schläft. s(np(ne(peter)),vp(v(schlaeft)))
Peter sieht ein Haus. s(np(ne(peter)),vp(v(sieht),np(d(ein),n(haus))))
Sie sieht ihn. s(np(pro(sie)),vp(v(sieht),np(pro(ihn))))
Der Mann sieht ein kleines Haus. s(np(d(der),n(mann)),vp(v(sieht),np(d(ein),(n(adj(kleines),n(haus))))))
Der Mann warnt die Frau mit dem Telefon. s(np(d(der),n(mann)),vp(v(warnt),np(d(die),n(frau)),pp(p(mit),np(d(dem),n(telefon)))))
  s(np(d(der),n(mann)),vp(v(warnt),np(np(d(die),n(frau)),pp(p(mit),np(d(dem),n(telefon)))))))
Zeigen Sie, dass die von Ihnen gewählten Strukturbeschreibungen die Konstituentenstruktur deutscher Sätze hinreichend gut widerspiegeln. Wie verhält sich Ihr Parser beim Vorliegen lokaler bzw. globaler Mehrdeutigkeiten?

Strukturbeschreibungen können per Unifikation auf einer zusätzlichen Argumentstelle zusammengebaut werden, z.B.

s(s(NPstruc,VPstruc), ...) --> np(NPstruc, ...), vp(VPstruc, ...).

n(n(haus), ...) --> [haus].

  • Abgabe der Lösungen bis zum 4.7.2016

Übung 14 (12.7.2016)

  • Implementieren Sie mit Hilfe einer DCG einen Bewegungsmechanismus für die Vorfeldbesetzung in einfachen deutschen Sätzen des Typs
Er sieht ihn. Ihn sieht er.
Er sieht ihn in der Schule. Ihn sieht er in der Schule. In der Schule sieht er ihn.

  • Erweitern Sie Ihre Grammatik um die Möglichkeit zum Aufbau einer einfachen semantischen Repräsentation
Der Vater sieht den Sohn. sehen(vater,sohn)
Den Vater sieht der Sohn. sehen(sohn,vater)

  • Abgabe der Lösungen bis zum 11.7.2016

-- WolfgangMenzel - 05 Apr 2016
 
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback