The Programming Historian 2: Getting Started with Topic Modeling and MALLET

In this lesson you will first learn what topic modeling is and why you might want to employ it in your research. You will then learn how to install and work with the MALLET natural language processing toolkit to do so. MALLET involves modifying an environment variable (essentially, setting up a short-cut so that your computer always knows where to find the MALLET program) and working with the command line (ie, by typing in commands manually, rather than clicking on icons or menus). We will run the topic modeller on some example files, and look at the kinds of outputs that MALLET installed. This will give us a good idea of how it can be used on a corpus of texts to identify topics found in the documents without reading them individually.

Material Type: Diagram/Illustration

Authors: Scott Weingart and Ian Milligan, Shawn Graham

The Programming Historian 2: Keywords in Context (Using n-grams)

Like in Output Data as HTML File, this lesson takes the frequency pairs collected in Counting Frequencies and outputs them in HTML. This time the focus is on keywords in context (KWIC) which creates n-grams from the original document content – in this case a trial transcript from the Old Bailey Online. You can use your program to select a keyword and the computer will output all instances of that keyword, along with the words to the left and right of it, making it easy to see at a glance how the keyword is used. Once the KWICs have been created, they are then wrapped in HTML and sent to the browser where they can be viewed. This reinforces what was learned in Output Data as HTML File, opting for a slightly different output. At the end of this lesson, you will be able to extract all possible n-grams from the text. In the next lesson, you will be learn how to output all of the n-grams of a given keyword in a document downloaded from the Internet, and display them clearly in your browser window.

Material Type: Diagram/Illustration

Author: William J. Turkel and Adam Crymble

Schritt-für-Schritt zu eigenen Regulären Ausdrücken Ein Einführungskurs

Drei Regex-Tutorien auf einer Homepage? Da kratzt man sich am Kopf "Was soll das?" Ok, zwei Tutorien sind eigentlich gleich: eine deutsch Variante und ihre englische Übersetzung. Beide zum Gebrauch mit TB!, dem Mail-Client, geschrieben. Da aber die Frage nach einem Tutorial ohne Fokus auf Mail aufkam, setzte ich mich hin und bearbeitete die ursprüngliche TB-Fassung. Sie ist nun mit etwas weniger Mail-bezogenen Beispielen versehen und hat auch keinen TB!-Ballast. Außerdem wird diese Fassung -zumindest einigermaßen- gepflegt.

Material Type: Reading

Author: Gerd Ewald


Die Gram­mix-​VM ist eine Vir­tu­el­le Ma­schi­ne (VM), die mit Vir­tual­Box ge­star­tet wer­den kann und die ein kom­plet­tes Gram­ma­tik­ent­wick­lungs­sys­tem (das TRA­LE-​Sys­tem) und Bei­spiel-​Gram­ma­ti­ken ent­hält, die den je­wei­li­gen Ka­pi­teln aus dem Buch Ein­füh­rung in die Head-​Dri­ven Phra­se Struc­ture Gram­mar ent­spre­chen. Au­ßer­dem ent­hält sie das Ba­bel-​Sys­tem und Gram­ma­ti­ken für das Chi­ne­si­sche, Mal­te­si­sche und Deut­sche, die einen ge­mein­sa­men Kern haben und als Se­man­tik­re­prä­sen­ta­ti­on Mi­ni­mal Re­cur­si­on Se­man­ti­cs ver­wen­den.

Material Type: Interactive

Author: Sektion Computerlinguistik der Deutschen Gesellschaft für Sprachwissenschaft

Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge

Einführung in die Korpuslinguistik: Korpustypen, Erstellung, Annotationen, Anfragesysteme Web als Korpus: Wo liegen die Chancen und Risiken der Nutzung des Internets als linguistisches Korpus? Überarbeitet: DeReKo/COSMAS II: Das Deutsche Referenzkorpus DeReKo des Instituts für Deutsche Sprache (IDS) ist eines der wichtigsten Korpora deutscher Sprache. Einführung in die Bedienung mit COSMAS II. Weitere Korpora: Kurze Einführungen in weitere wichtige deutschsprachige Korpora. Eigenes Korpus: Hilfe und Tipps zur Erstellung eines eigenen Korpus, neu mit einem Modul zu maschinellem Wortarten-Tagging (POS-Tagging). Corpus Workbench: Einführung in die IMS Open Corpus Workbench und CQPweb zur Verwaltung von bestehenden und eigenen annotierten Korpora. Anwendungen: Beispiele für die Arbeit mit Korpora Statistik: Statistik für die Korpusanalyse Visualisierung: Einführung in die Möglichkeiten der Visualisierung von Sprachdaten. Anhang: Informationen zu korpuslinguistischer Software, kleine Einführungen in grundlegende Unix-Befehle und in Reguläre Ausdrücke, sowie Literaturhinweise und ein Lexikon.

Material Type: Unit of Study

Author: Noah Bubenhofer

Vor­le­sung: Ein­füh­rung in die Com­pu­ter­lin­gu­is­tik

Die Ver­an­stal­tung gibt einen Über­blick über Ziele und Me­tho­den der Com­pu­ter­lin­gu­is­tik. Ver­schie­de­ne An­wen­dun­gen bzw. po­ten­ti­el­le An­wen­dun­gen wer­den vor­ge­stellt, es wird ge­zeigt, wo die Her­aus­for­de­run­gen und Pro­ble­me bei der Sprach­ver­ar­bei­tung lie­gen und von wel­cher Seite man sich ihnen nä­hern kann. Bei ma­schi­nel­ler Über­set­zung braucht man Kom­po­nen­ten, die den Auf­bau von Wör­tern ana­ly­sie­ren (mor­pho­lo­gi­sche Kom­po­nen­te), Kom­po­nen­ten, die die Struk­tur von Sät­zen ana­ly­sie­ren (syn­tak­ti­sche Kom­po­nen­te) und man muss die Be­deu­tung eines Sat­zes er­mit­teln, um ihn ad­äquat über­set­zen zu kön­nen. Es wird das Kon­zept der end­li­chen Au­to­ma­ten er­klärt und ge­zeigt, wie sich sol­che Au­to­ma­ten für die mor­pho­lo­gi­sche Ana­ly­se be­nut­zen las­sen. Es wird ge­zeigt, wie man syn­tak­ti­sche Ge­setz­mä­ßig­kei­ten for­ma­li­sie­ren kann, und wie die ent­spre­chen­den Gram­ma­ti­ken ver­ar­bei­tet wer­den kön­nen. Be­deu­tungs­re­prä­sen­ta­tio­nen kön­nen ent­we­der par­al­lel mit der Er­zeu­gung der syn­tak­ti­schen Struk­tu­ren auf­ge­baut wer­den oder in einer der syn­tak­ti­schen Ana­ly­se nach­ge­ord­ne­ten Kom­po­nen­te be­rech­net wer­den.

Material Type: Unit of Study

Authors: "In­sti­tut für Deut­sche und Nie­der­län­di­sche Phi­lo­lo­gie; Deut­sche Gram­ma­tik, Prof. Dr. Ste­fan Mül­ler"

Vorlesung/Hauptseminar: Computationelle Semantik

In der Veranstaltung wird in die Computationelle Semantik eingeführt. Es wird gezeigt, wie sprachlichen Ausdrücken eine Bedeutung zugewiesen werden kann, die sich kompositional aus der Bedeutung der Teile ergibt. Die folgenden Punkte werden besprochen: Logik erster Stufe Lambda-Kalkül Skopusambiguitäten und unterspezifizierte Repräsentationen Propositionale Inferenz Inferenz erster Stufe und Unifikation Diskursrepräsentationstheorie Präsupposition

Material Type: Unit of Study

Author: Stefan Müller

Head-​Dri­ven Phra­se Struc­ture Gram­mar (HPSG) für das Deut­sche

In die­ser Ver­an­stal­tung wird ein Mo­dell der deut­schen Spra­che ent­wi­ckelt. Die Vor­le­sung gibt eine Ein­füh­rung in die we­sent­li­chen Kon­zep­te: Re­prä­sen­ta­ti­on von Va­lenz­in­for­ma­ti­on und se­man­ti­scher In­for­ma­ti­on, Gram­ma­tik­re­geln Le­xi­kon­re­geln

Material Type: Lesson Plan, Unit of Study

Authors: "In­sti­tut für Deut­sche und Nie­der­län­di­sche Phi­lo­lo­gie; Deut­sche Gram­ma­tik, Prof. Dr. Ste­fan Mül­ler"

Methods Commons

Computation has produced new and exciting ways of studying texts. Many of these methods do not require the use of expensive programs or detailed programming knowledge, but only the know-how to combine freely accessible resources to perform various tasks. This site describes common or interesting sequences of actions, or recipes. They are organized according to the objective of the recipe. Recipes fall into the three major categories of location and identification of ideas, themes or specific terms; analysis of textual devices or themes; or the construction of new entities or corpora. The Methods Commons community benefits from shared experience and learning how others make use of recipes. You can share your experience by adding your own recipes to the collection. More information about recipe and exercise structure and authoring is available on the Recipe Structure page. We also have a Glossary that we hope you will add to.

Material Type: Unit of Study

Author: Stéfan Sinclair & Geoffrey Rockwell

Digitize Me, Visualize Me, Search Me

Digitize Me, Visualize Me, Search Me takes as its starting point the so-called ‘computational turn’ to data-intensive scholarship in the humanities. What Digitize Me, Visualize Me, Search Me endeavours to show is that such data-focused transformations in research can be seen as part of a major alteration in the status and nature of knowledge. It is an alteration that, according to the philosopher Jean François Lyotard, has been taking place since at least the 1950s, and involves nothing less than a shift away from a concern with questions of what is right and just, and toward a concern with legitimating power by optimizing the social system’s performance in instrumental, functional terms. This shift has significant consequences for our idea of knowledge.

Material Type: Lecture, Reading, Textbook

Author: Gary Hall

Digitale Textedition mit TEI

Das Tutorial Digitale Textedition mit TEI besteht aus einer Reihe von Kapiteln, die aufeinander aufbauend in die Kodierung und Edition von Texten nach den Guidelines der Text Encoding Initiative (TEI) einführen. Das Tutorial ist für den Einsatz in der Lehre konzipiert, kann aber auch im Selbststudium eingesetzt werden. Jedes Kapitel behandelt einen bestimmten Aspekt des Themas und besteht jeweils aus drei Elementen: erstens aus einem Foliensatz für ein Inputreferat, das in die wichtigsten Begriffe und Elemente von TEI einführt; zweitens aus einem oder mehreren Aufgabenblättern, die zur praktischen Einübung des gelernten dienen; und drittens aus den diversen Materialien, die für die Bearbeitung der Aufgaben notwendig sind, bspw. digitale Faksimiles, XML-Dateien, und mehr.

Material Type: Activity/Lab, Full Course, Lecture Notes, Primary Source

Author: Christof Schöch

Doing Digital Humanities - A DARIAH Bibliography

This is the collaborative group library of the DARIAH-DE project. It contains several collections of bibliographic items relevant to specific aspects of the Digital Humanities. Please feel free to contact us with any questions, comments or suggestions! Items in the collection are tagged using a closed vocabulary of activities (what research activity is being treated) and objects (to what research objects is it being applied), following the TaDiRAH taxonomy.

Material Type: Lecture Notes, Primary Source, Reading

DARIAH-DE-Videotutorials: Collection Registry

Die Collection Registry ist eine einfache Web-Anwendung, die Informationen über Forschungsdatensammlungen vereint, die für die geisteswissenschaftliche Forschung relevant sind. Der Begriff Sammlung bezieht sich auf verschiedenste Entitäten wie Bücher, Urkunden, Texte, Dateien, Bilder oder Statuen. Eine Sammlungsbeschreibung in der Collection Registry enthält allgemeine Informationen wie Standort und Zugriffspunkte der Sammlung. Die Tutorials zeigen den Einstieg und die Arbeit in der Collection Registry.

Material Type: Lecture

Author: Philip Dürholt on behalf of DARIAH-DE