Bigrams-Python

Zeeshan Afridi 21 Juni 2023
  1. Bigramme in Python
  2. Bilden Sie Bigramme aus einer Liste von Wörtern in Python
  3. Bilden Sie Bigramme in Python mit der NLTK-Bibliothek
  4. Vorteile von Bigrammen
  5. Nachteile von Bigrammen
  6. Abschluss
Bigrams-Python

Ein Paar aufeinanderfolgender Wörter in einem Text wird als Bigramm bezeichnet. Diese werden häufig in der statistischen Sprachverarbeitung verwendet und werden auch verwendet, um die häufigsten Wörter in einem Text zu identifizieren.

Bigramme können verwendet werden, um die häufigsten Wörter in einem Text zu finden, und können auch verwendet werden, um neuen Text zu generieren. Aus den Bigrammen I like und like to lässt sich beispielsweise der Satz I like to eat bilden.

Bigramme in Python

Sie können die NLTK-Bibliothek verwenden, um Bigramme in einem Text in Python zu finden. Diese Bibliothek hat eine Funktion namens bigrams(), die eine Liste von Wörtern als Eingabe nimmt und eine Liste von Bigrammen zurückgibt.

Bigramme können auch verwendet werden, um die Genauigkeit von Sprachmodellen zu verbessern. Sprachmodelle werden verwendet, um das nächste Wort in einem Text vorherzusagen, und Bigramme können verwendet werden, um die Genauigkeit dieser Vorhersagen zu erhöhen.

Wofür sind Bigramme also geeignet? Bigramme können für verschiedene Aufgaben verwendet werden, darunter das Finden der häufigsten Wörter in einem Text, das Generieren von neuem Text und das Verbessern der Genauigkeit von Sprachmodellen.

Beispielcode:

ans = []
text = ["cant railway station", "citadel hotel", " police stn"]
for line in text:
    arr = line.split()
    for i in range(len(arr) - 1):
        ans.append([[arr[i]], [arr[i + 1]]])

print(ans)

Ausgang:

[[['cant'], ['railway']], [['railway'], ['station']], [['citadel'], ['hotel']], [['police'], ['stn']]]

Bilden Sie Bigramme aus einer Liste von Wörtern in Python

Ein Bigramm wird für ein Wortpaar verwendet, das normalerweise zusammen in einem Text vorkommt. Um Bigramme zu bilden, müssen wir zuerst den Text in eine Liste von Wörtern tokenisieren.

Dann können wir die Liste durchlaufen und für jedes Wort prüfen, ob das Wort davor auch in der Liste enthalten ist. Wenn dies der Fall ist, fügen wir die beiden Wörter einer Bigrammliste hinzu.

Dies sind die Kernschritte zum Bilden von Bigrammen in Python.

  • Um Bigramme zu bilden, müssen wir ein Vokabular erstellen.
  • Wir brauchen eine Liste von Sätzen für unser Korpus.
  • Am Ende erstellen wir Bigramme aller im Korpus verfügbaren Wörter.

Bigramme können für die Sprachmodellierung hilfreich sein, da sie uns eine bessere Vorstellung von der Wahrscheinlichkeit geben, dass bestimmte Wörter zusammen vorkommen. Sie können sie auch für andere Aufgaben verwenden, z. B. für die Rechtschreibprüfung und das Abrufen von Informationen.

Python bietet eine einfache Möglichkeit, Bigramme aus einer Liste von Wörtern zu bilden. Die Funktion bigrams() akzeptiert eine Liste von Wörtern und gibt eine Liste von Bigrammen zurück; Jedes Bigramm ist ein Tupel aus zwei Wörtern.

Wenn wir beispielsweise eine Liste mit Wörtern ['I', 'love', 'python'] haben, gibt die Funktion bigrams() [('I', 'love'), ('love', 'python')].

Beispielcode:

text = ["this is a sentence", "so is this one"]
bigrams = [b for l in text for b in zip(l.split(" ")[:-1], l.split(" ")[1:])]
print(bigrams)

Ausgang:

[('this', 'is'), ('is', 'a'), ('a', 'sentence'), ('so', 'is'), ('is', 'this'), ('this', 'one')]

Bilden Sie Bigramme in Python mit der NLTK-Bibliothek

Der folgende Code zeigt, wie die NLTK-Bibliothek verwendet wird, um Bigramme aus einer Liste von Wörtern zu bilden. NLTK ist eine beliebte Bibliothek für die Verarbeitung natürlicher Sprache in Python.

Beispielcode:

import nltk

words = ["please", "turn", "off", "the", "light"]

bigrams = nltk.bigrams(words)

for bigram in bigrams:
    print(bigram)

Ausgang:

('please', 'turn')
('turn', 'off')
('off', 'the')
('the', 'light')

Vorteile von Bigrammen

Die Verwendung von Bigrammen bei der Analyse von Textdaten bietet einige wesentliche Vorteile.

  1. Erstens können Bigramme helfen, Wörter zu identifizieren, die oft zusammen verwendet werden, was helfen kann, die Gesamtbedeutung eines Textes zu verstehen.
  2. Darüber hinaus können Bigramme genauere Modelle für Vorhersageaufgaben wie die Textklassifizierung erstellen.
  3. Schließlich können Bigramme auch helfen, die Dimensionalität von Daten zu reduzieren, was bei der Arbeit mit großen Textkorpora hilfreich sein kann.

Nachteile von Bigrammen

Während Bigramme in manchen Situationen hilfreich sein können, haben sie auch Nachteile.

  1. Ein Nachteil ist, dass sie schwieriger zu berechnen sein können als andere Methoden, wie z. B. Unigramme.
  2. Bigramme können manchmal weniger genaue Ergebnisse liefern als andere Methoden.
  3. Schließlich können Bigramme schwieriger zu interpretieren sein als andere Methoden, wodurch es schwieriger wird, die Bedeutung der Ergebnisse zu verstehen.

Abschluss

Bigramme und Trigramme können das gemeinsame Vorkommen und die gemeinsamen Anordnungsmuster von Wörtern in einem Text erfassen. Das Bigramm Rotwein wird beispielsweise in einem Text über Wein verwendet, während das Trigramm der Rotwein in einem Text über Weinverkostung verwendet wird.

Diese Muster können dabei helfen, das Thema eines Textes zu identifizieren oder neuen Text zu generieren, der einem bestimmten Text ähnlich ist.

Zeeshan Afridi avatar Zeeshan Afridi avatar

Zeeshan is a detail oriented software engineer that helps companies and individuals make their lives and easier with software solutions.

LinkedIn

Verwandter Artikel - Python List