Handschriftenerkennung mit Google Lens

Bei den Besitztümern meiner Mutter fand ich das wohl älteste Dokument meines Dranges, mich zu verschriftlichen: ein Brief aus dem Zeltlager, abgeschickt am 8.8.1965. Ich war also knapp neun Jahre alt. Mehr zu diesem Zeltlager erfahrt Ihr chronologisch einsortiert, wenn Ihr diesem Link folgt.

Hier und heute abermals eine kleine Technologie-Schau. Dass Google Lens Bilder erkennt, liest und bei Bedarf auch übersetzt, ist nicht neu. Aber davon wissen und es sinnvoll verwenden sind zweierlei, heute also der Praxistest. Wie gut oder schlecht Ihr das Ergebnis findet, bleibt Euch überlassen. Ihr solltet das hier mehr als ein „Making of“ zum verlinkten Zeltlagertext verstehen, den Ihr ohne diese kleine Hinleitung ja niemals finden würdet.

Links Lens und rechts, was Lens so aus dem Bild ableitet.

Liebe Muth) and Page!

sind glet angekommen. Heute gab es Schmelz= kaltoffeln, rote Beben und Rührei. In 2 st. reachen wir das erste Geländespil. Die zwei Gruppen bauten sich gestern ihre Festungen. Unsere Festung ist gut versteckt. Nun will ich ersuchten wie das Spiel geht: Jeder spieler griebt ein „Lebensbändchen. Jede Gruppe knegt in Wimpel, das müssen wir uns gegenseitig alyagen. Zum Frühstück gibt es immer Haffe-

Herzliche Grüße ever

Günther

Deutsche Bundespon

-88.49

6121

Transkription für den Freundeskreis

Ich bin ja immer auf der Suche nach spannenden Trivialitäten für Euch. Und da gäbe es auf meiner Festplatte oder in meinen Tagebüchern auch so einiges zu finden, aber es ist doch immer sehr mühsam, diese Geschichten dann zu verschriftlichen. Spracherkennungs- und Transkriptionssoftware will uns das leichter machen, aber auch damit bleibt das Ergebnis oft hinter dem Aufwand zurück. Vor allem, wenn man sich, wie ich, auf kostenlose Angebote beschränkt. Dennoch, stets bemüht, versuche ich an neuen Entwicklungen dran zu bleiben und diese kreativ zu nutzen.

Mit meinem neuesten Experiment wollte ich Euch eine mehrstündige Audioaufnahme zugänglich machen, in der  Freund J. und ich uns über die 70er Jahre – und wie wir sie erlebt haben – unterhalten. Besser: meinen Teil der Unterhaltung wollte ich Euch zugänglich machen, des Freundes Einlassungen sind seine und bleiben auch bei ihm. Eine kleine regelbestätigende Ausnahme folgt dann weiter unten im Text, denn er ist „Sprecher 1“.

Okay, die Aufnahme ist vorhanden, wie kann ich sie in einen Text umwandeln? Im heutigen Experiment versuche ich das mit einer App von Google, „Automatische Transkription“, die nicht genau für diesen Zweck gemacht ist, sie soll eher Menschen mit Einschränkungen bei der Verständigung oder der Geräuscherkennung helfen. Dementsprechend hat sie auch keine Exportfunktion für die aufgezeichneten Texte, sondern der Export muss über copy&paste geschehen.

Der Text selbst sieht dann aus, wie transkripierte Texte immer aussehen. Ich habe während meines Studiums viele Stunden lang Interviews transkripiert; Gesprochenes, das sich vollkommen verständlich und normal anhört, ist als geschriebener Text voller Füllwörter, Wiederholungen, offensichtlicher Gedankensprünge und unbeendeter Sätze. Sprecher, die während des Sprechens denken, verschlimmern das Problem. Bei der manuellen Transkription kann der Transkriptierende noch Satzzeichen und andere hilfreiche Interpretationshilfen einfügen, Software spart sich so etwas oft, rät viel und manchmal falsch. Die kurze Suche nach dem passenden Wort gerät da schon einmal zum Absatz. Kurz: ein transkripierte Text muss immer (!) überarbeitet werden.

Gestern habe ich diese Überarbeitung per Hand und Hirn vorgenommen. Es ist vielleicht interessant, dass sich sogar Passagen, die man selbst gesprochen hat, im nachhinein oft nicht sinnvoll rekonstruieren lassen. Hört man die entsprechende Stelle in der Aufnahme nochmals an, ist alles klar. Um ehrlich zu sein, ich habe mir die Arbeit nicht gemacht, mir die entsprechenden Stellen noch einmal anzuhören, stattdessen habe ich gnadenlos gekürzt, was nicht verständlich war. Aus einem kleinen Teil der gestrigen, überarbeiteten Transkription habe ich anschließend einen Blogpost gemacht und in die 70er Jahre verschoben. Dort könnt Ihr nachschauen, wie sich das gesprochene Wort halbwegs unverfälscht liest.

Heute wollte ich dann schauen, ob sich der gestrige, mühselig Prozess nicht mit Hilfe von Googles „Bard“ abkürzen lässt. Und ja, es funktioniert. Mit Einschränkungen, wie dringend anzumerken ist. Aber bevor wir uns mit diesen beschäftigen, solltet Ihr Euch erstmal das Ergebnis anschauen, die Korrekturen darin sind von mir und ich würde den Text so zwar nicht veröffentlichen, dennoch, „man könnte“. Zur besseren Vergleichsmöglichkeit habe ich Eingabe und Ausgabe nebeneinander gestellt.

Die Eingabe bei Bard lautete:
Generiere aus allem nach dem Doppelpunkt einen grammatikalisch richtigen Text. Bleibe dabei so nah wie möglich am Originaltext: [Text]

Text, wie er aus „Automatische Transkription“ herausfiel und als Eingabe diente. Text, von „Bard“ geradegezogen.
.

Dann doch auch, dann haben wir über diese alten Zeiten gesprochen und Ja wir haben überall ich glaube eben auch Zusammenhang mit meiner schreiberei und der Geschichte und ich glaube da wollte ich dich wollte ich auch von dem paar Sachen Wissen und dann kamst du auf die Idee oder hast du gesagt du wolltest das wolltest das eh schon länger mal machen mal so eine Aufnahme Session zu deinem Leben oder einer Lebensphase und so haben sich diese beiden Interessen verbunden lang also so habe ich jetzt april für die Geschichte Halt und und

Und was ich da spannend dran fand, das war, dass ich so beim Nachhinein dann überlegt habe. Okay die die 70er. Also wenn man die jetzt mal so ganz grobkalent, also eine so ganz streng kann abgrenzt dann sind das ja die Jahre zwischen 14 und 24 bei mir und bei mir zwischen 15 und 25 und das ist eine unglaublich spannende Zeit gewesen eigentlich die.

Ja.

Ich denke zum einen waren die verprägend. Das gesamte Leben was später kommt.

Anfangsgespräch:

Person 1: Wir haben uns ja schon mal über diese alten Zeiten unterhalten, und ich glaube, dass das auch mit meiner Schreibe[rei] und der Geschichte [, die ich schreibe,] zusammenhängt. Ich wollte dich auch ein paar Sachen fragen, und dann kamst du auf die Idee  [hast Du erzählt], dass du das schon länger mal machen wolltest, mal so eine Aufnahmesession zu deinem Leben oder einer Lebensphase. So haben sich diese beiden Interessen verbunden.

Person 2: Ja, genau. Und was ich da spannend fand, war, dass ich mir beim Nachhinein überlegt habe: Okay, die 70er Jahre, also wenn man die jetzt mal so ganz grob zeitlich abgrenzt, dann sind das ja die Jahre zwischen 14 und 24 bei mir und bei dir zwischen 15 und 25. Und das ist eine unglaublich spannende Zeit gewesen eigentlich.

Person 1: Ja.

Person 2: Ich denke[,] zum einen waren die [waren ] verprägend für das gesamte Leben, w[d]as später kommt.

Die anzumerkenden Einschränkungen sind quantitativer und qualitativer Art. Dass in die Eingabe, Prompt sagen wir heute dazu, nur eine begrenzte Menge Text passt, ist zu erwarten. Ich war trotzdem überrascht. Eine kleine Nachfrage ergibt, dass sowohl der Prompt als auch die resultierende Antwort auf 1000 Zeichen begrenzt sind. Bedeutet, dass der findige Nutzer den Text vorher in sinnige Abschnitte unterteilen muss, damit Bard auch sinnig damit umgehen kann. Denn: Bard macht im ersten Anlauf nicht, was ich von ihm wollte, sondern liefert erstmal eine Zusammenfassung mit durchaus eigenen Schwerpunkten, die nicht richtig falsch, aber auch nicht richtig richtig waren. Für solcherlei Tun, wenn man es denn will, muss Zusammengehöriges natürlich auch zusammen eingegeben werden.

Immerhin, Bard liefert regelmäßig drei Alternativen dessen, was er getan hat, und die zweite ist dann die, die am nächsten dran ist an dem, was ich mir wünschte, siehe oben. Womit wir zu den qualitativen Einschränkungen kommen.

Weniger im Beispiel, aber im Rest des Textes und besonders  in der dritten Alternative war mir Bard oft nicht genau genug. Bard schludert bei der Grammatik und teilweise auch bei der Semantik, beides hätte ich aufgrund der Funktionsweise von LLM’s für ausgeschlossen gehalten (ich vermute nun, das Bard bei jeder Alternative etwas weniger streng mit inneren und äußeren Vorgaben umgeht). Gelegentlich gerät Bard auch mit den Sprechern durcheinander, aber das will ich ihm nicht vorwerfen, weil er ja in einem Text, der die Sprecher nicht unterscheidet, immerhin festgestellt hat, dass es sich um zwei Sprecher handelt.

Bards erste und priorisierte „Lösung“ des Prompts, die Zusammenfassung, ist dagegen zu glatt und allgemein. Weil der umgangssprachliche Ton wegfällt, dagegen in LLM-Manier das jeweils wahrscheinlichste, mithin durchschnittlichste Wort gewählt wird, fehlt alles, was das Allgemeine zum Besonderen macht.

Und dies führt uns zu einem vollkommen unerwarteten Abschluss.

Hausaufgabe für den Freundeskreis Hobby-Philosophie

Ergründe das Verhältnis von Besonderem zu Allgemeinem anhand des folgenden Dialogs.
„Wir haben uns getrennt, weil wir [hier eine als besondere empfundene Problemlage einsetzen].“
„Ach, der Klassiker!“

 

Mehr als heiße Luft

Ich habe mal wieder etwas mit Google-Bard herumgespielt, Ihr wisst schon, die freundliche KI aus der Nachbarschaft. Denn es gab bei mir heute Kürbis, fast so wie weiter unten beschrieben in der gefundenen Heißluftfritteuse zubereitet. Nun werde ich hier keinen Kochblog starten, aber als Ausgangspunkt für ein kleines KI-Experiment taugt die Situation schon. Drei Eingaben musste ich machen, bis mir das Ergebnis gefallen hat. Die Eingaben:

  • Schreibe einen Blogbeitrag, in dem jemand Kürbis im Air Fryer zubereitet.
  • Vervende die ich-Form und sei etwas persönlicher.
  • Schmücke den Text damit aus, dass Du den Fryer letzten Sonntag gefunden hast und Du das Rezept zum ersten Mal ausprobierst.

Das unveränderte Ergebnis:


Kürbis im Air Fryer: Mein neuer Lieblingssnack

Foto von DALL-E, Prompt unten

Ich liebe Kürbis. Er ist ein so vielseitiges Gemüse, das sich für viele verschiedene Gerichte eignet. Kürbissuppe, Kürbiskuchen, Kürbisrisotto – ich könnte ewig so weitermachen.

Letzten Sonntag habe ich in einem Second-Hand-Laden einen Air Fryer gefunden. Ich war sofort begeistert und konnte es kaum erwarten, ihn auszuprobieren.

Ich habe mich für ein Rezept für Kürbisspalten entschieden. Das Rezept ist super einfach und schnell, und der Kürbis wird immer schön knusprig.

Zutaten

  • 1 Hokkaido-Kürbis (ca. 800 g)
  • 1 EL Olivenöl
  • Salz und Pfeffer nach Geschmack
  • Optional: Gewürze wie Curry, Paprika oder Chilipulver
  • Optional: Honig oder Ahornsirup

Zubereitung

  1. Den Kürbis waschen, halbieren und die Kerne entfernen.
  2. Das Fruchtfleisch in etwa 1 cm dicke Spalten schneiden.
  3. Das Olivenöl mit Salz und Pfeffer vermischen und die Kürbisspalten damit einpinseln.
  4. Optional: Die Kürbisspalten mit Gewürzen nach Geschmack würzen.
  5. Den Air Fryer auf 180 °C vorheizen.
  6. Die Kürbisspalten in den Air Fryer geben und 15-20 Minuten backen, bis sie gar sind und goldbraun gebräunt sind.
  7. Optional: Den Kürbis nach dem Backen mit Honig oder Ahornsirup beträufeln.

Persönliche Anmerkung
Ich war total gespannt auf das Ergebnis. Und ich muss sagen, ich bin begeistert! Der Kürbis ist so schön knusprig und hat einen tollen Geschmack.

Ich kann mir gut vorstellen, dass ich das Rezept in Zukunft öfter machen werde. Es ist perfekt als Snack oder als Beilage zu einem Hauptgericht.

Tipp
Ich finde, dass der Kürbis mit Currypulver besonders gut schmeckt. Wenn du es also gerne etwas würziger magst, solltest du das unbedingt ausprobieren.

Genieße deinen leckeren Kürbis aus dem Air Fryer!

Nachtrag
Ich habe das Rezept heute zum zweiten Mal gemacht. Diesmal habe ich den Kürbis mit Paprikapulver gewürzt. Das war auch sehr lecker.

Ich bin gespannt, welche anderen Gewürze ich noch ausprobieren kann.


Ein echter Nachtrag: Es ist, wie es immer ist. Eine KI tut, was eine KI tun muss, sie erfindet etwas. Meine Heißluftfritteuse ist nicht aus dem Second-Hand-Laden, sondern ein echtes Nimm-mich-mit-ich-wurde ausgesetzt-Fundstück. Und natürlich gab es das zweite Mal mit Paprikapulver nicht. Aber hey, wenn es nicht wahr dann ist, dann ist es gut erfunden. Und: wenn ich wollte wäre der Text in fünf bis zehn Minuten so umgeschrieben, dass er sachlich richtig wäre und etwas mehr nach mir klingen würde.

Einen verständlichen Erklärbär-Text zur obigen Magie gibt es hier. Aus irgendeinem Grund beginnt der mit einem eher störenden Glossar. Mein Tipp, erstmal überspringen und darauf zurückkommen, falls Verständnisschwierigkeiten auftauchen.

Nachtrag 2: Und weil ich gerade so drin war in der Sache habe ich mir von Bard noch einen Prompt für DALL-E, eine bildergenerierende KI, übersetzen lassen. DALL-E spricht leider nur Englisch. Der Prompt hat dann im ersten Versuch die Bilderleiste im Fake-Beitrag hervorgebracht. Gut genug für quick’n’dirty. Auch hier musste ich zweimal nachfragen, bis das Ergebnis so vorlag, dass ich es verwenden konnte.

  • Generiere mir einen Prompt für ein Beitragsbild in Englisch.
  • Das Bild soll etwas mit dem obigen Blogbeitrag zu tun haben.
  • Die Prompts bitte in englisch übersetzen.

    Dann kam die ganze Antwort in Englisch, aber ich bin da nicht so:

    Sure, here are the prompts translated into English:
    […]
    Here are the prompts for the blog post about pumpkin in the air fryer:

    A photo of a delicious piece of pumpkin that was baked in the air fryer. The pumpkin should be golden brown and crispy, and it should be garnished with a delicious sauce or spices.

    […]

Google Fonts deaktiviert

Fällt Euch irgendetwas an der Seite auf? Könnte sein, dass die Schrift nicht so schick ist. Bis jetzt bekamt Ihr die von Google, seit heute nimmt die Seite eine Schrift, die sie irgendwo bei Euch findet. Wäre nicht notwendig gewesen, gäbe es nicht die Gier in dieser Welt, nicht die DSGVO und nicht Google. Wenn Euch an dem Thema irgendwas interessiert, „Abmahnwelle wegen Google Fonts“ ist ein guter Anfang.

Update (21.12.22): Die Nasen, die mir und etlichen anderen Arbeit und Kosten verursacht haben, sind nicht „einfach so“ davon gekommen. Die Berliner Generalstaatsanwaltschaft in einer Pressemeldung:

In einem Verfahren […] wurden heute wegen des Verdachts des (teils) versuchten Abmahnbetruges und der (versuchten) Erpressung in mindestens 2.418 Fällen durch die Polizei im Auftrag der Staatsanwaltschaft Berlin Durchsuchungsbeschlüsse in Berlin, Hannover, Ratzeburg und Baden-Baden sowie zwei Arrestbeschlüsse mit einer Gesamtsumme vom 346.000 Euro vollstreckt.

Den Beschuldigten wird vorgeworfen, bundesweit Privatpersonen und Kleingewerbetreibende, die auf Ihren Homepages sog. „Google Fonts“ – ein interaktives Verzeichnis mit über 1.400 Schriftarten, die das Schriftbild einer Webseite bestimmen – eingesetzt haben, per Anwaltsschreiben abgemahnt zu haben. Zugleich wurde diesen angeboten, ein Zivilverfahren gegen Zahlung einer Vergleichssumme in Höhe von jeweils 170 Euro vermeiden zu können. Dass die behaupteten Schmerzensgeldforderungen wegen Verletzung des Rechts auf informationelle Selbstbestimmung nicht bestanden, soll den Beschuldigten dabei bewusst gewesen sein. Entsprechend sollen sie auch gewusst haben, dass für die Angeschriebenen kein Anlass für einen entsprechenden Vergleich bestand, da sie die angeblichen Forderungen gerichtlich nicht hätten durchsetzen können. Die Androhung eines Gerichtsverfahrens soll daher tatsächlich nur mit dem Ziel erfolgt sein, die Vergleichsbereitschaft zu wecken.