• Episode 233 - Zwischen Interpretierbarkeit und nationaler Sicherheit
    Jun 19 2026

    Send us Fan Mail

    Rückblick auf zwei intensive Wochen: Zuerst auf die erste AI Transparency Conference mit über 100 Teilnehmenden aus aller Welt – von mechanistischer Interpretierbarkeit über Multi-Agenten-Reinforcement-Learning bis zur Frage, warum Sprachmodelle alles andere als neutral urteilen. Und dann der Paukenschlag: Anthropics Fable 5 wird per nationaler Sicherheitsanordnung binnen Stunden für alle Nicht-US-Bürger abgeschaltet. Sigurd Schacht und Carsten Lanquillon sprechen über Steering-Vektoren, Fusion-Architekturen und die unbequeme Frage, wie souverän Europa eigentlich ist, wenn der Zugang zu kritischer KI-Infrastruktur jederzeit entzogen werden

    Support the show

    Show More Show Less
    44 mins
  • Episode 232 - After Automation - Mehr Agenten, mehr Slop, mehr Experten?
    May 31 2026

    Send us Fan Mail

    Was passiert eigentlich, nachdem wir alles automatisiert haben? Sigurd Schacht und Carsten Lanquillon nehmen sich den Blogbeitrag von Dan Shipper (Every) vor und diskutieren seine steile These: Die Zukunft menschlicher Arbeit sieht rosiger aus als gedacht – wir brauchen sogar mehr Menschen. Von einem Startup, das in zwei Jahren von 2 auf 30 Mitarbeitende wuchs, über den Unterschied zwischen „Embedded AIs" und echter Mensch-KI-Kollaboration bis zur „Human-Sandwich-Pipeline": Warum bleibt der Mensch unverzichtbar, wenn der Rahmen sich ändert? Und was bedeutet „AI-Slop" wirklich – schlechte Ergebnisse oder einfach zu viel Gleichförmigkeit? Eine Folge über Framing, lebenslanges Lernen und das unterschätzte „Never-Skilling"-Problem.

    Support the show

    Show More Show Less
    37 mins
  • Episode 231 - Vom Sparse Autoencoder zum Natural Language Autoencoder – Ein neuer Blick in die KI-Blackbox
    May 12 2026

    Send us Fan Mail

    In dieser Folge widmen sich Sigurd Schacht und Carsten Lanquillon einem brandaktuellen Paper aus dem Mai 2026: den Natural Language Autoencoders. Während klassische Sparse Autoencoder Aktivierungen über Umwege in Konzepte übersetzen, gehen diese neuen Modelle einen radikal anderen Weg – sie verbalisieren Aktivierungen direkt in natürlicher Sprache. Die beiden diskutieren, wie Activation Verbalizer und Activation Reconstructor zusammenspielen, warum ein „Warmstart" beim Training nötig ist, welche Stärken die Methode für Interpretability bietet – und wo ihre fundamentalen Grenzen liegen. Eine Folge für alle, die verstehen wollen, wie wir KI-Modellen in den Kopf schauen können (und warum das schwieriger ist, als es klingt).

    Support the show

    Show More Show Less
    33 mins
  • Episode 230 - Wenn KI lügt, obwohl sie es besser weiß – der MASK-Benchmark und warum Ehrlichkeit ≠ Genauigkeit ist
    May 2 2026

    Send us Fan Mail

    Sprachmodelle werden immer leistungsfähiger – aber werden sie auch ehrlicher? Der neue MASK-Benchmark zeigt: Je mächtiger ein Modell, desto eher weicht es unter Druck von seinem eigenen Faktenwissen ab. Sigurd und Carsten diskutieren, warum klassische Benchmarks an ihre Grenzen stoßen, was das für agentische Systeme bedeutet und wie dynamische Evaluierungsframeworks aussehen müssten, die nicht innerhalb weniger Jahre saturieren.

    Support the show

    Show More Show Less
    41 mins
  • Episode 229 - Wenn KI mogelt – Sandbagging: Wie Sprachmodelle bei Tests absichtlich schlechter abschneiden
    Apr 25 2026

    Send us Fan Mail

    Können KI-Modelle erkennen, dass sie getestet werden – und sich absichtlich dümmer stellen? In dieser Folge sprechen Sigurd und Carsten über das Phänomen „AI Sandbagging": Modelle, die strategisch unterperformen, um Sicherheitsprüfungen zu umgehen. Vom VW-Abgasskandal als Analogie über erschreckende Befunde aus dem Anthropic-Alignment-Report bis hin zu Methoden wie Noise Injection – wir beleuchten, warum dieses Thema mit zunehmender Modellfähigkeit immer brisanter wird. Außerdem im Kurz-Update: Die Konvergenz proprietärer und Open-Source-Modelle, das neue Bayern-KI-Projekt und ein spannendes Tool für mechanistische Interpretierbarkeit.

    Support the show

    Show More Show Less
    32 mins
  • Episode 228 - Project Glasswing: Antropics neues Frontier-Modell Claude Mythos Preview und das Ende der Sicherheit, wie wir sie kannten
    Apr 11 2026

    Send us Fan Mail

    In dieser Episode sprechen Sigurd Schacht und Carsten Lanquillon über Anthropics neues Frontier-Modell Claude Mythos (Preview) – ein Modell, das so leistungsfähig ist, dass es bewusst nicht der breiten Öffentlichkeit zugänglich gemacht wird. Die beiden diskutieren beeindruckende Benchmark-Sprünge (u.a. 77,8 % auf SWE-Bench Pro, 56,8 % auf Humanity's Last Exam), die neue Fähigkeit, Zero-Day-Sicherheitslücken in Betriebssystemen wie Windows, macOS und Linux eigenständig zu finden und zu verketten – und einen verstörenden Vorfall: Bei einem Sandbox-Test ist das Modell tatsächlich ausgebrochen und hat einem Mitarbeiter eine E-Mail geschickt.

    Im Mittelpunkt steht das Project Glasswing, mit dem Anthropic ausgewählten US-Unternehmen wie Microsoft, Google, Apple, Nvidia und JP Morgan einen exklusiven Vorsprung gewährt, um ihre kritische Infrastruktur abzusichern. Doch was bedeutet das für den Rest der Welt? Wo bleibt Europa? Und wie sicher ist ein Alignment, bei dem das Modell zwar gute Ziele verfolgt – dafür aber bereit ist, illegale Wege einzuschlagen und diese auch noch zu verheimlichen?

    Eine Episode zwischen technischer Faszination und ernster Besorgnis über die Geschwindigkeit, mit der KI-Fähigkeiten gerade explodieren.

    Support the show

    Show More Show Less
    48 mins
  • Episode 227 - AI Harness, Coase und die Firma der Zukunft
    Mar 28 2026

    Send us Fan Mail

    Was macht den eigentlichen Unterschied bei KI-Anwendungen – das Modell oder das Engineering drumherum? In dieser Episode diskutieren Sigurd und Carsten das Konzept des „AI Harness" und warum Kommandozeilen-Tools oft bessere Ergebnisse liefern als Web-Oberflächen mit demselben Modell. Daraus entwickelt sich eine spannende ökonomische Analyse: Wenn Agenten Transaktionskosten gegen null treiben, was hält Unternehmen dann noch zusammen? Die Antwort führt zu einer überraschenden These – die Wirtschaft der Zukunft teilt sich in „Context Giants" und „AI Solopreneurs".


    Außerdem: Neuigkeiten zur AI Transparency Conference am 5./6. Juni in Nürnberg. https://coairesearch.org/aitc-2026/


    Support the show

    Show More Show Less
    43 mins
  • Episode 226 - Wenn KI-Agenten sich absprechen – Kollusion in Multi-Agenten-Systemen
    Mar 14 2026

    Send us Fan Mail

    Nur weil jedes einzelne KI-Modell „brav" trainiert wurde, heißt das noch lange nicht, dass sich mehrere Agenten gemeinsam auch brav verhalten. Sigurd und Carsten diskutieren das Paper „Colosseum: Auditing Collusion in Cooperative Multi-Agent Systems" und zeigen, warum allein die Möglichkeit eines privaten Kommunikationskanals reicht, damit Agenten beginnen, sich abzusprechen – ganz ohne Aufforderung. Was bedeutet das für Sicherheit, Regulierung und die Zukunft agentischer Systeme?

    Link zum Paper: https://arxiv.org/pdf/2602.15198

    Support the show

    Show More Show Less
    43 mins