Hola!

die wenigen Lösungen die ich im Netz gefunden habe, die kostenfrei sind und lokal laufen, haben bei meinen eigenen Videos nur mäßig gut funktioniert, weil die Modelle zumeist mit Auto dashcams trainiert wurden, und bei den extremeren Winkeln und Bewegungen von Fahrrad Footage oft versagen.

Also habe ich ein eigenes python skript geschrieben, unter der Verwendung von YOLO8n/s und torch. Das benutzt drei small scale models, eines für die Fahrzeugerkennung und -klassifizierung, eines für die Kennzeichenerkennung und eines für die Gesichtserkennung.

Die Modelle habe ich konkret mit screenshots aus Lenkerdashcam und Helmcam mit meinen Fahrradvideos trainiert, um die Fahrradperspektive berücksichtigen. Ziel ist es zum einen den Blur präziser zu machen, so dass er sich besser einfügt und wirklich nur die Kennzeichen und Peronen unkenntlich macht, ohne im Bild zu störend zu wirken und zum anderen die Performance für lokale Verpixelung zu verbessern.

Das ganze läuft lokal unter Linux, bzw. in WSL unter Windows. Aktuell kann ich mit einer RTX5070 (cuda120) Videos in Echtzeit verpixeln, also 5 Minuten Rendering für 5 Minuten Video. Videos je nach Option (plateblur, faceblur, beides, Qualitätseinstellung, Quellgröße) mit 20fps bis 55fps komplett lokal automatisch Verpixeln. Trefferquote ist aktuell ca. 90% . Das ist noch work in progress

Es würde helfen, wenn Ihr mal auf ein Testvideo schaut, und vielleicht ein paar Ideen dazu habt. Ich möchte herausfinden, an welchen Ecken ich das noch optimieren muss, um das wirklich praktisch verwendbar zu machen. Das ist am Ende immer eine tradeoff zwischen Qualität und Renderzeit. In der aktuellen Version sind motionflow und memory tracking noch deaktiviert.

Testvideo: https://youtu.be/JqfSGDV1oE0?si=28bkCe0hQoj32azD

Quellvideo war 4k60 , zum schnelleren Testen auf 1080 mit 30fps herunterskaliert. 4k kann natürlich auch verarbeitet werden, dauert dann halt entsprechen länger. Kennzeichen- und Gesichtserkennung kann separat ein/ausgeschaltet werden. Rechtlich würde es eine Gesichtsverpixelung ja womöglich nicht brauchen.

Ich freue mich auf euer Feedback und schönes Radfahrwetter.

by 3dlyx

1 Comment

  1. Das sieht schon der ordentlich aus.
    Allerdings ist mor aufgefallen das die Gesichter die links vorbei ziehen, am Rand wieder erkennbar ist.

    Hier wäre vielleicht ein Auflösungsdelay von 200ms ganz gut. Also 200ms bevor es sich “auflöst” (blureffekt verschwindet) könnte das verhindern. Zusammen mit einer Richtungsvorhersage würde es perfektionieren.

    Echt nicht schlecht. Gute Idee. 🙂

Leave A Reply