- Comparison of monocular depth estimation methods using geometrically relevant metrics on the IBims-1 dataset. Computer Vision and Image Understanding (CVIU) 191, 2020, 102877 more… BibTeX Full text ( DOI )
- Evaluation of CNN-Based Single-Image Depth Estimation Methods. Proceedings of the European Conference on Computer Vision Workshops (ECCV-WS), Springer International Publishing, 2019, 331-348 more… BibTeX Full text ( DOI )
iBims-1
iBims-1 (independent Benchmark images and matched scans - version 1) ist ein neuer, qualitativ hochwertiger RGB-D-Datensatz, der speziell für das Testen von Methoden zur monokularen Tiefenschätzung (single-image depth estimation, SIDE) entwickelt wurde. Mit einem speziellen Aufnahme-Setup, bestehend aus einer digitalen Spiegelreflexkamera (DSLR) und einem hochpräzisen Laserscanner, wurden hochauflösende Bilder und hochgenaue Tiefenkarten von verschiedenen Szenarien in Innenräumen aufgenommen.
Im Vergleich zu verwandten RGB-D-Datensätzen zeichnet sich iBims-1 durch einen sehr niedrigen Rauschpegel, scharfe Tiefenübergänge, keine Verdeckungen und hohe Tiefenbereiche aus.
Unser Datensatz besteht aus den folgenden Komponenten:
- Kerndatensatz:
- 100 RGB-D-Bildpaare verschiedener Innenraumszenen in hoher und niedriger Auflösung
- Masken für ungültige, transparente und flächige Bereiche (Tische, Böden, Wände)
- Masken für deutliche Tiefenübergänge
- Kamera-Kalibrierungsparameter
- Erweiterung:
- 56 verschiedene Farb- und Geometrieerweiterungen für jedes Bild des Kerndatensatzes
- Zusätzliche handgehaltene Bilder zum Testen von MVS-Methoden
- Bilder von gedruckten Mustern und Fotos, die an einer Wand angebracht sind, um die Leistung von texturierten, ebenen Oberflächen zu beurteilen
- Mehrere RGB-D-Bildsequenzen von statischen Szenen mit variierender Beleuchtungsstärke
Leaderboard
Method | Standard-Metriken (σi = 1.25i) | PE (cm/°) | DBE (px) | DDE (%) für d = 3m | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
rel | log10 | RMS | σ1 | σ2 | σ3 | εplan | εorie | εacc | εcomp | ε0 | ε- | ε+ | |
Eigen (2014) | 0.32 | 0.17 | 1.55 | 0.36 | 0.65 | 0.84 | 7.70 | 24.91 | 9.97 | 9.99 | 70.37 | 27.42 | 2.22 |
Eigen (2015) (AlexNet) | 0.30 | 0.15 | 1.38 | 0.40 | 0.73 | 0.88 | 7.52 | 21.50 | 4.66 | 8.68 | 77.48 | 18.93 | 3.59 |
Eigen (2015) (VGG) | 0.25 | 0.13 | 1.26 | 0.47 | 0.78 | 0.93 | 5.97 | 17.65 | 4.05 | 8.01 | 79.88 | 18.72 | 1.41 |
Laina (2016) | 0.26 | 0.13 | 1.20 | 0.50 | 0.78 | 0.91 | 6.46 | 19.13 | 6.19 | 9.17 | 81.02 | 17.01 | 1.97 |
Liu (2015) | 0.30 | 0.13 | 1.26 | 0.48 | 0.78 | 0.91 | 8.45 | 28.69 | 2.42 | 7.11 | 79.70 | 14.16 | 6.14 |
Li (2017) | 0.22 | 0.11 | 1.09 | 0.58 | 0.85 | 0.94 | 7.82 | 22.20 | 3.90 | 8.17 | 83.71 | 13.20 | 3.09 |
Liu (2018) | 0.29 | 0.17 | 1.45 | 0.41 | 0.70 | 0.86 | 7.26 | 17.24 | 4.84 | 8.86 | 71.24 | 28.36 | 0.40 |
Ramamonjisoa (2019) | 0.26 | 0.11 | 1.07 | 0.59 | 0.84 | 0.94 | 9.95 | 25.67 | 3.52 | 7.61 | 84.03 | 9.48 | 6.49 |
Beispielbilder
Inhalte des Kerndatensatzes
RGB-Bilder und korrespondierende Tiefenkarten, aufgenommen mit einer kalibrierten DSLR-Kamera und einem hochwertigen terrestrischen Laserscanner. Die Bildpaare sind in zwei verschiedenen Größen erhältlich, nämlich als HD-Version mit einer Auflösung von 1500 × 1000 px und als VGA-Version mit einer Auflösung von 640 × 480 px sowohl für RGB- als auch für Tiefenkarten. Beachten Sie, dass die VGA-Version mit dem beliebten NYU-v2-Datensatz kompatibel ist und dass die niedrig aufgelösten Tiefenkarten direkt aus der Punktwolke berechnet werden und nicht nur aus der HD-Version heruntergerechnet werden.
Darüber hinaus werden Pixelmasken für transparente und ungültige Tiefenbereiche, beschreibende ebene Regionen (für drei verschiedene Kategorien: Wände, Böden, Tische) und Masken für eindeutige Tiefenübergänge bereitgestellt.
Spezifikationen
Anzahl der RGB-D-Bildpaare: 100
Auflösung (hoch): 1500 × 1000 px
Auflösung (niedrig): 640 × 480 px
Tiefenbereich: 0.1m – 50m
Ebenenmasken: 244 (Wand: 140, Tisch: 53, Boden: 51)
Erweiterungen
Um die Robustheit von Einzelbild-Tiefenschätzungsmethoden in Bezug auf einfache geometrische und farbliche Transformationen und Rauschen zu bewerten, haben wir einen Satz von erweiterten Bildern aus unserem iBims-1-Kerndatensatz abgeleitet.
Die Erweiterungen umfassen horizontales und vertikales Spiegeln sowie das Vertauschen von Bildkanälen, das Dehnen von Histogrammen, Änderungen von Farbton und Sättigung, Unschärfe und das Hinzufügen von Rauschen zu den Bildern.
Dieser Datensatz umfasst zusätzliche handgehaltene Bilder für viele Szenen des iBims-1-Kerndatensatzes mit Blickpunktveränderungen gegenüber den Referenzbildern, was die Validierung von Multiview-Stereo-Algorithmen mit hochwertigen Ground-Truth-Tiefenkarten ermöglicht.
Dieser Satz zusätzlicher Bilder enthält Sonderfälle, von denen erwartet wird, dass sie Einzelbild-Tiefenschätzungsmethoden in die Irre führen. Diese zeigen gedruckte Muster aus dem NYU-v2-Datensatz und gedruckte schwarz-weiße Muster aus dem Pattern-Datensatz, die an einer Wand hängen. Diese sollen wertvolle Erkenntnisse liefern, da sie zeigen, welche Art von Bildmerkmalen Einzelbild-Tiefenschätzungsmethoden ausnutzen. Für diese Bilder werden keine Tiefenkarten bereitgestellt, da der interessierende Bereich annähernd planar sein sollte und Tiefenschätzungen daher leicht qualitativ zu beurteilen sind.
Format und Download
Der Datensatz sowie weitere Informationen stehen auf MediaTUM zum Download (Web, FTP) bereit.
Referenzen
Wenn dieser Datensatz für Ihre Forschung nützlich ist, ziehen Sie bitte in Betracht, unsere veröffentlichten Arbeiten zu zitieren.