GunBound
Rote Sternrenette
- Registriert
- 23.06.05
- Beiträge
- 6.074
@jack_pott: iNaturalist z.B. bietet die Möglichkeit: bei Anzeige der Infos eines "Records" auf die Sprechblase tippen, dann kommt ein Knopf "Suggest ID".
Pl@ntNet bietet die Option, Bilder zu validieren; kommt bei mir direkt auf der Startseite des Apps. Flora Incognita habe ich noch nicht ausprobiert.
Grundsätzlich sind exakte Bestimmungen natürlich ideal für Machine Learning. Bei den Grössenordnungen heutiger Modelle kriegt man jedoch kaum mehr 100% verifizierte Datensätze zusammen. Vor zehn Jahren war ImageNet der Standard; der davon abgeleitete Datensatz zum Modelltraining davon besteht aus ungefähr einer Million Bilder und 1000 Kategorien aller Art. Heutige Modelle werden teilweise auf bis zu einer Billion* an Beispielen trainiert; diese können unmöglich alle verifiziert werden. Das macht in der Praxis jedoch nicht allzu viele Probleme, solange die Mehrheit der Datenpunkte korrekt ist: einerseits wirken "falsche" Beispiele auch ein wenig als Regulator (ein Modell kann auch auf einen Datensatz überoptimiert werden), andererseits gibt's explizite Methoden, um mit fehlerhaften Daten ("label noise") umgehen zu können.
*das ist momentan der Extremfall und bezieht sich vor allem auf sog. "Large Language Models" wie Dall•E 2 und Imagen. Modelle zur Artenerkennung werden nach wie vor in der Grössenordnung von ein paar Millionen Bildern trainiert.
Pl@ntNet bietet die Option, Bilder zu validieren; kommt bei mir direkt auf der Startseite des Apps. Flora Incognita habe ich noch nicht ausprobiert.
Grundsätzlich sind exakte Bestimmungen natürlich ideal für Machine Learning. Bei den Grössenordnungen heutiger Modelle kriegt man jedoch kaum mehr 100% verifizierte Datensätze zusammen. Vor zehn Jahren war ImageNet der Standard; der davon abgeleitete Datensatz zum Modelltraining davon besteht aus ungefähr einer Million Bilder und 1000 Kategorien aller Art. Heutige Modelle werden teilweise auf bis zu einer Billion* an Beispielen trainiert; diese können unmöglich alle verifiziert werden. Das macht in der Praxis jedoch nicht allzu viele Probleme, solange die Mehrheit der Datenpunkte korrekt ist: einerseits wirken "falsche" Beispiele auch ein wenig als Regulator (ein Modell kann auch auf einen Datensatz überoptimiert werden), andererseits gibt's explizite Methoden, um mit fehlerhaften Daten ("label noise") umgehen zu können.
*das ist momentan der Extremfall und bezieht sich vor allem auf sog. "Large Language Models" wie Dall•E 2 und Imagen. Modelle zur Artenerkennung werden nach wie vor in der Grössenordnung von ein paar Millionen Bildern trainiert.