- Registriert
- 16.04.05
- Beiträge
- 820
Ich versuche gerade, aus Texten irrelevante Worte rauszuziehen.
Dazu hab ich zwei Arrays gefunden mit deutschen und engl. "Stoppwörtern":
Weiters will ich dann die Wörter rausschmeißen:
Komisch nur, dass er nicht alle rausschmeißt. Da handelt es sich auch nicht um bestimmte örter, die er komplett drin lässt, sondern er schmeißt z.B. ein Paar "dann" raus und ein Paar lässt er drin.
Vielleicht kann mir jemand sagen, wo der Fehler liegt.
Dazu hab ich zwei Arrays gefunden mit deutschen und engl. "Stoppwörtern":
Code:
// [...]
$stopwords["de"][] = "dazu";
$stopwords["de"][] = "dem";
$stopwords["de"][] = "den";
$stopwords["de"][] = "denn";
// [...]
Weiters will ich dann die Wörter rausschmeißen:
Code:
$Search[] = "=(\s[A-Za-z]{1,2})\s=";
$Search[] = "= " . implode(" | ", $stopwords["de"]) . " =i";
$Search[] = "= " . implode(" | ", $stopwords["en"]) . " =i";
$Search[] = "= +=";
$Replace[] = " ";
$Replace[] = " ";
$Replace[] = " ";
$Replace[] = " ";
$String = " " . str_replace(" ", " ", $String) . " ";
$String = trim(preg_replace($Search, $Replace, $String));
Komisch nur, dass er nicht alle rausschmeißt. Da handelt es sich auch nicht um bestimmte örter, die er komplett drin lässt, sondern er schmeißt z.B. ein Paar "dann" raus und ein Paar lässt er drin.
Vielleicht kann mir jemand sagen, wo der Fehler liegt.