Das Problem kann ganz schnell sehr kompliziert werden, da solltest du dich unbedingt einschränken! Das sieht mir nach einer Masterarbeit im Bereich information retrieval aus ^^
Entweder du beschränkst dich auf die Domain z.B. bestimmte Foren, Blogs wo Content vom Unternehmen liegt oder du erstellst dir Keywords die immer in diesem Content vorkommen und benutzt eine kostenlose Suchmaschine (z.B. Suche nach: "Produktname Produktfunktion").
Für das sammeln der Informationen benutzt du einen Crawler, z.B.
Abot.
Ich denke mal es geht in die Richtung mit der kostenlosen Suchmaschine. Hier ist die Schwierigkeit Inhalte aus dem
HTML Code der verschiedenen Quellen auszulesen, die allesamt anders formatiert/aufgebaut sind.
Wie du die Datenbank aufbaust hat nahpets ja schon beschrieben.