Einige Browser zeigen bei einem HTTP-ErrorCode eine Fehlerseite an.
Andere Browser zeigen die Seite mit dem StatusCode nur an, wenn es keinen Kontent gibt.
Jetzt könnte man als WebEntwickler gemein sein (oder doof) und trotz ausgabe eines Contents dennoch als Status 404 zurück geben.
Es kann aber auch sein, dass die Webseite (HTTP Header/JavaScript/...) eine Erkennung für Browser hat und je nach Browser.Model/Version ein bissl was anderes macht.
Sowas kann sogar direkt im WebServer und nicht erst clientseitig sein, also Anhand der Browser-Kennung im Request-Header.
Außerdem wird der gesamte "Inhalt" der genannten Webseite via JavaScript nachgeladen.
Dein Download verarbeitet kein JavaScript, also bleibt da so oder so nur eine nutzlose
HTML-Struktur übrig, selbst wenn du das 404-Problem behebst.
Einzige "richtige" Lösung wäre z.B. eine zugängliche REST-
API des Seitenbetreibers.
Außerdem glaube ich kaum, dass der Seitenbetreiber das Runterladen, Parsen und Auslesen der Webseiten erlaubt.