.csv Datei einlesen, analysieren und bearbeitet abspeichern.

Dade

HI Leute,
ich bin seit Tagen verzweifelt auf der Suche nach einer Möglichkeit, wie ich viele .csv - Dateien einlesen, einzelne Felder analysieren und alles dann als eine weitere Zeile in nur einer Excel Datei speichern kann.

Ich versuchte bereits Delphi zu lernen, da ich früher als Teenager mit Pascal programmierte, aber es hat sich doch sehr viel getan.

Ich hoffe sehr, dass ihr mir helfen könnt. Das wäre absolut toll.

Ich erkläre kurz worum es geht:
Ich bin an einem Projekt und nutze ein Programm, mit dem man Bilder ausmessen und Zellen zählen kann. Diese Ergebnisse werden mir als .csv - Datei ausgegeben. Insgesamt komme ich bestimmt am Ende auf über 1500 Dateien.
Diese sehen so aus:

--------------------
Annotations;;

Name;Perimeter (µm);Area (µm2)

LK_1_1_F_1;835,4;48705,5

LK_1_1_F_2;1142,7;93813,4

[.....ca. 20 Zeilen........]

LK_1_3;14272,3;7956108,4

;;

Distance measurement annotations;;

Length (µm);;

5,15;;

3,22;;

---------------------------------

Im Endeffekt müssen nun die Zahlen in bestimmter Art und Weise in der Excel Tabelle später stehen. Zusätzlich muss in der 1. Spalte jeweils der csv-Dateiname erscheinen (ist nämlich die Nummer) + die Angabe: LK_1_1_f_2 (als Beispiel von oben) analysiert werden nach "wie oft taucht "F" auf. Für jede .csv - Datei müssen die addiert und dann auch in einer Spalte stehen.

Ich habe hier vorher - Nachher + Erläuterungen hochgeladen:

https://www.dropbox.com/sh/blbndn594...t68a?dl=0&s=sl

Alleine schaffe ich das nicht.

Gruß
Kai

**Dade**

Zitat von Bjoerk:

Das versteht so leider ein NichtMediziner nicht? Du müsstest etwas näher erläutern wie die Ergebnisse zustande kommen sollen, zum Beispiel an Hand der Datei die du gepostet hast.

HI Bjoerk,
was genau meinst du? Was für Informationen brauchst du noch?

Also auf Dropbox gibt es eine Excel - Datei, die zeigen soll, wie das Ergebnis ungefähr auszusehen hat, damit sie weiter verarbeitet werden kann.

Die Reihenfolge der Spalten ist völlig egal !!! Solange die genannten Aufgaben des Tools erfüllt werden ist alles super. Den Rest kann man immer noch per Hand machen.

**Bjoerk**

Es gibt zwei Abschnitte (Annotations):

markieren

Code:

Name;Perimeter;Area

und

markieren

Code:

Length (µm);;

Ist das in jeder Datei so?

Im 1. Abscnitt gibt es Kürzel zum Beispiel

markieren

Code:

			LK_1_1_F_1

LK_1_1_K_9_R

Metastase_LK_1_2

Was sagen die aus? Nach welchen Indices wurden die erstellt und wie sollen die verrechnet werden? Da soll doch wahrscheinlich was aufsummiert werden? Nach welcher Formel? Welche LK gehören zusammen? Und wie soll Metastase_LK berücksichtigt werden?

Was soll mit den Daten aus dem 2. Abschnitt passieren?

**Dade**

Zitat von Bjoerk:

Es gibt zwei Abschatte (Annotations):

markieren

Code:

Name;Perimeter;Area

und

markieren

Code:

Length (µm);;

Ist das in jeder Datei so?

Ne, es gibt leider auch Dateien ohne diesen Wert. Leider...

Hier ein Haufen Beispieldateien: Hier noch ein paar Quelldateien:

https://www.dropbox.com/sh/v9bfyh9iz...Fs3a?dl=0&s=sl

Zitat:

Im 1. Abscnitt gibt es Kürzel zum Beispiel

markieren

Code:

			LK_1_1_F_1

LK_1_1_K_9_R

Metastase_LK_1_2

Was sagen die aus? Nach welchen Indices wurden die erstellt und wie sollen die verrechnet werden? Da soll doch wahrscheinlich was aufsummiert werden? Nach welcher Formel?

LK = Lymphknoten
LK_1_1 = Lymphknoten 1.1 (Gibt auch 1.2, 1.3, ... und vielleicht auch 2.1 , 2.2, 2.3 (kommt auf die Zellschnitte an.)
LK_1_1_F_1 = Lymphknoten 1.1 und 1x Follikel
Metastase_LK_1_2 = Metastase im Lymphknoten 1.2 (das muss nur in einer Spalte mit 0/1 (nein/ja) eingesetzt werden, wenn es z.B. LK_1_1 und Metastase_LK_1_1 gleichzeitig gibt.

Hier ist eine Erläuterung, wie man überhaupt auf die Daten kommt:

https://www.dropbox.com/s/7tsu0kzft6...docx?dl=0&s=sl

Mit Summe meine ich einfach:

Wenn:
LK_1_F_1.........10002...3423
LK_1_F_2..........4234....22
LK_1_F_3...........23,2...12,1

Dann wird das in der Spalte "F" (Follikel) zu "3" summiert.
Dann wird jedoch noch drei Spalten gebraucht, in der alle LK_X_F_X, Wert1, Wert2 stehen.

Ich weiß das ist sehr kompliziert, daher die EXCEL Datei (unter Beispiele), wo immer unten drunter steht, wo die Daten herkommen. Ich verstehe aber total, warum das nicht so einfach ist.

Zitat:

Was soll mit den Daten aus dem 2. Abschnitt passieren?

2. Abschnitt? Meinst du die zweite Wertezeile?

Die soll einfach jeweils, wie ich schrieb: Werte mit dazu gepackt werden.

- Die Bearbeiteten Daten jeder .csv - Datei kommt in eine neue Zeile (Daten können aber mehrere Zeilen beanspruchen)

- Der Dateiname soll in der 1. Spalte stehen

( X kann Werte von: 1-20 annehmen)

- [LK_X_X] + Spalte mit Werten (LK_1_1, LK_1_2, ... stehen in einer Spalte )

- [LK_X_X] + passende [Metastase_LK_X_X] = Extraspalte: 1
- [LK_X_X] + keine passende [Metastase_LK_X_X] = Extraspalte: 0

(Metastase_LK_1_1 , Metastase_LK_1_2, Metastase_LK_1_3)

- Dahinter Summe aller [LK_X_X_F] + Extraspalte mit den Einzelnamen (LK_1_1_F usw. Z.B. 16, wenn es LK_1_1_K_1 .... LK_1_1_K_16 in der Quelldatei steht.)

- Summe aus [LK_X_X_K] + Extraspalte mit den Einzelnamen (LK_1_1_K)

- Summe aus [LK_X_X_K_X_R] + Extraspalte mit den Einzelnamen (LK_1_1_K_1_R)

- Summe aus [LK_X_X_NK] + Extraspalte mit den Einzelnamen + Extraspalten mit entsprechenden Werten (LK_1_1_NK)

Zitat von Bjoerk:

Es gibt zwei Abschatte (Annotations):

markieren

Code:

Name;Perimeter;Area

und

markieren

Code:

Length (µm);;

Ist das in jeder Datei so?

ABER: Wenn die Daten anders vorliegen sollen, oder immer an der gleichen Stelle ein "Name;Perimeter;Area und Length stehen soll, dann sage ich das meinem Kumpel. Dann muss er sich halt hinsetzen und diese Stellen mit 00000 füllen.

Vielen Dank für die Hilfe

@Dade

1.) Du arbeitest sehr kontraproduktiv (für dich).

Man muss dir alles aus der Nase ziehen. Bis man endlich weiß was du haben willst sind entweder a.) Tage vergangen oder b.) man hat die Lust verloren.

2.) Du tust wenig um die Arbeit zu beschleunigen oder zu vereinfachen.

Betrachte mal die TAG-Buttons oben über dem Textfeld. Da hätten wir zuerst die Grundformatierungsfunktionen wie Fett, Kursiv, Unterstrichen. Dann die Ausrichtung der Zeile. Dann gibt es die geordnete wie auch die ungeordnete Liste, sowie Einzug.

Gehen wir weiter, denn nun wird es interessant: wir haben das ein Zitat-Tag-Button. Damit können wir einen Textbereich schnell und leicht als Zitat anzeigen. Wunderbar ist auch der Code-Tag. Der sorgt dafür, dass Daten mit gleicher Buchstabenbreite angezeigt werden. Für Daten wie du sie hier ständig lieferst geradezu prädestiniert. Und natürlich der Delphi-Tag. Etwas höher gibt es da noch eine Schriftgröße und sogar Farben.

Hättest du dich fünf Minuten hingesetzt und dein Problem anschaulich gepostet, vermutlich hätten mehr Leute auf deine Problem eingegangen. Aber du kopierst Textbereiche und klatscht sie einfach hier unformatiert und unkommentiert rein. Wer will soll bitte fragen.

3.) Wer ist es der hier ein Problem gelöst haben will? Du oder die Anderen?

Wenn du etwas willst, dann solltest du schnell lernen, dass wenn andere sich die Zeit nehmen, auch die etwas Zeit investieren solltest. Mit der Zeit meine ich, dass es in deinem Interesse liegt wenn man dein Problem versteht.

Denn so wie es aussieht ist es ein simpler Parser den du brauchst. Das ist in einer halben Stunde programmiert. Aber du hast dich entschlossen mit dein Problem mit Minimalaufwand zu lösen. Das beste Beispiel ist, dass deine Anleidung

Zitat:

Quelldateien und Ziel - EXCEL Tabelle befinden sich hier: (unter Beispiel)
...

Nichtssagend ist. Man versteht sie erst nur wenn man weiß um welche Buchsteben es geht. In der Dockdatei, die man erst herunterladen muss und was viele garantiert nie machen werden, sind die Buchstaben fett markiert. Was du gepostet hast ist die Bits nicht wert. Man versteht die Aufgabe nicht ohne die Originaldatei zu lesen. Du hättest aber genauso einfach den Test als Zitat formatiert anbieten können. Beispiel:

Zitat:

Fallnummer Lymphknoten: Dies ist der Name der Csv Datei, z.B LU 39893_12_1A

Lymphknotennummer: Dies ist die LK Nummer der verschiedenen LK’s in einer einzelnen Csv, bsp. LK_1_1 oder LK_1_2 bzw. LK_1, LK_2 oder LK_3 dies variiert in jeder Datei. Dies hängt davon ab ob von einem LK mehrere Schnitte (LK_1_1 oder LK_1_2) auf einem Objektträger oder verschiedene LK’s (LK_1, LK_2 oder LK_3) fixiert sind.

Anzahl der Follikel: Dies ist die Summe der Follikel in LK_1 bzw. LK_1_1. Die Follikel sind gekennzeichnet als LK_1_1_F _1

Keimzentren vorhanden ja=1, nein=0: Keimzentren sind als LK_1_K_ gekennzeichnet

...

Aber du macht dir keine Arbeit, warum sollte sich jemand anders die Arbeit machen?

**Bjoerk**

OK. Sorry Bud, aber das ist mir für lau echt zu aufwendig. Normalerweise fragt man hier im Forum eher <wie soll ich dies oder das machen> und nicht <kann das jemand für mich erledigen>? Ich selbst nehme keine Projekte an aber vielleicht stellt dein Kumpel hier mal eine Anfrage rein. Wird sich bestimmt jemand finden der es gegen Bezahlung übernimmt? Unter Umstanden wäre es auch einfacher die Daten mit einem Makro nach SPSS zu importieren.

LG
Thomas

**p80286**

Bisher habe ich nur mitgelesen, aber langsam schwillt mir der Hals.
a) es gibt mehrere .CSV Dateien, die drei Spalten enthalten. Jede Spalte enthält Daten zu einem spezifischen Sachverhalt
b) es gibt mehrere .CSV Dateien, die eine unterschiedliche Anzahl Spalten enthalten, wobei die Anzahl Spalten jeweils mit gleichen Inhalten korrespondieren.
c) es gibt mehrere .CSV Dateien, die eine unterschiedliche Anzahl Spalten mit unterschiedlichen Sachverhalten enthalten.

a) Füge eine Spalte mit dem Dateinamen ein, fertig.
b) trenne die Daten nach Sachverhalt auf und füge jeweils eine Spalte mit dem Dateinamen ein.
c) 42

Was ich bisher gelesen habe, scheint sehr für c) zu sprechen. der erste Schritt wäre es, zunächst einmal die vorliegenden Daten in eine "Normalform" zu bringen.

Gruß
K-H

**Dade**

Zitat von Popov:

@Dade

1.) Du arbeitest sehr kontraproduktiv (für dich).

Man muss dir alles aus der Nase ziehen. Bis man endlich weiß was du haben willst sind entweder a.) Tage vergangen oder b.) man hat die Lust verloren.

Das tut mir leid. Dies liegt aber auch sehr daran, dass ich selbst mit der Komplexität hadere. Ich werde es versuchen besser zu machen.

Zitat:

2.) Du tust wenig um die Arbeit zu beschleunigen oder zu vereinfachen.

Betrachte mal die TAG-Buttons oben über dem Textfeld. Da hätten wir zuerst die Grundformatierungsfunktionen wie Fett, Kursiv, Unterstrichen. Dann die Ausrichtung der Zeile. Dann gibt es die geordnete wie auch die ungeordnete Liste, sowie Einzug.

Gehen wir weiter, denn nun wird es interessant: wir haben das ein Zitat-Tag-Button. Damit können wir einen Textbereich schnell und leicht als Zitat anzeigen. Wunderbar ist auch der Code-Tag. Der sorgt dafür, dass Daten mit gleicher Buchstabenbreite angezeigt werden. Für Daten wie du sie hier ständig lieferst geradezu prädestiniert. Und natürlich der Delphi-Tag. Etwas höher gibt es da noch eine Schriftgröße und sogar Farben.

Hättest du dich fünf Minuten hingesetzt und dein Problem anschaulich gepostet, vermutlich hätten mehr Leute auf deine Problem eingegangen. Aber du kopierst Textbereiche und klatscht sie einfach hier unformatiert und unkommentiert rein. Wer will soll bitte fragen.

Da hast du absolut Recht. Wenn ich ehrlich bin, dann muss ich gestehen, dass ich mich noch nie in Foren mit einer Textformatierung beschäftigt habe. Ich werde aber mein Problem versuchen anschaulich zu präsentieren.

Zitat:

3.) Wer ist es der hier ein Problem gelöst haben will? Du oder die Anderen?

Wenn du etwas willst, dann solltest du schnell lernen, dass wenn andere sich die Zeit nehmen, auch die etwas Zeit investieren solltest. Mit der Zeit meine ich, dass es in deinem Interesse liegt wenn man dein Problem versteht.

Denn so wie es aussieht ist es ein simpler Parser den du brauchst. Das ist in einer halben Stunde programmiert. Aber du hast dich entschlossen mit dein Problem mit Minimalaufwand zu lösen. Das beste Beispiel ist, dass deine Anleidung

Zitat:

Quelldateien und Ziel - EXCEL Tabelle befinden sich hier: (unter Beispiel)
...

Nichtssagend ist. Man versteht sie erst nur wenn man weiß um welche Buchsteben es geht. In der Dockdatei, die man erst herunterladen muss und was viele garantiert nie machen werden, sind die Buchstaben fett markiert. Was du gepostet hast ist die Bits nicht wert. Man versteht die Aufgabe nicht ohne die Originaldatei zu lesen. Du hättest aber genauso einfach den Test als Zitat formatiert anbieten können. Beispiel:

Zitat:

Fallnummer Lymphknoten: Dies ist der Name der Csv Datei, z.B LU 39893_12_1A

Lymphknotennummer: Dies ist die LK Nummer der verschiedenen LK’s in einer einzelnen Csv, bsp. LK_1_1 oder LK_1_2 bzw. LK_1, LK_2 oder LK_3 dies variiert in jeder Datei. Dies hängt davon ab ob von einem LK mehrere Schnitte (LK_1_1 oder LK_1_2) auf einem Objektträger oder verschiedene LK’s (LK_1, LK_2 oder LK_3) fixiert sind.

Anzahl der Follikel: Dies ist die Summe der Follikel in LK_1 bzw. LK_1_1. Die Follikel sind gekennzeichnet als LK_1_1_F _1

Keimzentren vorhanden ja=1, nein=0: Keimzentren sind als LK_1_K_ gekennzeichnet

...

Aber du macht dir keine Arbeit, warum sollte sich jemand anders die Arbeit machen?

[/QUOTE]

Ich hatte gedacht es wäre viel zu unübersichtlich, wenn ich die komplette Ziel - Excel - Datei hier poste. Auch habe ich versucht die Schritte in eigenen Worten darzustellen. Ich werde im folgenden Versuchen den Sachverhalt (mit viel Mühe) darzustellen. Ist ist aber echt kompliziert, wie ich finde, das macht es so schon schwer. Daher bitte ich um Nachsicht.

Also noch einmal komplett:

Für ein Projekt muss ich ca. 1500 csv - Dateien verarbeiten. Diese wurden mit einem Spezialprogramm erstellt und sind im Aufbau festgelegt.

Sie sollen Analysiert und in anderer Form als EXCEL Tabelle gespeichert werden.
Alleine schaffe ich das nicht, da ich Anfänger bin, aber das Projekt zeitnah schaffen muss. Per Hand ist das leider aussichtslos.

Hier ein paar Infos:

- Ursprungsdatei enthält immer drei Spalten

- Alle drei Spalten sind unterschiedlich lang

1. Zeile
- in der 1. Spalte/1. Zeile steht immer: Annotations

2. Zeile
- in der 1. Spalte/2. Zeile steht immer: Name, in der 2. Spalte/2. Zeile steht immer:Perimeter (Âµm), in der 3. Spalte/2. Zeile steht immer: Area (Âµm2)

3. Zeile
- ab der 3. Zeile beginnen die eigentlichen Daten

- Die 3. Zeile/ 1. Spalte enthält Buchstaben/Zahlen Kombinationen, die das Vorhandensein verschiedener Körperzellen kodieren.

Diese Werte können Vorkommen:

( X kann Werte von: 1-20 annehmen)

[LK_X] z.B. LK_1, LK_2 Dies ist der Lymphknoten_1

[LK_X_X] z.B. LK_1_1, LK_1_2 Dies ist der Lymphknoten Nr. 1_1

[LK_X_X_X] z.B. LK_1_1, LK_1_2 Dies ist der Lymphknoten Nr. 1_1

[LK_X_F] z.B. LK_1_F Dies ist der entsprechende Follikel

[LK_X_X_F] z.B. LK_1_1_F Follikel des Lymphknoten_1_1

[LK_X_X_X_F] z.B. LK_1_1_F Follikel des Lymphknoten_1_1

[LK_X_K_X] z.B. LK_1_K Keimzentrum des Lymphknotens

[LK_X_X_K_X] z.B. LK_1_1_K Keimzentrum des Lymphknotens

[LK_X_X_X_K_X] z.B. LK_1_1_1_K Keimzentrum des Lymphknotens

[LK_X__K_R] z.B. LK_1_R_1 Lymphknoten mit regressiven, hyalinisierten Keimzentren (RHK)

[LK_X_X_K_R] z.B. LK_1_1_R_1 Lymphknoten mit regressiven, hyalinisierten Keimzentren (RHK)

[LK_X_X_X_K_R] z.B. LK_1_1_1_R_1 Lymphknoten mit regressiven, hyalinisierten Keimzentren (RHK)

[Metastase_LK_X] z.B. Metastase_LK_1 Lymphknoten_1 enthält Metastase

[Metastase_LK_X_X] z.B. Metastase_LK_1_1 Lymphknoten_1_1 enthält Metastase

[Metastase_LK_X_X_X] z.B. Metastase_LK_1_1_1 Lymphknoten_1_1_1 enthält Metastase

Nennen wir diese Spaltenwerte VARIABLE: VarLymph

3. Zeile/2. Spalte: (3z/1s) Perimeter (Âµm) VarUmfang
3. Zeile/3. Spalte: (3z/3s) Area (Âµm2) VarFläche

Bearbeitungsprozess der Daten und Abspeichern als EXCEL Tabelle
Jeweils soll pro .csv - Quelldatei ein Block von LK_X, darunter LK_X_X, darunter LK_X_X_X entstehen. Passend dazu soll jeweils der LK_X_F, darunter LK_X_X_F, darunter LK_X_X_X_F stehen. Passend dazu in einer anderen Spalte: LK_X_R_X, LK_X_X_R_X, darunter LK_X_X_X_R_X

Jeder Lymphknoten hat eine feste Nummer. (z.B. LK_1_1). Korrespondierend soll in der identischen Zeile auch LK_1_1_F und LK_1_1_K_X stehen.

1. Spalte: Fallnummer Lymphknoten: Dateiname
2. Spalte: Lymphknotennummer: Inhalt: "VarLymph" (untereinander), wenn Lk_X
3. Spalte: Follikelnummer: Inhalt: "VarLymph" (untereinander) alle Lk_X_F / LK_X_X_F / LK_X_X_X_F

5. Spalte: Umfang Follikel: Inhalt VarUmfang
6. Spalte: Fläche Follikel: Inhalt VarFläche

4. Spalte: Anzahl der Follikel: Auftrittsanzahl der Lymphknoten mit Follikeln (alle Lk_X_F / LK_X_X_F / LK_X_X_X_F
5. Spalte: Keimzentren vorhanden ja=1, nein=0: Wenn irgend ein LK_X_K, LK_X_X_K, LK_X_X_X_K -> ja, sonst nein
6. Spalte: Anzahl der Keimzentren: Auftrittsanzahl der Lymphknoten mit Keimzenren (alle Lk_X_K / LK_X_X_K / LK_X_X_X_K)
7. Spalte: Anzahl der regressiven, hyalinisierten Keimzentren (RHK): Auftrittsanzahl der Lymphknoten mit RHK (alle Lk_X_K_R / LK_X_X_K_R / LK_X_X_X_K_R)
8. Spalte: Metastase: Alle VarLymph mit "Metastase" im Namen: Metastase_LK_X, Metastase_LK_X_X

9. Spalte: Umfang Metastase: Umfang der Metastase VarUmfang
10. Spalte: Fläche Metastase: Fläche der Metastase VarFläche

11. Spalte: Follikelnummer: Alle VarLymph mit F im Namen, wie LK_X_F, LK_X_X_F, LK_X_X_X_F

12. Spalte: Umfang Follikel: Umfang Follikel VarUmfang
13. Spalte: Fläche Follikel: Fläche Follikel VarFläche

14. Spalte: Keimzentrumsnummer: Alle VarLymph mit F im Namen, wie LK_X_K, LK_X_X_K, LK_X_X_X_K, LK_X_K_R, LK_X_X_K_R, LK_X_X_X_K_R

15. Spalte: Umfang Keimzentrum: Umfang Keimzentrum VarUmfang
16. Spalte: Fläche Keimzentrum: Fläche KeimzentrumVarFläche

Hier sind Beispieldateien: Quell -> Ziel - Beispiele

https://www.dropbox.com/sh/blbndn594...t68a?dl=0&s=sl

Das müsste es sein. Ich hoffe sehr, dass es verständlich ist. Was meint ihr?

**mschaefer**

Moin zusammen,

Ja könnte man was mit Delphi stricken. Kleines Frontend mit Sqlite als Datenbank. Import in DBGrid. Etwas SQL und das ganze wieder in csv speichern. Man sollte es aber besser lassen, denn als nächste Aufgabe kommt mit an signifikanter Wahrscheinlichkeit die statistische Auswertung der Daten dran. Dann kann man es auch gleich sturmfest machen. Das ist eine typische Aufgabe für SAS, R, SPSS und Co. Da ich neben Delphi, SAS als mein Steckenpferd betrachte einige Hinweise dazu:

Download der SAS University Edition

SAS-Skript der LMU

Dann etwas in proc Import, Data-Step, proc sort und proc Export einlesen, eventuell Makro.
Noch geht die Aufgabenstellung hier locker mit Pascal, aber spätestens wenn es an die Statistik geht programmiert man sich einen "Wolf".

Grüße aus der Stadt an der Leine // Martin

**Dade**

Keine Sorge, die Statistik macht ein Statistiker, der die Daten sortiert bekommen möchte.

Martin, du scheinst echt Ahnung zu haben. Das finde ich sehr beeindruckend. Ich bin leider seit Pascal -damals- völlig raus aus dem Programmieren. Jetzt natürlich von Nachteil....daher bin ich auf Profis angewiesen.

Danke für die Tipps zu SAS. Sieht interessant aus, aber macht auf mich den Eindruck eines Statistikprogramms.

**jobo**

Zitat von Dade:

Das müsste es sein. Ich hoffe sehr, dass es verständlich ist. Was meint ihr?

Dade, leider hast Du noch nicht verraten, warum das alles auf Dropbox bereitgestellt wird. Es wurde schon angemerkt, dass die Bereitschaft der Forenmitglieder dort rumzustöbern relativ gering sein dürfte. Aber das nur am Rande.

Was ich an der gesamten Anforderung nicht verstehe, ist die Maßgabe, csv Dateien in Exceldateien zu "konvertieren", damit sie mittels irgendeines Statistikprogramms untersucht / aufbereitet werden können. Was aber das "Ergebnis" des "Imports" hier scheinbar darstellt, ist bereits eine (erhebliche) Aufbereitung bzw. Auswertung der CSV Rohdaten!
Ist es so oder sehe ich das falsch?
Wenn es so ist, würde das bedeuten, dass die wissenschaftliche Arbeit auf Daten aufsetzt, die mittels der Handarbeit irgendeines Hiwis oder Forenmitglieds vorverarbeitet wurden, um es mal wertneutral auszudrücken. Es würde außerdem bedeuten, dass hier nicht von einem Import/Export die Rede ist, sondern von Datenverarbeitung bzw. Reporting, das vom Ansatz her nicht unbedingt geeignet ist, per prozeduraler Sprache umgesetzt zu werden. Was dann auch teilweise die "Komplexität" des Problems und Verwirrung allerseits erklären würde.
Vielleicht kannst Du das gedachte Vorgehen noch einmal verdeutlichen, nicht Quell und Zielformat.

Ich stelle mir das so vor (hab noch keine Doktorarbeit geschrieben):
Irgendeine arme Wurst produziert mittels Point and Click Messdaten aus tausenden von Bildern.
Das Programm spukt die Messdaten (Rohdaten) in einem etwas unpraktischen Format aus.
Alle Messdatendateien müssen nun eingelesen werden und den Dateinamen als Datenmerkmal erhalten.
Die Gesamtdaten müssen nun statistisch, wissenschaftlich aufbereitet und untersucht werden.
Dazu wird ein Statistikprogramm verwendet, das scheinbar nur Exceldaten lesen kann.
Die Aufbereitung der Daten (Plausibilisierung, Bereinigung, Analyse, Statistik) erfolgt in dem Statistikprogramm durch den Doktoranden oder einen wissenschaftlichen Mitarbeiter.

Die Aufgabe hier würde also lauten:
1500 CSV Dateien um den Dateinamen anreichern als Merkmal anreichern und zu einer Excelliste zusammenfassen.
Fertig.

Was meinst Du?

.csv Datei einlesen, analysieren und bearbeitet abspeichern.

Forumregeln