-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathdata_preprocessing.js
More file actions
80 lines (63 loc) · 2.85 KB
/
data_preprocessing.js
File metadata and controls
80 lines (63 loc) · 2.85 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
// Funktion zur Entfernung von HTML-Tags
function removeHTMLTags(text) {
if (!text) return ""; // Falls der Text leer oder undefined ist, gib einen leeren String zurück
return text.replace(/<\/?[^>]+(>|$)/g, "").trim(); // Entfernt HTML-Tags
}
// Funktion zur Vorverarbeitung des Textes
export const preprocessText = (text) => {
if (!text) return []; // Falls der Text leer oder undefined ist, gib ein leeres Array zurück
// Wandelt in Kleinbuchstaben um und entfernt HTML-Tags
text = text.toLowerCase();
text = removeHTMLTags(text);
// Entfernt alle Sonderzeichen und Zahlen (lässt nur Buchstaben und Leerzeichen übrig)
text = text.replace(/[^a-zA-ZäöüßÄÖÜ\s]/g, '');
const tokens = text.split(/\s+/); // Zerlegt in Tokens (Wörter)
return tokens;
};
// Funktion zum Erstellen des Vokabulars (Wörter und deren IDs)
export const createVocabulary = (articles) => {
const vocab = new Set();
articles.forEach(article => {
// Überprüfen, ob der Body des Artikels existiert und nicht leer ist
if (article.Body) {
const tokens = preprocessText(article.Body); // Vorverarbeite Text
tokens.forEach(token => vocab.add(token)); // Füge Tokens zum Set hinzu
}
});
const wordToId = Array.from(vocab).reduce((acc, word, idx) => {
acc[word] = idx; // Weise jedem Wort eine ID zu
return acc;
}, {});
return wordToId;
};
export const createSequences = (articles, sequenceLength, wordToId) => {
const sequences = [];
articles.forEach(article => {
// Überprüfen, ob der Body des Artikels existiert und nicht leer ist
if (article.Body) {
const tokens = preprocessText(article.Body); // Vorverarbeite Text
for (let i = 0; i < tokens.length - sequenceLength; i++) {
const sequence = tokens.slice(i, i + sequenceLength); // Eingabesequenz
const target = tokens[i + sequenceLength]; // Zielwort
const inputIds = sequence.map(word => wordToId[word]); // Konvertiere Wörter in IDs
const targetId = wordToId[target]; // Konvertiere Zielwort in ID
sequences.push({ input: inputIds, target: targetId });
}
}
});
return sequences;
};
// Lade Artikel aus der CSV
Papa.parse('./Articles.csv', {
download: true,
header: true,
complete: function(results) {
// Verarbeite alle Artikel, aber gib nur die ersten 10 zur Überprüfung aus
const allArticles = results.data;
const firstTenArticles = allArticles.slice(0, 10); // Nur die ersten 10 Artikel zur Ausgabe
// Erstelle das Vokabular aus allen Artikeln
const wordToId = createVocabulary(allArticles);
// Erstelle die Sequenzen mit einer Sequenzlänge von 5 aus allen Artikeln
const sequences = createSequences(allArticles, 5, wordToId);
}
});