
AI in Research: Retrieval-Augmented Generation (RAG) and Good Scientific Practice
The use of artificial intelligence (AI)—especially large language models (LLMs) such as ChatGPT—
is reshaping the research landscape. A particularly promising approach that supports scholars is
retrieval-augmented generation (RAG). The following article explains what RAG is, how it works,
its advantages and limitations, and how to employ RAG in accordance with the principles of good
scientific practice.
What Is Retrieval-Augmented Generation (RAG)?
RAG combines classic AI language models with an external knowledge base. Whereas conventional
models generate answers solely from their training data, a RAG system pulls in current sources
while drafting its response. This practice anchors statements in real documents and markedly
reduces so-called hallucinations.
What RAG Can—and Can’t—Do
RAG is especially useful for:
- increasing the factual accuracy of language-model outputs,
- accessing up-to-date information on the fly,
- producing transparent answers complete with source citations, and
- leveraging domain-specific knowledge without retraining the model.
However, RAG does not solve every problem:
- a faulty or biased document base will be reproduced,
- the answer process remains statistical and does not equal true understanding,
- relevant information may be missing or hard to retrieve, and
- human judgment and contextualization remain indispensable.
Typical Risks
- Hallucinations: Even with RAG, flawed conclusions can arise.
- Bias: Output quality depends heavily on the selection and currency of the sources.
- Incompleteness: RAG does not replace a thorough manual literature review.
How Does RAG Work?
- Preparation Phase (offline)
- Collect and structure documents.
- Create embeddings of those documents.
- Build a vector database.
- Query Phase (online)
- Formulate a concrete query.
- Retrieve relevant passages from the database.
- Generate an answer that includes citations.
RAG in Leading AI Platforms
| Platform | RAG Integrated | Source Base | Citations | File Formats | Known Issues |
|---|---|---|---|---|---|
| ChatGPT (OpenAI) | Yes | Web, personal documents | Yes | PDF, DOCX, TXT, XLSX, JPEG, PNG | Upload issues with large or encrypted files |
| Claude (Anthropic) | Yes | Web, personal documents | Yes | PDF, DOCX, TXT, CSV, HTML, EPUB, ODT, RTF, JSON, XLSX, JPEG, PNG | Problems with very large PDFs; limited handling of visual content |
| Gemini / Bard (Google) | Yes | Web, personal data sources | Yes | No direct file upload | |
| Meta AI (Meta) | Yes | Web (via Bing) | Yes | No direct file upload | |
| Perplexity | Yes | Web, personal documents | Yes | PDF, TXT, code, JPEG, PNG, audio, video | Security concerns with uploads; format incompatibilities |
| Mistral AI | Yes | Web, personal documents | Partly | PDF, JPG, PNG, TIFF (OCR) | Occasional OCR errors; formatting anomalies |
| You.com (YouChat) | Yes | Web | Yes | No direct file upload |
RAG-Powered Specialty Tools for Research
Elicit
Supports literature searches, lists relevant studies, and extracts key statements through a
RAG workflow (semantic search + language model).
SciSpace / ResearchGPT
Enables literature discovery and targeted questioning of your own papers, delivering precise
answers complete with citations.
Semantic Scholar
Offers AI-based semantic search and automatic TL;DR summaries for millions of scholarly articles.
Good Scientific Practice and RAG
- Citation Obligation & Transparency: AI contributions must be clearly labeled and cited.
- Source Critique: Evaluate literature for quality and reliability; RAG reduces but does not eliminate hallucinations.
- Traceability: Document search steps and data sources to ensure reproducibility.
Recommendations
- Validate AI-generated content against the original sources.
- Document your use of the systems transparently.
- Use RAG as a supplement, not a replacement, for scholarly judgment.
Conclusion and Outlook
RAG offers tremendous potential for everyday research when employed responsibly. By consistently
observing the principles of good scientific practice, scholarship can remain transparent,
traceable, and trustworthy—even in the AI era.
Further Information
- DFG – Guidelines for Good Scientific Practice
- ALLEA – European Code of Conduct
- NASEM – Integrity Guidelines
- Elicit Tutorial
- Introduction to SciSpace
KI in der Forschung: Retrieval-Augmented Generation (RAG) und Gute Wissenschaftliche Praxis
Die Nutzung Künstlicher Intelligenz (KI), insbesondere großer Sprachmodelle (LLMs) wie ChatGPT,
verändert die Forschungslandschaft grundlegend. Ein vielversprechendes Verfahren ist die
Retrieval-Augmented Generation (RAG). Im Folgenden erfahren Sie, was RAG ist, wie es
funktioniert, welche Vor- und Nachteile es bietet und wie Sie RAG im Einklang mit den
Grundsätzen guter wissenschaftlicher Praxis einsetzen können.
Was ist Retrieval-Augmented Generation (RAG)?
RAG kombiniert klassische Sprachmodelle mit einer externen Wissensdatenbank. Während herkömmliche
Modelle Antworten allein aus ihren Trainingsdaten generieren, greift ein RAG-System beim
Formulieren der Antwort auf aktuelle Quellen zu. Dadurch werden Aussagen mit echten Dokumenten
belegt und das Risiko sogenannter „Halluzinationen“ deutlich reduziert.
Was RAG leisten kann – und was nicht
RAG ist besonders nützlich, um:
- die Faktentreue von Sprachmodellen zu erhöhen,
- dynamisch auf aktuelle Informationen zuzugreifen,
- transparente Antworten mit Quellenangaben zu erzeugen,
- domainspezifisches Wissen ohne erneutes Training nutzbar zu machen.
RAG löst jedoch nicht alle Probleme:
- Fehlerhafte oder verzerrte Dokumentenbasis wird reproduziert.
- Der Antwortprozess bleibt statistisch und ersetzt kein echtes Verstehen.
- Relevante Informationen können fehlen oder unauffindbar sein.
- Menschliche Bewertung und Kontextualisierung bleiben unerlässlich.
Typische Risiken
- Halluzinationen: Auch mit RAG können fehlerhafte Schlüsse entstehen.
- Bias: Ergebnisqualität hängt stark von Auswahl und Aktualität der Quellen ab.
- Unvollständigkeit: RAG ersetzt keine vollständige manuelle Literaturrecherche.
Wie funktioniert RAG?
- Vorbereitungsphase (offline)
- Dokumente sammeln und strukturieren.
- Embeddings der Dokumente erzeugen.
- Vektordatenbank anlegen.
- Abfragephase (online)
- Konkrete Abfrage formulieren.
- Passende Textabschnitte aus der Datenbank abrufen.
- Antwort inklusive Quellenangaben generieren.
RAG bei marktführenden KI-Plattformen
| Plattform | RAG integriert | Quellenbasis | Quellenangaben | Dateiformate | Bekannte Schwierigkeiten |
|---|---|---|---|---|---|
| ChatGPT (OpenAI) | Ja | Web, eigene Dokumente | Ja | PDF, DOCX, TXT, XLSX, JPEG, PNG | Upload-Probleme bei großen oder verschlüsselten Dateien |
| Claude (Anthropic) | Ja | Web, eigene Dokumente | Ja | PDF, DOCX, TXT, CSV, HTML, EPUB, ODT, RTF, JSON, XLSX, JPEG, PNG | Probleme bei sehr umfangreichen PDFs; eingeschränkte Bildverarbeitung |
| Gemini / Bard (Google) | Ja | Web, persönliche Datenquellen | Ja | Kein Datei-Upload | |
| Meta AI (Meta) | Ja | Web (über Bing) | Ja | Kein Datei-Upload | |
| Perplexity | Ja | Web, eigene Dokumente | Ja | PDF, TXT, Code, JPEG, PNG, Audio, Video | Sicherheitsbedenken bei Uploads; Formatinkompatibilitäten |
| Mistral AI | Ja | Web, eigene Dokumente | Teilweise | PDF, JPG, PNG, TIFF (OCR) | Gelegentliche OCR-Fehler; Formatierungsanomalien |
| You.com (YouChat) | Ja | Web | Ja | Kein Datei-Upload |
RAG-gestützte Spezial-Tools
Elicit
Unterstützt die Literaturrecherche, listet relevante Studien auf und extrahiert Kernaussagen
mittels RAG-Workflow (semantische Suche + Sprachmodell).
SciSpace / ResearchGPT
Ermöglicht Literatursuche und gezielte Befragung eigener Paper, liefert präzise Antworten
inklusive Zitation.
Semantic Scholar
Bietet KI-basierte semantische Suche und automatische TL;DR-Zusammenfassungen
zu Millionen wissenschaftlicher Artikel.
Gute Wissenschaftliche Praxis
- Zitierpflicht & Transparenz: KI-Beiträge müssen klar gekennzeichnet und mit Quellen versehen sein.
- Quellenkritik: Literatur auf Qualität und Verlässlichkeit prüfen; RAG verringert, aber eliminiert Halluzinationen nicht.
- Nachvollziehbarkeit: Rechercheschritte und genutzte Datenbanken dokumentieren, um Reproduzierbarkeit zu gewährleisten.
Empfehlungen
- Validieren Sie KI-generierte Inhalte an den Originalquellen.
- Dokumentieren Sie die Nutzung der Systeme transparent.
- Nutzen Sie RAG als Ergänzung, nicht als Ersatz für wissenschaftliches Urteilsvermögen.
Fazit und Ausblick
RAG bietet enormes Potenzial für den wissenschaftlichen Alltag, wenn es verantwortungsvoll
eingesetzt wird. Durch konsequente Beachtung der Grundsätze guter wissenschaftlicher Praxis
bleibt Forschung auch im KI-Zeitalter transparent, nachvollziehbar und verlässlich.
Weiterführende Informationen
- DFG – Leitlinien Gute Wissenschaftliche Praxis
- ALLEA – European Code of Conduct
- NASEM – Integritätsrichtlinien
- Tutorial zu Elicit
- Einführung zu SciSpace
„`
