DataChain: Neues Open-Source-Tool für die KI-gestützte Datenkuratierung

Data Science Nachrichten

DataChain: Neues Open-Source-Tool für die KI-gestützte Datenkuratierung
DatenbankenDatenqualitätKünstliche Intelligenz
  • 📰 heiseonline
  • ⏱ Reading Time:
  • 52 sec. here
  • 8 min. at publisher
  • 📊 Quality Score:
  • News: 45%
  • Publisher: 71%

Das Open-Source-Tool DataChain verarbeitet unstrukturierte Daten mit KI. Es nutzt LLMs und ML-Modelle zur Datenkuratierung und -analyse.

), kündigt ein weiteres Open-Source-Projekt an: DataChain ist eine speziell auf das Verarbeiten und Bewerten unstrukturierter Daten ausgelegte Python-Bibliothek. Sie soll ML- und Datenfachleute bei der Optimierung ihrer Arbeitsabläufe unterstützen.

Weitere typische Einsatzfelder für DataChain sind LLM-Analysen und das Validieren multimodaler KI-Anwendungen. Beim Validieren von Daten erlaubt es DataChain, strikt typisierte Pydantic-Objekte anstelle von JSON zu nutzen.

Zum Speichern der Datensätze nutzt DataChain eine eingebettete SQLite-Datenbank, die automatisch versioniert. Entwicklerinnen und Entwickler können mit dem Tool bei Bedarf direkt die gesamte Antwort eines LLM in die interne DB serialisieren, anstatt die Datenstruktur aus der Antwort extrahieren zu müssen. Das folgende Codebeispiel beschreibt, wie sich gespeicherte Datensätze abrufen lassen und über die Objekte iteriert werden kann.

chain=DataChain.from_dataset # Iterating one-by-one: support out-of-memory workflow for file, response in chain.limit.collect: # verify the collected Python objects assert isinstance status=response.choices.message.content tokens=response.usage.total_tokens print}: {status}, file size: {file.size}, tokens: {tokens}")

Wir haben diese Nachrichten zusammengefasst, damit Sie sie schnell lesen können. Wenn Sie sich für die Nachrichten interessieren, können Sie den vollständigen Text hier lesen. Weiterlesen:

heiseonline /  🏆 11. in DE

Datenbanken Datenqualität Künstliche Intelligenz LLM Programmierung Softwareentwicklung

Deutschland Neuesten Nachrichten, Deutschland Schlagzeilen

Similar News:Sie können auch ähnliche Nachrichten wie diese lesen, die wir aus anderen Nachrichtenquellen gesammelt haben.

Die Bedeutung von OPEN für Data Science und KI – Keynote der data2day 2023Die Bedeutung von OPEN für Data Science und KI – Keynote der data2day 2023Miriam Bressan, Solution Architecture-Teamleiterin bei Red Hat, spricht über die vier Eckpfeiler Open Source, Open Models, Open Data und Open Mindset.
Weiterlesen »

KI-Update kompakt: OpenAI OS, Meta Open Source, Alexa wer, KI-PaperKI-Update kompakt: OpenAI OS, Meta Open Source, Alexa wer, KI-PaperDas 'KI-Update' liefert werktäglich eine Zusammenfassung der wichtigsten KI-Entwicklungen.
Weiterlesen »

Llama 3.1: Meta veröffentlicht Konkurrent für GPT-4o mini als Open SourceLlama 3.1: Meta veröffentlicht Konkurrent für GPT-4o mini als Open SourceMeta hat heute das lang erwartete Llama-3-Modell veröffentlicht, das in Benchmarks ähnlich abschneidet wie OpenAIs GPT-4o.
Weiterlesen »

Nvidia prefers open source Linux kernel drivers from now onNvidia prefers open source Linux kernel drivers from now onFor future driver versions, Nvidia prefers its open source kernel driver. The community has problems with this and is working on alternatives.
Weiterlesen »

Open-Source-Förderung: Noch mehr Kritik an Finanzierungsstopp der EU-KommissionOpen-Source-Förderung: Noch mehr Kritik an Finanzierungsstopp der EU-KommissionWichtige Organisationen aus der Open-Source-Szene fordern, dass die Förderung für das
Weiterlesen »

Next Generation Internet: EU apparently set to end open source programmeNext Generation Internet: EU apparently set to end open source programmeThe EU’s Next Generation Internet programme has supported free, open source software for years. But now a silent death seems to be looming: An internal document suggests that financing may soon end. Developers are surprised and call for the programme’s survival.
Weiterlesen »



Render Time: 2025-02-19 11:02:38