Research

Research that ships

We build practical AI innovations — large-scale synthetic datasets, efficient models that run on consumer hardware, and production-ready systems for real-world deployment.

9M+

Synthetic training examples

$0.14

Cost per 1K samples

26M

Smallest model params

Flagship Project

TinyFabulist

Large-scale synthetic narrative generation

A multi-phase research initiative producing open datasets, translation frameworks, and compact language models — all optimized for cost-effective deployment on consumer hardware.

TF1

3M Synthetic English Fables

First open dataset of three million moral fables generated by instruction-tuned models. Each story follows a structured scaffold for consistent quality.

3M stories

arXiv 2025

arXiv GitHub

TF2

English-Romanian Literary Translation

A unified framework for dataset creation, fine-tuning, and evaluation of literary translations. Includes a fine-tuned 12B model competitive with proprietary alternatives.

3M parallel pairs

12B params

arXiv 2025

arXiv GitHub

TF3

Compact Romanian Language Models

End-to-end pipeline for training Romanian LMs from scratch: custom tokenizers, pretraining, compression via distillation, and large-scale dataset generation.

3M Romanian fables

26M params

arXiv 2025

GitHub

Featured Publication

Synthetic Data Generation

Our comprehensive survey on generating training data using LLMs — published in IEEE Access.

Synthetic Data Generation Using Large Language Models: Advances in Text and Code

Mihai Nadăș, Laura Dioșan, Andreea Tomescu — IEEE Access, 2025

How enterprises can generate training data at scale — reducing annotation costs, addressing data scarcity, and enabling fine-tuning without exposing sensitive data.

Read on IEEE Xplore arXiv preprint

Pages

References

3-26%

Performance gains

Innovation Focus

Where we push boundaries

Our research translates directly into practical capabilities for clients and portfolio companies.

Synthetic Data Generation

Generate training data at scale without exposing sensitive data. Our comprehensive IEEE Access survey covers techniques from prompt engineering to reinforcement learning — achieving 3-26% performance gains in low-data scenarios.

Training data Data augmentation Low-resource domains

Applies to: Healthcare Finance Legal