Senior Data Scientist (LLM)
Senior Data Scientist (LLM)
Fecha de publicación: 28 April 2025
Data argitaratua: astelehena, 28 apirila 2025
Ingeniero/as y técnicos en Informática
Informatika
¿Qué buscamos?
We are seeking a Senior Data Scientist with deep expertise in creating high-quality datasets for training and fine-tuning Large Language Models (LLMs). You will be responsible for designing and implementing scalable data pipelines and strategies to support all stages of LLM development: pretraining, supervised fine-tuning, and reinforcement learning with human feedback (RLHF).
This role is critical to ensuring the robustness, safety, and alignment of our AI models. You will have the autonomy to explore innovative data sourcing and curation methods and the opportunity to directly influence the capabilities of state-of-the-art LLMs.
As a Senior Data Scientist, you will:
- Design and implement strategies for creating, sourcing, and augmenting datasets tailored for LLM training and fine-tuning.
- Develop scalable pipelines to collect, clean, filter, annotate, and validate large volumes of text data.
- Conduct data audits to ensure quality, diversity, ethical compliance, and bias mitigation.
- Collaborate with ML engineers and researchers to align datasets with training objectives and model evaluation needs.
- Use tools like Active Learning, synthetic data generation, and self-supervised learning to maximize dataset efficiency.
- Leverage human-in-the-loop (HITL) workflows for data labeling and validation where necessary.
- Contribute to building data documentation and metadata standards (e.g., Datasheets for Datasets).
- Keep up to date with research trends in dataset curation, LLM pretraining data, and benchmarking Zer bilatzen dugu?
Senior Data Scientist baten bila gabiltza, Hizkuntza Eredu Handiak (LLM) entrenatu eta doitzeko kalitate handiko datu multzoak sortzeko esperientzia sakona duena. Zure ardura izango da datu-kanalizazio eskalagarriak eta estrategiak diseinatzea eta inplementatzea LLMren garapenaren etapa guztietan laguntzeko: aurretratamendua, gainbegiratutako doikuntza eta indartze-ikaskuntza giza atzeraelikadurarekin (RLHF).
Rol hori funtsezkoa da gure AI ereduen sendotasuna, segurtasuna eta lerrokatzea bermatzeko. Datuak lortzeko eta ontzeko metodo berritzaileak esploratzeko autonomia izango du, eta azken belaunaldiko LLMen gaitasunetan zuzenean eragiteko aukera.
Datuen Zientzialari Nagusi gisa, hau egingo duzu:
- Datu-multzoak sortzeko, eskuratzeko eta handitzeko estrategiak diseinatzea eta inplementatzea, LLM formakuntzarako eta prest jartzeko.
- Kanalizazio eskalagarriak garatzea, testu-datuen bolumen handiak biltzeko, garbitzeko, iragazteko, anotatzeko eta baliozkotzeko.
- Datuen auditoretzak egitea, kalitatea, aniztasuna, betetze etikoa eta alborapenen arintzea bermatzeko.
- MLko ingeniari eta ikertzaileekin lankidetzan aritzea, datu-multzoak prestakuntza-helburuekin eta ereduak ebaluatzeko beharrekin lerrokatzeko.
- Ikaskuntza aktiboa, datuen sorrera sintetikoa eta autogainbegiratutako ikaskuntza bezalako tresnak erabiltzea datu multzoen eraginkortasuna maximizatzeko.
- Baliatu gizaki-in-the-loop (HITL) lan-fluxuak datuak etiketatzeko eta baliozkotzeko, beharrezkoa denean.
- Datuen dokumentazioa eta metadatuen estandarrak eraikitzen laguntzea (adibidez, Datu Multzoetarako Fitxak).
- Ikerketa-joeren berri izatea datu-multzoen kontserbazioan, LLM datuen aurretratamenduan eta benchmarkingean.
¿Qué te ofrecemos?
Multiverse Computing
Multiverse is a well-funded and fast-growing deep-tech company founded in 2019. We are the biggest Quantum Software company in the EU. We are also one of the 100 most promising companies in AI in the world (according to CB Insights, 2023) with 150+ employees and growing, fully multicultural and international.
We provide hyper-efficient software to companies seeking to gain an edge with quantum computing and artificial intelligence. Our main products, Singularity and CompactifAI, address critical needs across various industries. Singularity remains a trusted solution for blue-chip companies in finance, energy, manufacturing, cybersecurity, and more. CompactifAI, on the other hand, is a groundbreaking compressing tool of foundational models that uses Tensor Networks to extremely compress AI systems, such as large language models, making these efficient and portable.
You will be working alongside world leading experts to build solutions that tackle real life issues. We look for passionate people that want to grow in an ethics driven environment, promoting sustainability and diversity. We aim to continue building our truly inclusive culture - come and join us.
Perks & Benefits:
- Indefinite contract.
- Equal pay guaranteed.
- Variable performance bonus.
- Signing bonus.
- We offer work visa sponsorship (If applicable).
- Relocation package (if applicable).
- Private health insurance.
- Eligibility for educational budget according to internal policy.
- Hybrid opportunity.
- Flexible working hours.
- Language classes and discounted lunch options
- Working in a high paced environment, working on cutting edge technologies.
- Career plan. Opportunity to learn and teach.
-Progressive Company. Happy people culture
As an equal opportunity employer, Multiverse Computing is committed to building an inclusive workplace. The company welcomes people from all different backgrounds, including age, citizenship, ethnic and racial origins, gender identities, individuals with disabilities, marital status, religions and ideologies, and sexual orientations to apply.
Come and join our multicultural team!
5 locations
+27 languages
Zer eskaintzen dizugu?
Multiverse Computing
Multiverse teknologia sakoneko enpresa bat da, ondo finantzatua eta azkar hazten dena, 2019an sortua. EBko software kuantikoko enpresarik handiena gara. Era berean, munduko AIko 100 enpresa itxaropentsuenetako bat gara (CB Insights, 2023ren arabera), 150 langile baino gehiago dituena eta hazten ari dena, erabat multikulturala eta nazioartekoa.
Software hiper-eraginkorra eskaintzen diegu konputazio kuantikoarekin eta adimen artifizialarekin abantaila lortu nahi duten enpresei. Gure produktu nagusiak, Singularity eta CompactifAI, hainbat industrien behar kritikoei erantzuten diete. Singularitateak konfiantzazko irtenbidea izaten jarraitzen du finantzetan, energian, fabrikazioan, zibersegurtasunean eta beste hainbat arlotan txip urdineko enpresentzat. CompactifAI, bestalde, fundazio-ereduen konpresio-tresna apurtzailea da, Tensor Networks erabiltzen duena AI sistemak izugarri konprimitzeko, hala nola hizkuntza-eredu handiak, horiek eraginkor eta eramangarri bihurtuz.
Mundu mailako aditu garrantzitsuekin batera lan egingo duzu bizitza errealeko arazoei aurre egingo dieten irtenbideak eraikitzeko. Etikak bultzatutako ingurune batean hazi nahi duten pertsona sutsuak bilatzen ditugu, jasangarritasuna eta aniztasuna sustatuz. Gure kultura inklusiboa eraikitzen jarraitu nahi dugu - zatoz eta bat egin gurekin.
Perks & Irabaziak:
- Kontratu mugagabea.
- Ordainsari berdina bermatuta.
- Errendimendu aldakorreko hobaria.
- Sinatze-bonua.
- Lan-bisa babestea eskaintzen dugu (hala badagokio).
- Deslokalizazio-paketea (hala badagokio).
- Osasun-aseguru pribatuak.
- Hezkuntza-aurrekonturako hautagarritasuna, barne-politikaren arabera.
- Aukera hibridoa.
- Lanaldi malgua.
- Hizkuntza klaseak eta deskontudun bazkaltzeko aukerak
- Erritmo handiko ingurunean lan egitea, puntako teknologiak landuz.
- Karrera-plana. Ikasteko eta irakasteko aukera.
-Pixkanakako enpresa. Jende zoriontsuak kultura
Aukera berdintasuneko enplegatzaile gisa, Multiverse Computing-ek lantoki inklusiboa eraikitzearen aldeko apustua egin du. Konpainiak jatorri guztietako pertsonak hartzen ditu, besteak beste, adina, herritartasuna, jatorri etniko eta arrazialak, genero-identitateak, desgaitasuna duten pertsonak, egoera zibila, erlijioak eta ideologiak, eta sexu-orientazioak.
Animatu eta etorri gure talde multikulturalera!
5 herri
+27 hizkuntza
Formación academica
Bachelor’s, Master’s, or Ph.D. in Computer Science, AI, Data Science, or a related field.
Prestakuntza akademikoa
Informatikan, AAn, Datuen Zientzian edo antzeko arlo batean lizentziatua, masterra edo doktoregoa.
Formación específica
Preferred Qualifications:
- Experience building or contributing to datasets used in LLM pretraining or supervised fine-tuning.
- Familiarity with RLHF workflows and alignment techniques (e.g., preference modeling, reward modeling).
- Exposure to multilingual and low-resource language datasets.
- Contributions to open-source datasets, tools, or publications in dataset-centric research.
- Knowledge of ethical AI, data governance, privacy laws (e.g., GDPR), and responsible data use.
Prestakuntza espezifikoa
Lehentasunezko titulazioak:
- Esperientzia eraikitzea edo LLM aurretratamenduan edo gainbegiratutako prest jartzean erabilitako datu multzoetan laguntzea.
- RLHF lan-fluxuak eta lerrokatze-teknikak ezagutzea (adibidez, hobespenen modelizazioa, sarien modelizazioa).
- Hizkuntza-datu eleaniztunekiko eta baliabide gutxiko hizkuntzekiko esposizioa.
- Datu-multzoei, tresnei edo datu multzoetan zentratutako ikerketetako argitalpenei egindako ekarpenak.
- IA etikoa, datuen gobernantza, pribatutasun-legeak (adibidez, DBEO) eta datuen erabilera arduratsua ezagutzea.
Nivel de idiomas requerido:
Hizkuntzak eta eskatutako maila:
Experiencia en funciones similares: Más de 3 años
Antzeko eginkizunetan eskatutako esperientzia: 3 urte baino gehiago
Competencias:
Required Qualifications:
- 3+ years of experience in data science, machine learning, or related roles, with demonstrated experience in dataset creation for NLP or LLMs.
- In-depth knowledge of the LLM lifecycle: pretraining, fine-tuning, alignment, and evaluation.
- Proficient in Python and data tooling ecosystems (Pandas, NumPy, spaCy, Hugging Face Datasets & Transformers).
- Hands-on experience with text data collection from diverse sources: web scraping, APIs, proprietary corpora, etc.
- Strong understanding of data quality metrics including bias detection, toxicity, and readability.
- Experience working with annotation tools (e.g., Prodigy, Label Studio) and managing annotation teams or workflows.
Gaitasunak:
- 3+ urteko esperientzia datuen zientzian, ikasketa automatikoan edo erlazionatutako roletan, NLP edo LLMetarako datu-sorreran esperientzia frogatua duena.
- LLM bizi-zikloaren ezagutza sakona: aurretratamendua, doitzea, lerrokatzea eta ebaluazioa.
- Python eta datuen tresneriaren ekosistemetan trebea (Pandas, NumPy, spaCy, Hugging Face Datasets & Transformers).
- Hainbat iturritako testu-datuen bilketarekin esperientzia izatea: web scraping, API, korporazio propioa, etab.
- Datuen kalitatearen neurketen ulermen sendoa, alborapenen detekzioa, toxikotasuna eta irakurgarritasuna barne.
- Esperientzia izatea anotazio-tresnekin lan egiten (adibidez, Prodigy, Label Studio) eta anotazio-ekipoak edo lan-fluxuak kudeatzen.