Select Page


Multiverse Computing




Envía tu CV Zure CVa bidali



Volver a oportunidades Aukeretara bueltatu

Senior LLM Researcher

LLMko ikertzaile seniorra


Fecha de publicación: 22 May 2025

Data argitaratua: osteguna, 22 maiatza 2025

Investigación y Laboratorio

¿Qué buscamos?
Experience building or contributing to datasets used in LLM pretraining or supervised fine-tuning.
Familiarity with RLHF workflows and alignment techniques (e.g., preference modeling, reward modeling).
Exposure to multilingual and low-resource language datasets.
Contributions to open-source datasets, tools, or publications in dataset-centric research.
Knowledge of ethical AI, data governance, privacy laws (e.g., GDPR), and responsible data use.
Zer bilatzen dugu?
-Esperientzia eraikitzea edo LLM aurretratamenduan edo gainbegiratutako prest jartzean erabilitako datu multzoetan laguntzea.
-RLHF lan-fluxuak eta lerrokatze-teknikak ezagutzea (adibidez, hobespenen modelizazioa, sarien modelizazioa).
-Hizkuntza-datu eleaniztunekiko eta baliabide gutxiko hizkuntzekiko esposizioa.
-Datu-multzoei, tresnei edo datu-multzoetan zentratutako argitalpenei egindako ekarpenak.
-IA etikoa, datuen gobernantza, pribatutasun-legeak (adibidez, GDPR) eta datuen erabilera arduratsua ezagutzea.


¿Qué te ofrecemos?
Indefinite contract.
Equal pay guaranteed.
Variable performance bonus.
Signing bonus.
We offer work visa sponsorship (If applicable).
Relocation package (if applicable).
Private health insurance.
Eligibility for educational budget according to internal policy.
Hybrid opportunity.
Flexible working hours.
Language classes and discounted lunch options
Working in a high paced environment, working on cutting edge technologies.
Career plan. Opportunity to learn and teach.
Progressive Company. Happy people culture

Zer eskaintzen dizugu?
-Kontratu mugagabea.
-Soldata berdina bermatuta.
-Errendimendu aldakorreko hobaria.
-Sinatze-bonua.
-Lan Visa Babesletza eskaintzen dugu (hala badagokio).
-Deslokalizazio-paketea (hala badagokio).
-Osasun aseguru pribatuak.
-Hezkuntza-aurrekonturako hautagarritasuna, barne-politikaren arabera.
-Aukera hibridoa.
-Lanaldi malgua.
-Hizkuntza klaseak eta deskontudun bazkaltzeko aukerak
-Erritmo handiko ingurunean lan eginez, puntako teknologiak landuz.
-Karrera-plana. Ikasteko eta irakasteko aukera.


Formación academica
Bachelor’s, Master’s, or Ph.D. in Computer Science, AI, Data Science, or a related field.

Prestakuntza akademikoa
Informatikan, AAn, Datuen Zientzian edo antzeko arlo batean lizentziatua, masterra edo doktoregoa.


Formación específica
3+ years of experience in data science, machine learning, or related roles, with demonstrated experience in dataset creation for NLP or LLMs. In-depth knowledge of the LLM lifecycle: pretraining, fine-tuning, alignment, and evaluation. Proficient in Python and data tooling ecosystems (Pandas, NumPy, spaCy, Hugging Face Datasets & Transformers). Hands-on experience with text data collection from diverse sources: web scraping, APIs, proprietary corpora, etc. Strong understanding of data quality metrics including bias detection, toxicity, and readability. Experience working with annotation tools (e.g., Prodigy, Label Studio) and managing annotation teams or workflows.

Prestakuntza espezifikoa
3+ urteko esperientzia datu-zientzian, ikasketa automatikoan edo erlazionatutako roletan, NLP edo LLMetarako datu-sorreran esperientzia frogatua duena.
-LLMren bizi-zikloaren ezagutza sakona: aurretratamendua, doitzea, lerrokatzea eta ebaluazioa.
-Python eta datuen tresneriaren ekosistemetan trebea (Pandas, NumPy, spaCy, Hugging Face Datasets & Transformers).
-Hainbat iturritako testu-datuen bilketarekin esperientzia izatea: web scraping, APIak, korporazio propioa, etab.
-Datuen kalitatearen metriken ulermen sendoa, alborapenen detekzioa, toxikotasuna eta irakurgarritasuna barne.
-Esperientzia izatea anotazio-tresnekin lan egiten (adibidez, Prodigy, Label Studio) eta anotazio-ekipoak edo lan-fluxuak kudeatzen.


Nivel de idiomas requerido: -

Hizkuntzak eta eskatutako maila: -


Experiencia en funciones similares: Más de 3 años

Antzeko eginkizunetan eskatutako esperientzia: 3 urte baino gehiago


Competencias:
Design and implement strategies for creating, sourcing, and augmenting datasets tailored for LLM training and fine-tuning. Develop scalable pipelines to collect, clean, filter, annotate, and validate large volumes of text data. Conduct data audits to ensure quality, diversity, ethical compliance, and bias mitigation. Collaborate with ML engineers and researchers to align datasets with training objectives and model evaluation needs. Use tools like Active Learning, synthetic data generation, and self-supervised learning to maximize dataset efficiency. Leverage human-in-the-loop (HITL) workflows for data labeling and validation where necessary. Contribute to building data documentation and metadata standards (e.g., Datasheets for Datasets). Keep up to date with research trends in dataset curation, LLM pretraining data, and benchmarking.

Gaitasunak:
-Diseinatu eta inplementatu estrategiak LLM prestakuntzarako eta doikuntzarako egokitutako datu-multzoak sortzeko, hornitzeko eta handitzeko.
-Garatu kanalizazio eskalagarriak testu-datu-bolumen handiak biltzeko, garbitzeko, iragazteko, oharrak egiteko eta baliozkotzeko.
Egin datuen auditoretzak kalitatea, aniztasuna, betetze etikoa eta alborapenak murriztea bermatzeko.
Kolaboratu ML ingeniari eta ikertzaileekin datu-multzoak prestakuntza-helburuekin eta ereduen ebaluazio-beharrekin lerrokatzeko.
Erabili ikaskuntza aktiboa, datu sintetikoak sortzea eta norberak gainbegiratutako ikaskuntza bezalako tresnak datu-multzoen eraginkortasuna maximizatzeko.
Aprobetxatu human-in-the-loop (HITL) lan-fluxuak datuak etiketatzeko eta baliozkotzeko beharrezkoa denean.
Datuen dokumentazioa eta metadatuen estandarrak (adibidez, Datasheets for Datasets) eraikitzen lagundu.
Egon eguneratuta datu-multzoen kudeaketan, LLM-ren aurreko prestakuntza-datuetan eta benchmarking-en ikerketa-joerekin.