LLM Researcher
LLMko ikertzailea
Fecha de publicación: 21 July 2025
Data argitaratua: astelehena, 21 uztaila 2025
Ingeniero/as y técnicos (Industrial, Mecánico y Electricidad)
Industria, Mekanikoa eta Elektrizitatea
¿Qué buscamos?
Design and implement strategies for creating, sourcing, and augmenting datasets tailored for LLM training and fine-tuning.
Develop scalable pipelines to collect, clean, filter, annotate, and validate large volumes of text data.
Conduct data audits to ensure quality, diversity, ethical compliance, and bias mitigation.
Collaborate with ML engineers and researchers to align datasets with training objectives and model evaluation needs.
Use tools like Active Learning, synthetic data generation, and self-supervised learning to maximize dataset efficiency.
Leverage human-in-the-loop (HITL) workflows for data labeling and validation where necessary.
Contribute to building data documentation and metadata standards (e.g., Datasheets for Datasets).
Keep up to date with research trends in dataset curation, LLM pretraining data, and benchmarking. Zer bilatzen dugu?
Datasetak sortu, kontratatu eta handitzeko estrategiak diseinatu eta inplementatzea, LLM prestatzeko eta prest jartzeko neurrira eginak.
Oliobide eskalagarriak garatu, testu-datuen bolumen handiak bildu, garbitu, iragazi, idatzi eta baliozkotzeko.
Datuen auditoriak egitea kalitatea, aniztasuna, betetze etikoa eta partzialtasuna arintzea bermatzeko.
Ingeniariekin eta MLko ikertzaileekin lankidetzan aritzea, datu-baseak prestakuntza-helburuekin eta ereduen ebaluazio-beharrekin lerrokatzeko.
Erabili Active Learning, datu sintetikoak sortzea eta autogainbegiratutako ikaskuntza dataseten eraginkortasuna maximizatzeko.
Giza lan-fluxuak aprobetxatzea (HITL) datuak etiketatzeko eta baliozkotzeko, beharrezkoa denean.
Datuen dokumentazioa eta metadatuen estandarrak eraikitzen laguntzea (adibidez, Datasheets for Datasets).
Dataseten sendaketaren, LLMren datuen eta benchmarkingaren ikerketa joerak eguneratuta eduki.
¿Qué te ofrecemos?
Indefinite contract.
Equal pay guaranteed.
Variable performance bonus.
Signing bonus.
We offer work visa sponsorship (If applicable).
Relocation package (if applicable).
Private health insurance.
Eligibility for educational budget according to internal policy.
Hybrid opportunity.
Flexible working hours.
Language classes and discounted lunch options
Working in a high paced environment, working on cutting edge technologies.
Career plan. Opportunity to learn and teach.
Progressive Company. Happy people culture
Zer eskaintzen dizugu?
Kontratu mugagabea.
Soldata berdina bermatuta.
Errendimendu aldakorreko hobaria.
Sinatze bonoa .
Laneko bisen babesa eskaintzen dugu (hala badagokio).
Birkokatze-paketea (hala badagokio).
Aseguru mediko pribatua.
Hezkuntza-aurrekonturako hautagarritasuna, barne-politikaren arabera.
Aukera hibridoa.
Ordutegi malgua.
Hizkuntza klaseak eta bazkaltzeko aukera deskontatuak
Ibilbide luzeko giroan lan egiten, mugako teknologietan.
Karrera plana. Ikasteko eta irakasteko aukera.
Konpainia aurrerakoia. Jende zoriontsuaren kultura
Formación academica
Bachelor, Master or PhD. D. Computer science, AI, Data Science or similar.
Prestakuntza akademikoa
Lizentziatura, masterra edo doktoretza. D. Informatikan, IAn, Datuen Zientzietan edo antzeko arlo batean.
Formación específica
Experience building or contributing to datasets used in LLM pretraining or supervised fine-tuning.
Familiarity with RLHF workflows and alignment techniques (e.g., preference modeling, reward modeling).
Exposure to multilingual and low-resource language datasets.
Contributions to open-source datasets, tools, or publications in dataset-centric research.
Knowledge of ethical AI, data governance, privacy laws (e.g., GDPR), and responsible data use.
Prestakuntza espezifikoa
Esperientzia LLMn erabiltzen diren datasetak eraikitzen edo laguntzen.
RLHFren lan-fluxuak eta lerrokatze-teknikak ezagutzea (adibidez, lehentasuna modelatzea, saria modelatzea).
Hizkuntza eleaniztunetako eta baliabide gutxiko datu-baseekiko esposizioa.
Iturri irekiko datu-baseei, tresnei edo datu-zentroetako ikerketei egindako ekarpenak.
AI etikoaren ezagutza, datuen gobernantza, pribatutasun-legeak (adibidez, GDPR), eta datuen erabilera arduratsua.
Nivel de idiomas requerido: -
Hizkuntzak eta eskatutako maila: -
Experiencia en funciones similares: Más de 3 años
Antzeko eginkizunetan eskatutako esperientzia: 3 urte baino gehiago
Competencias:
-
Gaitasunak:
-