W Web Systems robimy aplikacje webowe, systemy B2B i integracje od prawie dwudziestu lat. Jak generatywne AI zaczęło mieszać na rynku, powiedzieliśmy sobie – sprawdźmy to na własnej skórze. Nie na cudzych case studies, nie na raportach z konferencji. Na naszym software house’ie z Łodzi, na żywym organizmie. Przez trzy miesiące testowaliśmy narzędzia AI w trzech działach: obsłudze klienta, marketingu i u devów. Każdy dział miał inne bolączki, ale wspólny mianownik był prosty – tony powtarzalnych zadań pożerających czas ludzi, którzy powinni robić coś mądrzejszego. Co z tego wyszło? Jednocześnie dużo i mało. Redukcja czasu na niektórych procesach sięgnęła kilkudziesięciu procent. Ale droga do tych oszczędności? Przygotowanie danych, szkolenie zespołu, ciągłe grzebanie w promptach. Piszę to, żebyś nie musiał powtarzać naszych błędów. Jeśli zastanawiasz się, czy AI faktycznie obniży koszty w Twojej firmie – tu znajdziesz odpowiedzi z placu boju, nie z folderu reklamowego.
Spis treści
Dlaczego wybraliśmy właśnie te trzy działy do testów AI
Zanim odpaliliśmy jakikolwiek model w środowisku produkcyjnym, trzeba było zdecydować, gdzie testować. Przyjęliśmy trzy kryteria: dużo powtarzalnych zadań, spory wolumen tekstów do generowania lub przetwarzania i możliwość zmierzenia efektów twardymi KPI. Obsługa klienta, content marketing i dział programistyczny – wszystkie trzy pasowały jak ulał. Konsultanci codziennie odpisywali na dziesiątki podobnych zapytań. Copywriterzy klepali artykuły i opisy wymagające researchu. Devowie pisali testy jednostkowe i dokumentację techniczną – robota żmudna, ale ktoś musi ją zrobić.
Przygotowanie środowiska testowego zajęło dwa tygodnie. Zmierzyliśmy metryki bazowe: średni czas odpowiedzi na zgłoszenie klienta, ile godzin pochłania artykuł blogowy, ile czasu programista spala na testy i dokumentację. Te dane stały się naszym before, żeby po trzech miesiącach mieć rzetelne porównanie. Działy pracowały równolegle, ale niezależnie od siebie – żeby wyniki jednego nie zaburzały drugiego.
Narzędzia dobieraliśmy pod specyfikę zadań w każdym obszarze. Konkretnie:
- Obsługa klienta – chatbot RAG oparty na Claude API z wektorową bazą wiedzy firmy, zintegrowany z systemem ticketowym
- Content marketing – GPT-4o jako asystent copywritera do generowania drafów, outline’ów i wariantów nagłówków z ludzką weryfikacją
- Dział developerski – GitHub Copilot do generowania kodu i testów jednostkowych oraz Claude API do code review i tworzenia dokumentacji technicznej
- Warstwa analityczna – własny dashboard do śledzenia metryk produktywności i jakości w czasie rzeczywistym
Dzięki temu porównywaliśmy nie tylko wydajność, ale i koszty poszczególnych API – ile tak naprawdę zjada budżet każdego działu.
Obsługa klienta – chatbot RAG zamiast szablonowych odpowiedzi
Klasyczne chatboty na drzewkach decyzyjnych i gotowych szablonach? Od lat irytują i klientów, i zespoły wsparcia. Wiemy to z autopsji. Postawiliśmy na RAG – Retrieval-Augmented Generation – czyli przeszukiwanie naszej bazy wiedzy połączone z generowaniem odpowiedzi przez duży model językowy. Wrzuciliśmy tam dokumentację techniczną, FAQ, historię rozwiązanych zgłoszeń, procedury wewnętrzne. Ponad dwa tysiące dokumentów pokrojonych na fragmenty, zamienionych na embeddingi i wrzuconych do bazy wektorowej.
I tu się zaczęła prawdziwa robota. Bo jakość mechanizmu wyszukiwania to fundament całego rozwiązania. Jeśli system wyciąga nie te fragmenty co trzeba, model generuje odpowiedź gładką językowo, ale merytorycznie obok. Totalnie obok. Dlatego najwięcej czasu spędziliśmy na porządkowaniu danych źródłowych – standaryzacja formatów, usuwanie duplikatów, tagowanie tematyczne, testowanie różnych strategii chunkingu. Mierzyliśmy spójność, trafność i jakość odpowiedzi, a potem poprawialiśmy iteracyjnie. Bez zgadywania.
Mechanizm wyszukiwania w RAG ma znaczenie krytyczne. Potrzebujesz najlepszego wyszukiwania semantycznego na bazie starannie przygotowanej bazy wiedzy, aby pobierane informacje były trafne względem zapytania. Podejście metryczne – RAG Ops – oparte na mierzeniu spójności, trafności i uziemienia odpowiedzi, pozwala iteracyjnie optymalizować jakość generowanych treści.
– Google Cloud, dokumentacja Gemini Enterprise Agent Platform
Wyniki po trzech miesiącach? Na prostych zapytaniach – lepsze niż się spodziewaliśmy. Średni czas pierwszej odpowiedzi spadł o 62%. Konsultanci pozbyli się około 40% powtarzalnych pytań o statusy, procedury i typowe problemy techniczne. Ale – i to ważne “ale” – złożone przypadki nadal wymagały człowieka. Chatbot RAG nie zastąpił doświadczonego specjalisty. Pozwolił mu za to zająć się sprawami, które naprawdę potrzebują myślenia.
Tip 1: Jakość bazy wiedzy decyduje o skuteczności RAG bardziej niż wybór modelu językowego. Przed wdrożeniem poświęć minimum tydzień na audyt, deduplikację i ustrukturyzowanie dokumentacji źródłowej – inwestycja w dane zwraca się wielokrotnie szybciej niż eksperymenty z różnymi LLM-ami.
Marketing i content – generowanie treści z ludzką kontrolą
U nas w marketingu AI weszło jako asystent, nie zastępca. I to rozróżnienie okazało się mega ważne. Copywriterzy zaczęli używać GPT-4o do pierwszych wersji artykułów, tworzenia outline’ów z briefu i generowania wariantów nagłówków pod testy A/B. Sam proces tworzenia treści nie zmienił się strukturalnie – research na początku, redakcja na końcu – ale poszczególne etapy przyspieszyły. Szczególnie research. AI potrafi w kilkanaście sekund zebrać i zsyntetyzować informacje, na które człowiek spaliłby godzinę.
Liczby z naszych pomiarów: czas tworzenia pierwszego draftu – minus 45%. Research tematyczny – minus 55%. Przygotowanie wariantów nagłówków i meta opisów, które wcześniej zajmowało copywriterowi dwadzieścia minut, spadło do trzech minut z weryfikacją. W sumie dział content marketingu odzyskał średnio dwanaście roboczogodzin tygodniowo. Mogliśmy zwiększyć produkcję treści o 60% bez zatrudniania nikogo nowego. Ale – uczciwie – surowy output z modelu zawsze wymagał ludzkiej korekty. Zawsze.
No i tu wchodzą pułapki. Model generował przekonująco brzmiące statystyki, które po sprawdzeniu okazywały się zmyślone. Serio, wyglądały super wiarygodnie. Cytaty przypisywane realnym osobom? Spreparowane. Ton tekstów bez dobrej instrukcji w promptach? Generyczny i bez charakteru marki. Każdy artykuł trzeba było przeczesać pod kątem danych liczbowych, nazw własnych i odwołań do źródeł. Bez tego etapu publikowanie treści z AI to proszenie się o kłopoty – i wizerunkowe, i merytoryczne.
Tip 2: Zawsze weryfikuj dane wygenerowane przez AI przed publikacją – dotyczy to zwłaszcza statystyk, cytatów i odwołań do badań. Halucynacje modeli językowych są szczególnie niebezpieczne, bo brzmią wiarygodnie. Wdróż obowiązkowy etap fact-checkingu w procesie redakcyjnym, niezależnie od tego, jak dobry wydaje się wygenerowany tekst.
Dział developerski – AI w code review i dokumentacji
Nasi programiści podeszli do AI z największym sceptycyzmem ze wszystkich trzech działów. I paradoks – to właśnie u nich zobaczyliśmy najbardziej stabilne oszczędności czasu. Wdrożyliśmy GitHub Copilot do codziennego kodowania i Claude API do automatyzacji code review i dokumentacji technicznej. Gdzie AI dało najwięcej? W zadaniach, które doświadczeni devowie uważają za żmudne, ale konieczne. Pisanie testów jednostkowych, refaktoring powtarzalnych wzorców, docstringi do istniejącego kodu. Taka robota.
Generowanie unit testów – tu modele radzą sobie zaskakująco dobrze. Copilot po przeczytaniu sygnatury funkcji i kilku istniejących testów proponował pokrycie edge case’ów, o których developer nie pomyślał od razu. Czas pisania testów spadł o około 35%, a pokrycie kodu wzrosło, bo bariera wejścia – klepanie boilerplate’u testowego – praktycznie zniknęła. Dokumentacja techniczna z Claude API? Wymagała mniejszych poprawek niż treści marketingowe. Pewnie dlatego, że kontekst techniczny jest jednoznaczny i mniej podatny na halucynacje.
Ale trzeba powiedzieć wprost, gdzie AI nie daje rady. Decyzje architektoniczne, wybór wzorców projektowych, złożona logika biznesowa wymagająca zrozumienia kontekstu domenowego – w tych obszarach sugestie modeli były płytkie albo wprost mylące. Sprawdzaliśmy to. Developer, który próbował zlecić projektowanie architektury mikroserwisów do AI, dostawał rozwiązania poprawne składniowo, ale strategicznie naiwne. Modele nie ogarniają trade-offów między skalowalnością a złożonością, nie znają infrastruktury klienta i nie przewidzą konsekwencji utrzymaniowych swoich propozycji. Po prostu nie.
Tip 3: Traktuj AI jak zdolnego juniora – szybkiego i skutecznego w prostych, dobrze zdefiniowanych zadaniach, ale wymagającego review przy każdym większym wyzwaniu. Nigdy nie merguj kodu wygenerowanego przez AI bez przeglądu doświadczonego developera, szczególnie w obszarach bezpieczeństwa, autoryzacji i operacji na danych.
Twarde liczby – podsumowanie oszczędności po trzech miesiącach
Po kwartale testów zebraliśmy dane ze wszystkich działów i zestawiliśmy z metrykami bazowymi. Wyniki potwierdziły to, co czuliśmy intuicyjnie – AI przynosi realne oszczędności, ale ich skala mocno zależy od specyfiki zadań i jakości przygotowanych danych. Oto zestawienie:
- Obsługa klienta: redukcja czasu pierwszej odpowiedzi o 62%, spadek liczby eskalacji prostych zapytań o 40%, oszczędność około 30 roboczogodzin miesięcznie na konsultanta, wzrost satysfakcji klientów mierzony NPS o 8 punktów
- Content marketing: skrócenie czasu tworzenia draftu artykułu o 45%, przyspieszenie researchu o 55%, odzyskanie 12 roboczogodzin tygodniowo w zespole, zwiększenie produkcji treści o 60% bez dodatkowego etatu
- Dział developerski: redukcja czasu pisania testów jednostkowych o 35%, przyspieszenie tworzenia dokumentacji technicznej o 50%, wzrost pokrycia kodu testami o 15 punktów procentowych, oszczędność średnio 8 godzin tygodniowo na developera
A koszty? Subskrypcje API (Claude API, GPT-4o, GitHub Copilot), czas na integrację z istniejącymi systemami, szkolenie zespołów. Łącznie około 2800 złotych miesięcznie dla dwunastoosobowego zespołu. Przy wartości zaoszczędzonego czasu pracy zwrot z inwestycji nastąpił już w drugim miesiącu. Brzmi świetnie, prawda? Ale ta kalkulacja pomija ukryte koszty, które łatwo przeoczyć na starcie.
Koszty pośrednie to czas inżynierów na budowę integracji, regularne aktualizowanie bazy wiedzy RAG, ciągłe poprawianie promptów i gaszenie pożarów po zmianach w API dostawców modeli (tak, to się zdarza częściej niż byśmy chcieli). Utrzymanie systemu RAG wymaga stałej opieki nad danymi. Każda nowa procedura, zmiana w ofercie, aktualizacja dokumentacji – to musi trafić do bazy wektorowej. Inaczej chatbot odpowiada nieaktualnie. Te koszty nie są dramatyczne, ale rosną ze skalą wdrożenia i nie wolno ich pomijać przy liczeniu ROI.
Najczęstsze błędy przy wdrażaniu AI w firmie
Przez trzy miesiące nazbieraliśmy tyle wpadek, że starczy na porządną listę ostrzeżeń. Błąd numer jeden i najpoważniejszy – uruchomienie narzędzi AI bez wcześniejszego zdefiniowania metryk sukcesu. Bez punktu odniesienia nie ocenisz obiektywnie, czy wdrożenie przynosi wartość, czy tylko pali pieniądze. Zmierz stan obecny zanim cokolwiek włączysz – czas realizacji zadań, liczbę błędów, koszt jednostkowy procesu. Potem porównuj. Wielu menedżerów olewa ten krok, a potem nie potrafi uzasadnić projektu przed zarządem. Widziałem to nie raz.
Błąd numer dwa – próba automatyzacji wszystkiego naraz. Firma, która jednocześnie wdraża AI w pięciu działach, zwykle kończy z pięcioma niedokończonymi pilotażami zamiast jednego udanego. Lepsza strategia? Jeden obszar z najwyższym potencjałem zwrotu. Doprowadzasz do stabilnych wyników. Dopiero wtedy skalujesz. My zaczęliśmy od trzech działów jednocześnie, bo mieliśmy zasoby inżynierskie – większość firm tego komfortu nie ma i powinna startować od jednego pilota.
Trzecia pułapka – bezpieczeństwo danych i RODO. Wysyłanie danych klientów do zewnętrznych API modeli językowych bez analizy prawnej? To ryzyko, które może kosztować więcej niż wszystkie oszczędności z AI razem wzięte. Sprawdź warunki przetwarzania danych każdego dostawcy, rozważ anonimizację wrażliwych informacji przed wysyłką do modelu, pogadaj z prawnikiem od ochrony danych osobowych. I czwarty problem – brak human-in-the-loop, czyli ślepe zaufanie do wyników AI. Każdy model halucynuje. Każdy popełnia błędy. Pytanie tylko, czy ktoś je złapie zanim będzie za późno.
FAQ
Ile kosztuje wdrożenie AI w małej lub średniej firmie i od czego zacząć?
Zależy od skali i podejścia. Same API modeli językowych to wydatek rzędu 200-800 złotych miesięcznie dla małego zespołu – Claude API i GPT-4o rozliczają się za tokeny, GitHub Copilot kosztuje około 80 złotych za użytkownika. Większą pozycją bywa integracja z istniejącymi systemami i przygotowanie danych – przy rozwiązaniu RAG to może być od kilku dni do kilku tygodni pracy inżyniera. Jak zacząć? Pilotaż w jednym dziale. Wybierz obszar z największą liczbą powtarzalnych zadań, zmierz metryki bazowe, wdróż jedno narzędzie i oceń wyniki po miesiącu. Jak pilotaż potwierdzi oszczędności – rozszerzaj. Takie podejście minimalizuje ryzyko finansowe i pozwala uczyć się na małej skali, zanim wrzucisz poważne pieniądze w pełną automatyzację.
Podsumowanie
Trzy miesiące testów AI w Web Systems pokazały jedną rzecz ponad wszelką wątpliwość – AI to potężne narzędzie, ale nie magiczna różdżka. Realne oszczędności pojawiają się wtedy, gdy masz porządnie przygotowane dane, jasno zdefiniowane metryki i człowieka, który pilnuje całości. Chatbot RAG odciążył konsultantów – ale tygodnie kuracji bazy wiedzy to był warunek konieczny. Asystent copywritera przyspieszył produkcję treści – ale każdy tekst i tak przechodził przez ludzkie ręce. AI w dziale developerskim? Świetnie radzi sobie z testami i dokumentacją. Ale decyzje architektoniczne? To nadal domena doświadczonych inżynierów. I długo jeszcze będzie.
Nie pytaj, czy AI się opłaca. Pytaj, gdzie u Ciebie powtarzalne zadania pożerają czas ludzi, którzy mogliby robić coś wartościowszego. Tam zacznij pilotaż, zmierz efekty i dopiero na podstawie danych decyduj o skalowaniu. Firmy, które podchodzą do tego metodycznie – pilotaż w jednym dziale, stopniowe rozszerzanie – osiągają lepsze wyniki niż te, które próbują zautomatyzować wszystko na raz.
Jeśli rozważasz wdrożenie AI w swojej firmie – czy to chatbot dla obsługi klienta, automatyzację marketingu treści, czy wsparcie zespołu developerskiego – skontaktuj się z nami w Web Systems. Pomożemy Ci zaplanować pilotaż dopasowany do specyfiki Twojego biznesu, zintegrować narzędzia AI z istniejącymi systemami i zmierzyć realne oszczędności. Od 2006 roku budujemy rozwiązania, które działają w produkcji – nie na slajdach prezentacji.
