Przetestowałem chatbota AI z RAG w mojej firmie – oto co mnie zaskoczyło

  • Strona główna
  • Przetestowałem chatbota AI z RAG w mojej firmie – oto co mnie zaskoczyło
Przetestowałem chatbota AI z RAG w mojej firmie – oto co mnie zaskoczyło

Kiedy kolejny klient zapytał, czy chatbot AI faktycznie ogarnia odpowiadanie na pytania z firmowej dokumentacji, stwierdziliśmy – dość gadania, pora sprawdzić. W Web Systems budujemy aplikacje webowe od 2006 roku. Naturalny krok? Przetestować to na sobie. Na naszej wewnętrznej bazie wiedzy, procedurach projektowych, dokumentacji technicznej. Przez trzy miesiące męczyliśmy chatbota opartego na architekturze RAG i notowaliśmy wszystko – każdy sukces i każdą wpadkę. Ten artykuł to szczery raport z okopów. Bez upiększeń, bez wymyślonych case studies. Konkretne liczby, problemy, które nas zaskoczyły, i wnioski, które dziś przekazujemy klientom rozważającym podobne wdrożenie.

Czym jest RAG i dlaczego wybraliśmy ten wzorzec zamiast fine-tuningu

Retrieval-Augmented Generation to architektura, w której model językowy nie odpowiada wyłącznie z pamięci treningowej. Najpierw przeszukuje zewnętrzną bazę wiedzy, a dopiero potem generuje odpowiedź na podstawie znalezionych fragmentów. W praktyce? Połączenie inteligentnej wyszukiwarki z generatorem tekstu. Użytkownik zadaje pytanie, system odnajduje najbardziej trafne dokumenty, a LLM formułuje spójną odpowiedź osadzoną w faktach. I co ważne – nie trzeba ponownie trenować modelu za każdym razem, gdy ktoś zaktualizuje dokumentację.

„Mechanizm wyszukiwania w RAG ma krytyczne znaczenie. Potrzebujesz najlepszego wyszukiwania semantycznego na starannie przygotowanej bazie wiedzy, aby zapewnić, że pobierane informacje są istotne dla zapytania. Jeśli pobrane dane okażą się nieadekwatne, wygenerowana odpowiedź może być poprawnie ugruntowana, ale całkowicie nietrafiona tematycznie.” – Google / Gemini Enterprise Agent Platform

Fine-tuning? Rozważaliśmy na początku, ale szybko odpuściliśmy. Bo wymaga przygotowania tysięcy par pytanie-odpowiedź, kosztownego procesu trenowania i powtarzania całej zabawy przy każdej aktualizacji wiedzy. RAG pozwala po prostu wrzucić nowy dokument do bazy – chatbot od razu go widzi. Dla software house’u, w którym procedury zmieniają się co kwartał, ta elastyczność okazała się decydująca. No i koszt wdrożenia RAG był wielokrotnie niższy niż fine-tuning porównywalnej jakości.

  • Baza wiedzy – zbiór dokumentów firmowych w formatach PDF, DOCX i Markdown, oczyszczonych i podzielonych na fragmenty
  • Model embeddingów – przekształca tekst w wektory numeryczne umożliwiające wyszukiwanie semantyczne
  • Baza wektorowa – przechowuje embeddingi i obsługuje szybkie zapytania podobieństwa
  • Duży model językowy (LLM) – generuje odpowiedzi na podstawie pobranego kontekstu
  • Interfejs czatu – warstwa frontendowa, przez którą użytkownicy zadają pytania i otrzymują odpowiedzi

Taka modułowa architektura daje sporą swobodę. Chcesz zmienić model językowy? Nie musisz przebudowywać wyszukiwarki. Aktualizacja bazy wiedzy? Interfejs zostaje bez zmian. Całość skalujesz przyrostowo, w miarę jak organizacja rośnie.

Jak wyglądało wdrożenie krok po kroku – od surowych dokumentów do działającego chatbota

Zaczęliśmy od zebrania i oczyszczenia dokumentacji. Mieliśmy jakieś 400 plików – procedury projektowe w PDF, szablony ofert w DOCX, notatki z retrospektyw i fragmenty wewnętrznego wiki. Parsowanie poszło łatwiej, niż zakładaliśmy. Ale skany z OCR-em? Tragedia. Polskie znaki diakrytyczne były przekłamane na każdym kroku. Każdy dokument trzeba było zweryfikować ręcznie – czy wyekstrahowany tekst jest w ogóle czytelny dla modelu embeddingów.

Chunking, czyli dzielenie dokumentów na mniejsze fragmenty – tu popełniliśmy najwięcej błędów. I to takich, których mogliśmy uniknąć. Początkowo dzieliliśmy tekst mechanicznie co 500 tokenów, olewając granice sekcji i akapitów. Efekt? Opłakany. Odpowiedzi chatbota łączyły wątki z kompletnie różnych kontekstów, bo jeden chunk zawierał koniec jednego rozdziału i początek następnego. Dopiero jak przeszliśmy na podział respektujący nagłówki i logiczne bloki treści, jakość odpowiedzi skoczyła radykalnie w górę.

„Poza prostym zastąpieniem bazy wektorowej, watsonx Discovery oferuje gotowe wzbogacenia NLP, w tym ekstrakcję encji, analizę sentymentu, analizę emocji, ekstrakcję słów kluczowych, klasyfikację kategorii oraz tagowanie konceptów.” – IBM, dokumentacja watsonx

Wybraliśmy model embeddingów obsługujący język polski i bazę wektorową, która dawała radę z szybkim wyszukiwaniem nawet przy kilkudziesięciu tysiącach fragmentów. Sprawdziliśmy jakość wyszukiwania na próbce pytań jeszcze przed podłączeniem modelu generatywnego – i to była świetna decyzja. Tip: Zanim uruchomisz chatbota produkcyjnie, przygotuj zestaw 50-100 pytań testowych z oczekiwanymi odpowiedziami i sprawdź, czy wyszukiwarka semantyczna zwraca właściwe fragmenty – to pozwoli wychwycić problemy z chunkingiem na wczesnym etapie, zanim użytkownicy zaczną zgłaszać błędne odpowiedzi. Nam ten prosty krok zaoszczędził tygodni poprawek po wdrożeniu. Serio.

Co mnie zaskoczyło pozytywnie – trafność odpowiedzi i oszczędność czasu

Jakość odpowiedzi opartych na firmowej dokumentacji przebiła nasze oczekiwania. Chatbot potrafił precyzyjnie wskazać procedurę uruchamiania nowego projektu, technologie, które stosujemy w konkretnych typach wdrożeń, i miejsce, gdzie leży szablon umowy NDA. Ale nie chodziło tylko o poprawność merytoryczną. Odpowiedzi brzmiały naturalnie – nie jak fragmenty skopiowane z dokumentu, a jak wyjaśnienie doświadczonego kolegi z zespołu.

Największa niespodzianka? Onboarding nowych pracowników. Zamiast angażować seniora na kilka godzin dziennie przez pierwszy tydzień, nowy członek zespołu mógł zadawać pytania chatbotowi. Natychmiastowe, kontekstowe odpowiedzi. Czas wdrożenia w procedury firmowe skrócił się o jakieś 40 procent. Jasne, chatbot nie zastąpił mentora całkowicie, ale przejął najbardziej powtarzalne pytania. “Gdzie znajdę szablon?” “Jaki jest proces code review?” “Do kogo zgłosić problem z infrastrukturą?” Takie rzeczy.

System radził sobie z pytaniami wielowątkowymi lepiej, niż się spodziewaliśmy. Użytkownik mógł zapytać o różnicę między dwoma procedurami, a chatbot porównywał fragmenty z osobnych dokumentów i budował syntetyczną odpowiedź. W pierwszym miesiącu obsłużył ponad 1200 zapytań. 78 procent nie wymagało eskalacji do człowieka. Reszta dotyczyła głównie tematów, których brakowało w bazie, albo pytań wymagających decyzji biznesowej – i chatbot słusznie tych decyzji nie podejmował sam.

Dodatkowy bonus, którego się nie spodziewaliśmy – identyfikacja luk w dokumentacji. Analiza pytań, na które chatbot nie umiał odpowiedzieć, pokazała nam konkretne dziury wymagające uzupełnienia. Ten nieoczekiwany efekt uboczny sam w sobie usprawiedliwiał inwestycję w projekt.

Co mnie zaskoczyło negatywnie – pułapki, o których nikt nie pisze

Pierwsze rozczarowanie przyszło szybko. Wyszukiwarka semantyczna czasami zwracała fragmenty pozornie powiązane z pytaniem, ale zupełnie nietrafione w danym kontekście. Pytanie o “deployment na produkcję” przynosiło fragmenty o “wdrożeniu projektu” w sensie organizacyjnym, nie technicznym. Model generował wtedy odpowiedź poprawną językowo, ale kompletnie mijającą się z intencją pytającego. Te subtelne różnice semantyczne potrafiły zmylić nawet zaawansowane modele embeddingów. Frustrujące.

„Dzięki dostrajaniu lub inżynierii promptów nakierowanej na generowanie tekstu wyłącznie w oparciu o pobraną wiedzę, RAG pomaga minimalizować sprzeczności i niespójności w generowanym tekście. To znacząco poprawia jakość wytwarzanej treści oraz doświadczenie użytkownika.” – Google / Gemini Enterprise Agent Platform

Ale nawet z tym podejściem halucynacje nie zniknęły całkowicie. W około 5 procentach przypadków model ignorował dostarczony kontekst i jechał po swojemu – generował odpowiedzi na podstawie wiedzy treningowej. Czasem poprawne, czasem kompletnie zmyślone. Najgorsze były sytuacje, gdy kontekst był częściowo trafny. Model uzupełniał brakujące informacje własnymi konfabulacjami i tworzył odpowiedzi, które wyglądały wiarygodnie. A były fałszywe.

  1. Duplikaty w bazie wiedzy – ten sam dokument w różnych wersjach powodował sprzeczne odpowiedzi, bo model dostawał konfliktowe fragmenty
  2. Źle podzielone fragmenty – chunki rozcinające myśl w połowie zdania generowały niekompletne lub zdeformowane odpowiedzi
  3. Brak aktualnych danych – przestarzałe dokumenty wciąż figurowały w wynikach wyszukiwania i chatbot traktował je jako obowiązujące
  4. Zbyt ogólne zapytania użytkowników – pytania typu “jak to działa” bez kontekstu prowadziły do losowych odpowiedzi, bo wyszukiwarka nie miała dość sygnału do precyzyjnego dopasowania
  5. Konflikty między źródłami – gdy dwa dokumenty opisywały tę samą procedurę inaczej, model wybierał losowo lub mieszał oba podejścia

Każdy z tych problemów wymagał osobnego rozwiązania. Deduplicacja dokumentów, wersjonowanie bazy wiedzy, dodanie warstwy rerankingu, która ponownie oceniała trafność wyników przed przekazaniem ich do modelu. Nie ma tu jednego magicznego fixa.

Metryki i ewaluacja – jak mierzyliśmy jakość chatbota RAG

Podejście “wdrożymy i zobaczymy” padło w pierwszym tygodniu. Bez systematycznych pomiarów nie byliśmy w stanie odróżnić subiektywnego wrażenia od rzeczywistej poprawy. Przeszliśmy na model RAG Ops – iteracyjne doskonalenie oparte na konkretnych metrykach. Każda zmiana w chunkingu, promptach czy konfiguracji wyszukiwarki była mierzona i porównywana z poprzednim wynikiem. Więcej roboty? Tak. Ale eliminowało ślepe zaułki, w które wcześniej wchodziliśmy z rozpędu.

Zbudowaliśmy wewnętrzną platformę ewaluacyjną, która oceniała odpowiedzi na kilku osiach – spójność (czy odpowiedź trzyma się logicznie), płynność językową, ugruntowanie w źródłach (czy każde zdanie ma pokrycie w dostarczonym kontekście) i bezpieczeństwo (czy odpowiedź nie wprowadza w błąd). Każda z tych metryk dawała osobny sygnał o tym, co kuleje. Bo samo ugruntowanie nie gwarantuje jakości – odpowiedź może być poprawnie osadzona w źródłach, ale nieczytelna albo niespójna.

Najważniejszą metryką okazał się wskaźnik “groundedness” – procent twierdzeń w odpowiedzi mających bezpośrednie pokrycie w dostarczonych fragmentach. Na starcie? 71 procent. To oznaczało, że prawie co trzecie zdanie zawierało informacje spoza kontekstu. Nie najlepiej. Po trzech iteracjach optymalizacji promptów i przebudowie strategii chunkingu podnieśliśmy go do 89 procent. Równolegle poprawiliśmy trafność wyszukiwania o 23 punkty procentowe – a to przełożyło się na wyraźnie lepsze doświadczenie użytkowników.

Porównanie jakości przed i po optymalizacji pokazało coś, co warto zapamiętać. Największy skok dawała poprawa danych źródłowych, nie modyfikacja modelu. Lepsze parsowanie dokumentów, usunięcie duplikatów, dodanie metadanych do fragmentów – to przyniosło więcej niż eksperymenty z różnymi LLM-ami. Lekcja dla każdego, kto planuje wdrożenie: jakość bazy wiedzy determinuje jakość odpowiedzi bardziej niż wybór modelu. Testowalem to na własnej skórze.

FAQ – najczęstsze pytania o chatboty AI z RAG

Ile kosztuje wdrożenie chatbota RAG w średniej firmie?

Zależy od skali bazy wiedzy i wymagań integracyjnych. Proste MVP z kilkuset dokumentami i jednym kanałem (czat webowy) da się uruchomić w budżecie 15-40 tysięcy złotych. Bardziej zaawansowane rozwiązania – z integracją do CRM, wielojęzycznym wsparciem i zaawansowanym rerankingiem – to już 60-150 tysięcy złotych. Do tego dochodzą koszty operacyjne: hosting bazy wektorowej, opłaty za API modelu językowego i bieżąca aktualizacja bazy wiedzy. Łącznie od kilkuset do kilku tysięcy złotych miesięcznie.

Czy chatbot z RAG może zastąpić dział obsługi klienta?

Nie powinien. Ale skutecznie odciąża. Z naszego doświadczenia – dobrze wdrożony chatbot RAG przejmuje 60-80 procent powtarzalnych zapytań. Tych, na które odpowiedź siedzi w dokumentacji, regulaminie albo FAQ. Złożone przypadki, reklamacje wymagające empatii, sytuacje niestandardowe – tu nadal potrzeba człowieka. Najlepiej sprawdza się model hybrydowy. Chatbot obsługuje pierwszą linię i eskaluje trudniejsze sprawy do konsultanta z pełnym kontekstem rozmowy.

Jak długo trwa wdrożenie chatbota RAG od pomysłu do produkcji?

Realistycznie? 4-8 tygodni na MVP, 3-4 miesiące na pełne rozwiązanie produkcyjne. Pierwszy tydzień to audyt i przygotowanie bazy wiedzy. Kolejne dwa – budowa pipeline’u przetwarzania dokumentów, konfiguracja wyszukiwarki i integracja z modelem językowym. Ostatni tydzień MVP poświęcamy na testy jakościowe i iterację. A najczęstszy powód opóźnień? Niedoszacowanie czasu na oczyszczenie i ustrukturyzowanie dokumentacji źródłowej. Firmy regularnie odkrywają, że ich baza wiedzy jest bardziej chaotyczna, niż ktokolwiek podejrzewał.

Wnioski po trzech miesiącach – czy warto wdrażać RAG w firmie

Trzy miesiące testów dały nam obraz znacznie bardziej zniuansowany niż typowe marketingowe obietnice dostawców AI. RAG działa. Przynosi realne korzyści. Ale pod jednym warunkiem – ciągła praca nad jakością bazy wiedzy. To nie jest rozwiązanie typu “zainstaluj i zapomnij”. To żywy system wymagający regularnej aktualizacji dokumentów, monitoringu metryk i reagowania na nowe wzorce zapytań użytkowników.

Największa lekcja? Sukces wdrożenia RAG w 70 procentach zależy od jakości danych wejściowych, a tylko w 30 od technologii. Firmy z uporządkowaną dokumentacją, jasnymi procedurami i spójną bazą wiedzy osiągną dobre wyniki szybko. Organizacje z rozproszonymi, nieaktualnymi lub sprzecznymi źródłami – te muszą najpierw zainwestować w porządkowanie treści. Paradoks polega na tym, że sam proces przygotowania danych dla chatbota wymusza higienę informacyjną. A ta przynosi korzyści niezależnie od AI.

RAG sprawdza się najlepiej tam, gdzie jest duża baza powtarzalnych pytań z odpowiedziami ukrytymi w dokumentacji – obsługa klienta, onboarding pracowników, wsparcie techniczne, bazy wiedzy produktowej. Ale jeśli Twoje zapytania są głównie twórcze, wymagają podejmowania decyzji albo dotyczą danych spoza dokumentacji? Prostsze rozwiązanie – jak dobrze zorganizowane FAQ czy system ticketowy – może okazać się wystarczające. I tańsze w utrzymaniu.

Jeśli rozważasz wdrożenie chatbota AI w swojej firmie, integrację RAG z istniejącymi systemami lub chcesz zacząć od MVP, które zweryfikuje potencjał tej technologii w Twoim kontekście biznesowym – odezwij się do nas w Web Systems. Chętnie podzielimy się doświadczeniem i pomożemy uniknąć błędów, które sami popełniliśmy na starcie.

Zarezerwuj darmową konsultację

Zostaw numer telefonu lub umów spotkanie.