Jazykové modely pro vyhledávání: naučte stroj chápat význam jazyka

[14 minut čtení] Fulltextové hledání Seznamu prošlo během prvního čtvrtletí tohoto roku významnou technologickou proměnou, která měla dle našich interních měření i AB testů poměrně velký vliv na jeho kvalitu. Než se pustíme do nových technologií, pojďme si krátce připomenout klasický přístup k fulltextovému hledání, jehož základem je invertovaný index. V invertovaném indexu jsou uložena slova a ke každému slovu pak seznam dokumentů, které ho obsahují. Po zadání uživatelského dotazu se hledají dokumenty obsahující všechna jeho slova. V podstatě se tedy jedná o hledání klíčových slov, která uživatel zadal. Tento přístup k fulltextovému hledání má však několik docela zásadních omezení. https://www.root.cz/clanky/jazykove-modely-pro-vyhledavani-naucte-stroj-chapat-vyznam-jazyka/?utm_source=rss&utm_medium=text&utm_campaign=rss

Created 4y | Sep 7, 2021, 10:20:21 PM


Login to add comment

Other posts in this group

EU pokutuje pro ByteDance a X, Wine 10.5 uzavírá 21 let staré chybové hlášení

Intel zavádí adaptivní doostřování a VRAM self refresh pro Battlemage, Fujifilm opět zdražuje filmové materiály, Týden v KDE o Plasmě 6.4.0, Týden v GNOME #194 přináší nejen rychlý střihač videí. http

Apr 5, 2025, 11:30:03 PM | root.cz
Čtyřjádrový procesor už na linuxový desktop opět stačí

Loni v létě jsem možná měl pravdu, nicméně softwarový pokrok linuxového desktopu ze mě udělal během pár měsíců lháře. Není pravdou, že by na běžný linuxový desktop nestačilo stařičké čtyřjáro od Intel

Apr 3, 2025, 10:40:07 PM | root.cz
Model Context Protocol: vznikající standard pro potřeby aplikací využívajících AI a LLM (2.část)

Na praktických příkladech si ukážeme zpracování a deserializace dat vrácených MCP serverem, zjistíme, zda dokáže server obsloužit více klientů souběžně a na závěr si popíšeme posílání rastrových dat s

Apr 2, 2025, 11:30:08 PM | root.cz
SIEVE: algoritmus pro kešování lepší než LRU?

V počítačovém světě se dočasná data ukládají do keše pro hladký chod programů. Webové prohlížeče a CDN využívají kešování pro rychlejší přístup, ale omezená paměť vyžaduje efektivní cache-eviction alg

Apr 2, 2025, 11:30:06 PM | root.cz
Softwarová sklizeň (2. 4. 2025): sledujte logy a síťový provoz

Pravidelná sonda do světa software. Podíváme se na nástroj pro real-time sledování logovacích souborů, budeme pracovat s titulky a nakonec vyzkoušíme řešení pro monitoring síťového provozu. https://ww

Apr 1, 2025, 10:10:04 PM | root.cz
Musíme budovat odolné sítě pro svět plný hrozeb a AI, Peering Days 2025

Na konferenci Peering Days, která se konala 25. a 27. března v chorvatském Splitu, se odborníci z oblasti počítačových sítí sešli, aby hovořili o odolnosti internetových sítí, telemetrii a novinkách v

Apr 1, 2025, 10:10:03 PM | root.cz
EA otevřela tři hry, TR2X s podporou Linuxu

Společnost EA otevřela zdrojové kódy pro hry Command & Conquer, Red Alert, Command & Conquer Renegade a Command & Conquer Generals. Nejnovější vydání TR2X, open source reimplementace hry Tomb Raider I

Mar 31, 2025, 10:50:05 PM | root.cz