- មូលដ្ឋានគ្រឹះនៃការកោសគេហទំព័រ LangChain (ហើយហេតុអ្វីបានជាវាសំខាន់ឥឡូវនេះ)
- ជ្រើសរើសវិធីសាស្រ្តត្រឹមត្រូវមុនពេលអ្នកសរសេរកូដ
- សមាសធាតុ LangChain ដែលអ្នកនឹងប្រើសម្រាប់ការ Scraping
- ជ្រើសរើសឧបករណ៍ត្រឹមត្រូវសម្រាប់ការកោសគេហទំព័រ LangChain
- សម្អាត បំបែក និងធ្វើឱ្យមាតិកាដែលបានកោសអាចស្វែងរកបាន
- ភាពជឿជាក់ ការអនុលោមតាមច្បាប់ និងការមិនត្រូវបានរារាំង
- អ្វីដែលបានផ្លាស់ប្តូរថ្មីៗនេះ (និងអ្វីដែលអ្នកចាប់ផ្តើមដំបូងគួរធ្វើអំពីវា)
- គំនិតគម្រោងសម្រាប់អ្នកចាប់ផ្តើមដំបូង (ជាមួយនឹងលទ្ធផលច្បាស់លាស់ និងជាក់លាក់)
- បញ្ជីត្រួតពិនិត្យការដោះស្រាយបញ្ហា (នៅពេលដែលឧបករណ៍ Scraper របស់អ្នកខូច)
- សន្និដ្ឋាន
ការកោសគេហទំព័រ LangChain គឺជាដំណើរការនៃការផ្ទុកទំព័រគេហទំព័រចូលទៅក្នុង LangChain ឯកសារ (អត្ថបទស្អាត បូករួមទាំងទិន្នន័យមេតាដែលអាចតាមដានបានដូចជា URL ប្រភព) បន្ទាប់មករៀបចំខ្លឹមសារនោះសម្រាប់ជំហាន LLM ខាងក្រោមដូចជាការបែងចែក ការបង្កប់ និងការទាញយក។ ជំនួសឱ្យការ "ចាប់យក HTML" អ្នកបង្កើតបំពង់បញ្ចូលដែលអាចធ្វើម្តងទៀតបាន ដែលបង្កើតខ្លឹមសារដែលអាចអានបាន និងអាចស្វែងរកបាន ដែលអ្នកអាចដកស្រង់ ត្រង និងបំបាត់កំហុសនៅពេលក្រោយ។
ការណែនាំនេះនៅតែអាចអនុវត្តបាន៖ អ្នកនឹងជ្រើសរើសវិធីសាស្រ្ត scraping ស្រាលបំផុតដែលដំណើរការ (HTML ឋិតិវន្ត ការបង្ហាញ JavaScript ឬការវារផែនទីគេហទំព័រ) កាត់បន្ថយ boilerplate ដូច្នេះការទាញយកនៅតែច្បាស់លាស់ និងបន្ថែមរបាំងការពារដែលរក្សា scrapers ឱ្យមានស្ថេរភាពនៅពេលដែលគេហទំព័រផ្លាស់ប្តូរ និងការការពារ bot កាន់តែតឹងរ៉ឹង។
- ប្រសិនបើអ្នកកំពុងសាងសង់ រ៉ាក (ជំនាន់ទាញយកបន្ថែម) ការស្វែងរកផ្ទៃក្នុង បូតចំណេះដឹង ការត្រួតពិនិត្យ/ការជូនដំណឹង ឬរូបថតអេក្រង់ប្រកួតប្រជែង ការបង្ហោះនេះបង្ហាញពីលំនាំកោសដែលមាននៅក្នុងបំពង់បង្ហូរទិន្នន័យពិតប្រាកដ។
- ប្រសិនបើអ្នកគ្រាន់តែត្រូវការនាំចេញសំណុំទិន្នន័យម្តងប៉ុណ្ណោះ អ្នកនៅតែអាចប្រើឧទាហរណ៍នៅទីនេះបាន—គ្រាន់តែរំលងជំហានដែលផ្តោតលើការទាញយក ហើយរក្សាទម្លាប់សម្អាត + ទិន្នន័យមេតា។
មូលដ្ឋានគ្រឹះនៃការកោសគេហទំព័រ LangChain (ហើយហេតុអ្វីបានជាវាសំខាន់ឥឡូវនេះ)

១. អត្ថន័យនៃពាក្យ “Scraping” នៅខាងក្នុង LangChain
នៅក្នុង LangChain ការ scraping ជាធម្មតាមានន័យថា "ផ្ទុកមាតិកា និងប្រគល់ឯកសារវិញ"។ ឯកសារគឺជាបណ្តុំតូចមួយដែលរួមបញ្ចូល មាតិកា_ទំព័រ បូករួមទាំងទិន្នន័យមេតាដូចជា URL ប្រភព។ រចនាសម្ព័ន្ធនោះមានសារៈសំខាន់ព្រោះវារក្សាបំពង់បង្ហូរទិន្នន័យរបស់អ្នកឱ្យមានភាពស៊ីសង្វាក់គ្នាចាប់ពីការទទួលទានរហូតដល់ការទាញយកមកវិញ។
ដូច្នេះ គោលដៅមិនមែនជាការវិភាគ HTML ដ៏ល្អឥតខ្ចោះនោះទេ។ គោលដៅគឺការស្រូបយកអត្ថបទដែលអាចទុកចិត្តបានជាមួយនឹងបរិបទដែលអ្នកអាចតាមដាននៅពេលក្រោយ។
2. ហេតុអ្វីបានជាការកោសមានអារម្មណ៍ខុសគ្នានៅក្នុងបំពង់បង្ហូរ LLM
ការកោសបែបបុរាណច្រើនតែបញ្ចប់ដោយជួរដេកនៅក្នុងឯកសារ CSV។ លំហូរការងារ LLM បញ្ចប់ដោយសំណួរ សេចក្តីសង្ខេប និងការដកស្រង់។ នោះផ្លាស់ប្តូររូបរាងរបស់ "ទិន្នន័យល្អ"។
អ្នកចង់បានការរំខានតិចជាងមុន។ អ្នកចង់បានអត្តសញ្ញាណទំព័រដែលមានស្ថេរភាព។ អ្នកក៏ចង់បានព្រំដែននៃបណ្តុំដែលរក្សាអត្ថន័យផងដែរ ពីព្រោះការបង្កប់ផ្តល់រង្វាន់ដល់អត្ថបទដែលស៊ីសង្វាក់គ្នា។
៣. បណ្ដាញអ៊ីនធឺណិតកាន់តែមានសំឡេងរំខាន លឿនជាងមុន និងស្វ័យប្រវត្តិជាងមុន
ការ Scraping ឥឡូវនេះស្ថិតនៅចំកណ្តាលនៃបណ្តាញដែលជំរុញដោយម៉ាស៊ីន។ របាយការណ៍ Imperva Bad Bot ឆ្នាំ 2025 និយាយថា ចរាចរណ៍ bot ដោយស្វ័យប្រវត្តិបានវ៉ាដាច់ចរាចរណ៍របស់មនុស្ស ដោយឈានដល់ ៥១% នៃចរាចរណ៍គេហទំព័រទាំងអស់នៅឆ្នាំ ២០២៤.
ក្នុងពេលជាមួយគ្នានេះ ស្វ័យប្រវត្តិកម្ម "អាក្រក់" នៅតែបន្តកើនឡើង។ កំណត់ចំណាំនៃការរាយការណ៍លើការរកឃើញដូចគ្នារបស់ Imperva 37% នៃចរាចរណ៍បានមកពី bots ព្យាបាទដែលពន្យល់ពីមូលហេតុដែលគេហទំព័រជាច្រើនមានប្រតិកម្មយ៉ាងខ្លាំងចំពោះគំរូសំណើមិនធម្មតា។
ការការពារក៏ពិបាកតាមទាន់ដែរ។ DataDome ត្រូវបានសាកល្បង គេហទំព័រជិត ១៧.០០០ នៅទូទាំង ២២ ឧស្សាហកម្មហើយលទ្ធផលបង្ហាញពីរបៀបដែលការការពារមិនស៊ីសង្វាក់គ្នាមើលទៅនៅទូទាំងបណ្ដាញសាធារណៈ។
និន្នាការទាំងនោះជំរុញអ្នកចាប់ផ្តើមថ្មីឆ្ពោះទៅរកគំរូដ៏រឹងមាំជាងមុន៖ ការកំណត់អត្រាខ្លាំង ភ្នាក់ងារអ្នកប្រើប្រាស់ដែលអាចព្យាករណ៍បាន ការរក្សាទុកក្នុងឃ្លាំងសម្ងាត់ និង (នៅពេលចាំបាច់) ការបង្ហាញដោយផ្អែកលើកម្មវិធីរុករក។
ជ្រើសរើសវិធីសាស្រ្តត្រឹមត្រូវមុនពេលអ្នកសរសេរកូដ

- ប្រើប្រាស់ API ផ្លូវការ នៅពេលដែលមាន៖ ទិន្នន័យស្អាតជាងមុន ការអនុញ្ញាតកាន់តែច្បាស់ ការភ្ញាក់ផ្អើលលើប្លង់តិចជាងមុន។
- ប្រើការផ្ទុក HTML ឋិតិវន្ត សម្រាប់ទំព័រដែលផ្តោតលើអត្ថបទជាមុន (ឯកសារ ប្លក់ គោលការណ៍) ដែល "មើលប្រភព" មានខ្លឹមសារដែលអ្នកត្រូវការ។
- ប្រើការបង្ហាញ JavaScript លុះត្រាតែខ្លឹមសារពិតជាផ្ទុកបន្ទាប់ពីការស្នើសុំដំបូង (ផ្លូវ SPA ការទាញយកពីផ្នែកអតិថិជន ស្ថានភាព UI ដែលមាន gated)។
- ប្រើផែនទីគេហទំព័រ នៅពេលអ្នកចង់បានការគ្របដណ្តប់ទូទាំងគេហទំព័រដោយគ្មានការដេញតាមតំណភ្ជាប់រញ៉េរញ៉ៃ និងអន្ទាក់វារដោយចៃដន្យ។
- ប្រើ API crawler/scraping ដែលគ្រប់គ្រង នៅពេលដែល anti-bot, JS ធ្ងន់ ឬមាត្រដ្ឋានធ្វើឱ្យ DIY ផុយស្រួយ—បន្ទាប់មកបញ្ចូលទិន្នផលដែលបានសម្អាតទៅក្នុងឯកសារ LangChain តាមរបៀបដូចគ្នា។
១. ចូលចិត្ត API ផ្លូវការនៅពេលដែលអ្នកអាចធ្វើបាន
ប្រសិនបើគេហទំព័រផ្តល់ជូន API សូមចាប់ផ្តើមនៅទីនោះ។ API ជាធម្មតាផ្តល់ទិន្នន័យស្អាតជាងមុន ការផ្លាស់ប្តូរប្លង់តិចជាងមុន និងការអនុញ្ញាតកាន់តែច្បាស់។ អ្នកក៏ចំណាយពេលតិចក្នុងការបំបាត់កំហុសឧបករណ៍ជ្រើសរើស CSS ដែលខូចផងដែរ។
នៅពេលដែលអ្នកមិនអាចប្រើ API បាន សូមកោសយកតែអ្វីដែលអ្នកត្រូវការប៉ុណ្ណោះ។ ជម្រើសតែមួយនោះនឹងធ្វើឱ្យបំពង់បង្ហូររបស់អ្នកលឿនជាងមុន និងមានស្ថេរភាពជាងមុន។
2. ប្រើការផ្ទុក HTML ឋិតិវន្តសម្រាប់ទំព័រ "អត្ថបទជាមុន"
ការផ្ទុកឋិតិវន្តដំណើរការល្អបំផុតសម្រាប់ឯកសារ ប្រកាសប្លក់ អត្ថបទមជ្ឈមណ្ឌលជំនួយ និងទំព័រច្បាប់។ ទំព័រទាំងនេះច្រើនតែបង្ហាញខ្លឹមសារភាគច្រើននៅក្នុង HTML ដំបូង។
ក្នុងករណីទាំងនោះ កម្មវិធីផ្ទុកទិន្នន័យសាមញ្ញមួយ បូករួមទាំងការសម្អាត គឺល្អជាងកម្មវិធីរុករកដែលគ្មានក្បាល។ អ្នកកាត់បន្ថយថ្លៃដើម ភាពស្មុគស្មាញ និងចំណុចបរាជ័យ។
៣. បង្ហាញ JavaScript តែនៅពេលដែលទំព័រទាមទារវា
គេហទំព័រទំនើបជាច្រើនបញ្ជូនសែលទទេមួយ ហើយផ្ទុកខ្លឹមសារតាមរយៈ JavaScript។ ប្រសិនបើ “មើលប្រភព” មើលទៅស្ដើង ប៉ុន្តែទំព័របង្ហាញខ្លឹមសារសម្បូរបែបនៅក្នុងកម្មវិធីរុករក អ្នកទំនងជាត្រូវការផ្លូវស្វ័យប្រវត្តិកម្មកម្មវិធីរុករក។
ទោះជាយ៉ាងណាក៏ដោយ ចូរចាត់ទុកការបង្ហាញ JS ដូចជាឧបករណ៍ថាមពលមួយ។ វាដំណើរការ ប៉ុន្តែវាអាចកាត់បន្ថយអ្នកបាន ប្រសិនបើអ្នកដំណើរការវាក្នុងទ្រង់ទ្រាយធំដោយគ្មានរបាំងការពារ។
៤. វារដោយប្រុងប្រយ័ត្ន (ផែនទីគេហទំព័រ យកឈ្នះលើការដេញតាមតំណភ្ជាប់ដោយងងឹតងងល់)
អ្នកចាប់ផ្តើមដំបូងច្រើនតែព្យាយាមវារដោយកោសតំណភ្ជាប់ ហើយធ្វើតាមពួកវាម្តងហើយម្តងទៀត។ វិធីសាស្ត្រនោះប្រែជារញ៉េរញ៉ៃយ៉ាងឆាប់រហ័ស។
ផែនទីគេហទំព័រផ្តល់ឱ្យអ្នកនូវបញ្ជីទំព័រដែលស្អាតជាងមុន និងមានបំណងច្រើនជាងមុន។ អ្នកក៏ជៀសវាងការវិលជុំដោយចៃដន្យ ប្រតិទិនគ្មានកំណត់ និងទំព័រ "ខ្លឹមសារពាក់ព័ន្ធ" គ្មានទីបញ្ចប់ផងដែរ។
សមាសធាតុ LangChain ដែលអ្នកនឹងប្រើសម្រាប់ការ Scraping

១. ឧបករណ៍ផ្ទុកឯកសារ៖ ចំណុចចូលរបស់អ្នក
កម្មវិធីផ្ទុកទិន្នន័យ និងបញ្ចេញឯកសារ។ សម្រាប់ខ្លឹមសារគេហទំព័រ ជាទូទៅអ្នកនឹងប្រើកម្មវិធីផ្ទុកដែលទាញយក URL ដោយផ្ទាល់ ឬវារផែនទីគេហទំព័រ។
ប្រសិនបើអ្នកចង់បានចំណុចចាប់ផ្តើមជាក់ស្តែង សូមប្រើ WebBaseLoader។ វាផ្តល់ឱ្យអ្នកនូវផ្លូវលឿនមួយពី URL ទៅកាន់លទ្ធផលដូចអក្សរ ហើយអ្នកអាចកែលម្អពីទីនោះដោយប្រើជំហានសម្អាត។
2. Transformers៖ ប្រភពដើមនៃអត្ថបទស្អាត
ទំព័របណ្ដាញភាគច្រើនរួមមានការរុករក បដាខូគី បាតកថា និងរបារចំហៀងដដែលៗ។ ជំហានបំលែងរូបភាពជួយអ្នកឱ្យលុបបំបាត់សំឡេងរំខាន ដូច្នេះការបង្កប់របស់អ្នកផ្តោតលើខ្លឹមសារ។
សូមគិតអំពី Transformers ជាជំហាន "ធ្វើឱ្យវាអាចអានបាន"។ ពួកវាមិនត្រឹមតែកាត់បន្ថយថូខឹនប៉ុណ្ណោះទេ។ ពួកវាធ្វើអោយប្រសើរឡើងនូវគុណភាពនៃការទាញយក។
៣. ឧបករណ៍បំបែក ការបង្កប់ និងការទាញយក៖ គោលដៅធម្មតា
បន្ទាប់ពីអ្នកផ្ទុក និងសម្អាតខ្លឹមសាររួច ជាធម្មតាអ្នកបំបែកវាជាដុំៗ បង្កប់វា ហើយរក្សាទុកវានៅក្នុងមូលដ្ឋានទិន្នន័យវ៉ិចទ័រ។ បន្ទាប់មកអ្នកទាញយកដុំៗនៅពេលសាកសួរ។
ជ្រើសរើសឧបករណ៍ត្រឹមត្រូវសម្រាប់ការកោសគេហទំព័រ LangChain
| វិធីសាស្រ្ត | ល្អបំផុតសម្រាប់ | ហេតុអ្វីវាដំណើរការ | ប្រយ័ត្ន | ឡាងឆាយន ហ្វីត |
|---|---|---|---|---|
| API ផ្លូវការ | ទិន្នន័យដែលមានស្ថេរភាព និងមានរចនាសម្ព័ន្ធ | បន្ទុកផ្ទុកស្អាត ការផ្លាស់ប្តូរប្លង់តិចជាងមុន | ការអនុញ្ញាត, កូតា, វាលមានកំណត់ | បម្លែងការឆ្លើយតបទៅជាឯកសារ + ទិន្នន័យមេតា |
| កំពុងផ្ទុក HTML ឋិតិវន្ត | ឯកសារ ប្លក់ គោលការណ៍ | លឿន ថោក គ្រឿងបន្លាស់តិចជាងមុន | សំឡេងរំខានពីឡចំហាយប្រសិនបើអ្នកមិនច្រោះ | WebBaseLoader + តម្រង HTML / Transformers |
| ការបង្ហាញ JavaScript | SPAs, ទំព័រដែលបង្ហាញដោយអតិថិជន | ចាប់យកខ្លឹមសារក្រោយការផ្ទុក | យឺត រលុងក្នុងទ្រង់ទ្រាយធំដោយគ្មានរបាំងការពារ | AsyncChromiumLoader + Html2TextTransformer |
| ការរុករកផែនទីគេហទំព័រ | ការគ្របដណ្តប់គេហទំព័រដោយចេតនា | URL ដែលអាចទស្សន៍ទាយបានត្រូវបានកំណត់ ជៀសវាងអន្ទាក់វារ | ត្រូវការត្រងដើម្បីជៀសវាងការស្ទួន | កម្មវិធី SitemapLoader + តម្រងលំនាំ URL |
| API ស្កែនវើរ/ស្កែនដែលគ្រប់គ្រង | ប្រឆាំងបូត, JS ស្មុគស្មាញ, មាត្រដ្ឋាន | ការបែកតិច ជម្រើសនៃការស្រង់ចេញស្អាតជាងមុន | ថ្លៃដើម ការពឹងផ្អែករបស់អ្នកលក់ និងការអនុលោមតាមនៅតែត្រូវបានទាមទារ | រុំលទ្ធផលទៅក្នុងឯកសារជាប់លាប់ |
ឧទាហរណ៍ទី 1: កោសទំព័រសាមញ្ញមួយជាមួយ WebBaseLoader

១. ដំឡើង និងផ្ទុក URL មួយ
នៅពេលដែលទំព័របង្ហាញខ្លឹមសារជា HTML សូមចាប់ផ្តើមជាមួយ WebBaseLoader។ ឯកសារផ្លូវការបង្ហាញផ្លូវផ្ទាល់សម្រាប់ ការប្រើប្រាស់ WebBaseLoader.
# pip install -U langchain-community beautifulsoup4from langchain_community.document_loaders import WebBaseLoaderurl = "https://example.com/"loader = WebBaseLoader(url)docs = loader.load()print(docs[0].metadata)print(docs[0].page_content[:400])វាផ្តល់ឱ្យអ្នកនូវឯកសារដែលអ្នកអាចរក្សាទុក បំបែក ឬសម្អាត។ បន្ទាប់មក អ្នកគួរតែកាត់បន្ថយសំឡេងរំខាន ហើយរក្សាទុកតែខ្លឹមសារដែលអ្នកត្រូវការប៉ុណ្ណោះ។
2. ត្រងទៅផ្នែកទំព័រដែលអ្នកពិតជាត្រូវការ
ទំព័រជាច្រើនរួមបញ្ចូល boilerplate ដែលធ្វើឱ្យប៉ះពាល់ដល់ភាពពាក់ព័ន្ធនៃការស្វែងរក។ ដូច្នេះ កុំទទួលយក raw page_content ជា "រួចរាល់"។ ផ្ទុយទៅវិញ សូមត្រង HTML មុនពេលអ្នកប្រែក្លាយវាទៅជាអត្ថបទធម្មតា។
វិធីសាស្រ្តជាក់ស្តែងមួយ៖ កំណត់គោលដៅកុងតឺន័រអត្ថបទសំខាន់ បន្ទាប់មកទម្លាក់បឋមកថា ការរុករក បាតកថា និងម៉ូឌុលខូគី។ អ្នកអាចធ្វើដូច្នេះបានដោយកំណត់រចនាសម្ព័ន្ធច្បាប់វិភាគ BeautifulSoup (ឬដោយអត្ថបទក្រោយដំណើរការ) អាស្រ័យលើគេហទំព័ររបស់អ្នក។
import bs4from langchain_community.document_loaders import WebBaseLoaderurl = "https://your-docs-site.com/some-article"loader = WebBaseLoader( web_paths=[url], bs_kwargs=dict( parse_only=bs4.SoupStrainer(["article", "main"]) ),)docs = loader.load()clean_text = docs[0].page_contentឥឡូវនេះ បំណែករបស់អ្នកមានខ្លឹមសារដែលមើលទៅដូចជា "ឯកសារ" និងមិនសូវដូចជា "ការរុំព័ទ្ធគេហទំព័រ" ទេ។ ការផ្លាស់ប្តូរនោះធ្វើអោយប្រសើរឡើងទាំងការបង្កប់ និងសេចក្តីសង្ខេប។
៣. បន្ថែមទិន្នន័យមេតាដែលអ្នកនឹងប្រើនៅពេលក្រោយ
ទិន្នន័យមេតាធ្វើឱ្យបំពង់របស់អ្នកអាចបំបាត់កំហុសបាន។ វាក៏ធ្វើឱ្យចម្លើយកាន់តែគួរឱ្យទុកចិត្តផងដែរ នៅពេលអ្នកបង្ហាញប្រភពដល់អ្នកប្រើប្រាស់។
យ៉ាងហោចណាស់ សូមរក្សា URL។ បន្ទាប់មកបន្ថែមវាលដូចជាឈ្មោះផ្នែក ឈ្មោះផលិតផល ឬត្រាពេលវេលាវារនៅក្នុងកូដផ្ទាល់ខ្លួនរបស់អ្នក។
from datetime import datetime, timezonedoc = docs[0]doc.metadata["crawl_time_utc"] = datetime.now(timezone.utc).isoformat()doc.metadata["collection"] = "public_docs"ក្រោយមក អ្នកអាចត្រងការទាញយកតាមទិន្នន័យមេតា ឬអ្នកអាចបង្ហាញទិន្នន័យមេតានៅក្នុងការដកស្រង់។
ឧទាហរណ៍ទី 2: កោសទំព័រ JavaScript ជាមួយ Async Chromium (Playwright)

១. ដឹងថាពេលណាដែលការបង្ហាញ JavaScript ទទួលបានផលចំណេញ
ប្រើការបង្ហាញ JS នៅពេលដែលទំព័រផ្ទុកខ្លឹមសារបន្ទាប់ពីការស្នើសុំដំបូង។ សញ្ញាទូទៅរួមមានសែល HTML ទទេ ការបញ្ជូនបន្តផ្នែកខាងអតិថិជនច្រើន ឬខ្លឹមសារដែលលេចឡើងតែបន្ទាប់ពីការហៅ API នៅក្នុងកម្មវិធីរុករកតាមអ៊ីនធឺណិត។
មុនពេលអ្នកប្តូរ សូមបញ្ជាក់បញ្ហា។ បើក DevTools បិទ JavaScript ហើយផ្ទុកឡើងវិញ។ ប្រសិនបើខ្លឹមសារបាត់ អ្នកទំនងជាត្រូវការផ្លូវកម្មវិធីរុករក។
2. ផ្ទុកទំព័រជាមួយ AsyncChromiumLoader
LangChain ផ្តល់នូវផ្លូវធ្វើសមាហរណកម្មសម្រាប់ AsyncChromiumLoaderដែលប្រើ Playwright នៅក្រោមគម្រប។ វាសមល្អនៅពេលដែលអ្នកត្រូវការ HTML ដែលបានបង្ហាញ ហើយអ្នកនៅតែចង់បានឯកសារជាលទ្ធផល។
# pip install -U playwright beautifulsoup4 html2text# playwright installimport asynciofrom langchain_community.document_loaders import AsyncChromiumLoaderfrom langchain_community.document_transformers import Html2TextTransformerasync def scrape_js_page(url: str): loader = AsyncChromiumLoader([url]) docs = await loader.aload() transformer = Html2TextTransformer() docs = transformer.transform_documents(docs) return docs[0]doc = asyncio.run(scrape_js_page("https://example.com/some-js-page"))print(doc.page_content[:500])គំរូនេះដំណើរការបានល្អសម្រាប់ទំព័រ "អានតែប៉ុណ្ណោះ"។ បន្ទាប់មក អ្នកគួរតែធ្វើឱ្យវាមានស្ថេរភាព ដើម្បីកុំឱ្យវាខូចនៅពេលដែលទំព័រផ្ទុកយឺត។
៣. ធ្វើឱ្យលទ្ធផលមានស្ថេរភាពជាមួយនឹងច្បាប់សាមញ្ញៗ
ទំព័រ JS បរាជ័យក្នុងវិធីដែលអាចទស្សន៍ទាយបាន។ ពួកវាអស់ពេល។ ពួកវាផ្ទុកខ្លឹមសារដោយផ្នែក។ ពួកវាបង្ហាញជញ្ជាំងយល់ព្រម។ ពួកវាបញ្ជូនបន្តដោយផ្អែកលើការរកឃើញភូមិសាស្ត្រ ឬការរកឃើញបូត។
ដូច្នេះ សូមបន្ថែមរបាំងការពារជាមុន។ ឧទាហរណ៍ សាកល្បងម្តងទៀតលើពេលវេលាអស់ រកឃើញខ្លឹមសារទទេ និងកត់ត្រា URL ចុងក្រោយបន្ទាប់ពីការបញ្ជូនបន្ត។ លើសពីនេះ សូមជ្រើសរើសយកការស្រង់ចេញពីកុងតឺន័រដែលមានស្ថេរភាព នៅពេលដែលគេហទំព័រផ្តល់ជូនមួយ។
ឧទាហរណ៍ទី 3: វារគេហទំព័រតូចមួយដោយប្រើផែនទីគេហទំព័រ

១. ចាប់ផ្តើមពីផែនទីគេហទំព័រជំនួសឱ្យការទាយ URL
ផែនទីគេហទំព័រផ្តល់ឱ្យអ្នកនូវបញ្ជីទំព័រដែលបានរៀបចំយ៉ាងល្អ។ វាក៏បង្រួមវិសាលភាពផងដែរ ដែលជួយអ្នកឱ្យរក្សាការគោរពចំពោះគេហទំព័រគោលដៅ។
LangChain គាំទ្រការវារពីផែនទីគេហទំព័រជាមួយ កម្មវិធីផ្ទុកផែនទីគេហទំព័រដែលពង្រីកគំនិតដូចគ្នានឹង WebBaseLoader។
from langchain_community.document_loaders import SitemapLoadersitemap_url = "https://your-site.com/sitemap.xml"loader = SitemapLoader(web_path=sitemap_url)docs = loader.load()print(len(docs))print(docs[0].metadata)បន្ទាប់ពីអ្នកទាញយកទំព័រនានាហើយ អ្នកគួរតែកាត់បន្ថយសំណុំទិន្នន័យទៅតាមអ្វីដែលករណីប្រើប្រាស់របស់អ្នកត្រូវការ។
2. ត្រងទំព័រដែលប៉ះពាល់ដល់ការទាញយក
ផែនទីគេហទំព័រជាច្រើនរួមមានទំព័រស្លាក ទំព័រអ្នកនិពន្ធ និងទំព័រស្វែងរកផ្ទៃក្នុង។ ទំព័រទាំងនោះធ្វើអត្ថបទដដែលៗ និងបន្ថែមតម្លៃតិចតួច។
ដូច្នេះ សូមត្រងតាមលំនាំ URL។ រក្សាទុក “/docs/” និង “/blog/” ប្រសិនបើពួកវាត្រូវគ្នានឹងខ្លឹមសារគោលដៅរបស់អ្នក។ ទម្លាក់ “/tag/” និង “/page/” ប្រសិនបើពួកវាបង្កើតស្ទួន។
def keep(url: str) -> bool: return ("/docs/" in url) and ("/tag/" not in url)docs = [d for d in docs if keep(d.metadata.get("source", ""))]ឥឡូវនេះ សំណុំទិន្នន័យគាំទ្រការឆ្លើយសំណួរកាន់តែប្រសើរ។ បន្ទាប់មក អនុវត្តល្បឿន ដើម្បីកុំឱ្យគេហទំព័រចាត់ទុកអ្នកដូចជាបូតអរិភាព។
៣. បន្ថែមដែនកំណត់អត្រា ការរក្សាទុកក្នុងឃ្លាំងសម្ងាត់ និងការព្យាយាមឡើងវិញមុនកាលកំណត់
ការកំណត់អត្រាការពារគេហទំព័រគោលដៅ និងការពារកេរ្តិ៍ឈ្មោះ IP របស់អ្នក។ ការដាក់ក្នុងឃ្លាំងសម្ងាត់ការពារថវិការបស់អ្នក និងបង្កើនល្បឿននៃការធ្វើម្តងទៀត។
សូម្បីតែឃ្លាំងសម្ងាត់ក្នុងស្រុកសាមញ្ញមួយដែលត្រូវបានវាយលេខកូដដោយ URL ក៏អាចជួយបានដែរ។ លើសពីនេះ សូមសាកល្បងកំហុសបណ្តោះអាសន្នឡើងវិញជាមួយនឹងការបិទប្រព័ន្ធ។ ជំហានតូចៗទាំងនេះកាត់បន្ថយភាពមិនស៊ីសង្វាក់គ្នាច្រើនជាងការរំពឹងទុករបស់អ្នកចាប់ផ្តើមដំបូងភាគច្រើន។
សម្អាត បំបែក និងធ្វើឱ្យមាតិកាដែលបានកោសអាចស្វែងរកបាន

១. សម្អាតអត្ថបទដូចជាអ្នកអាន មិនមែនដូចមនុស្សយន្តទេ
ការសម្អាតសម្រេចថាគំរូ «មើលឃើញ» អ្វី។ ដូច្នេះ ការសម្អាតដោយផ្អែកលើបទពិសោធន៍អាន។
លុបធាតុរុករកដដែលៗ។ បោះបង់ប្លុកចុះឈ្មោះព្រឹត្តិប័ត្រព័ត៌មាន។ បង្រួមចន្លោះទទេលើស។ រក្សាចំណងជើង ពីព្រោះចំណងជើងណែនាំអត្ថន័យ និងកែលម្អការស្វែងរក។
ប្រសិនបើអ្នកត្រូវការការសម្អាតដែលមានរចនាសម្ព័ន្ធ LangChain ក៏គាំទ្រការប្រើប្រាស់ Beautiful Soup ជាឧបករណ៍បំលែងតាមរយៈ ស៊ុបដ៏ស្រស់ស្អាត Transformer.
២. ដុំមួយដែលមានគោលបំណង
ការបំបែកស្នាដៃមិនមែនជាផ្លូវការទេ។ វាបង្កើតជាការរំលឹកឡើងវិញ និងភាពជាក់លាក់។
ប្រើផ្នែកតូចៗសម្រាប់ទំព័រដែលស្រដៀងនឹងសំណួរដែលសួរញឹកញាប់។ ប្រើផ្នែកធំៗសម្រាប់ឯកសារនិទានរឿង។ រក្សាចំណងជើងនៅពេលដែលអាចធ្វើទៅបាន ពីព្រោះចំណងជើងដើរតួដូចជាស្លាកដែលធ្វើឲ្យការស្វែងរកអត្ថន័យប្រសើរឡើង។
៣. បង្កើតឆ្កែ Retriever ដែលត្រូវនឹងករណីប្រើប្រាស់របស់អ្នក
បន្ទាប់ពីអ្នកបង្កប់បំណែកទិន្នន័យរួច សូមជ្រើសរើសវិធីសាស្រ្តទាញយកដែលសមនឹងសំណួររបស់អ្នក។ ឧទាហរណ៍ ប្រើការស្វែងរកភាពស្រដៀងគ្នាសម្រាប់សំណួរទូលំទូលាយ។ ប្រើតម្រងទិន្នន័យមេតាសម្រាប់សំណួរជាក់លាក់នៃផលិតផល។
ដូចគ្នានេះដែរ សូមរក្សាទិន្នន័យមេតា "URL ប្រភព" របស់អ្នកឱ្យនៅដដែល។ វាលតែមួយនោះធ្វើឱ្យការបំបាត់កំហុស និងការជឿទុកចិត្តរបស់អ្នកប្រើប្រាស់កាន់តែងាយស្រួល។
ភាពជឿជាក់ ការអនុលោមតាមច្បាប់ និងការមិនត្រូវបានរារាំង

១. ចាត់ទុកការកោសជាវិស្វកម្មចរាចរណ៍
ឥឡូវនេះ បណ្ដាញអ៊ីនធឺណិតមានចរាចរណ៍ដែលមិនមែនជាមនុស្សច្រើន។ Cloudflare រាយការណ៍ថា ចរាចរណ៍ API នៅតែបន្តកើនឡើង។ មានចំនួន 60% នៃចរាចរណ៍ទាំងអស់ដែលមានន័យថា ប្រព័ន្ធជាច្រើនដំណើរការក្តៅរួចទៅហើយ សូម្បីតែមុនពេលអ្នកបង្ហាញខ្លួនជាមួយឧបករណ៍ crawler ក៏ដោយ។
ដូច្នេះ ស្នើសុំល្បឿន។ រក្សាទុកក្នុងឃ្លាំងសម្ងាត់យ៉ាងសកម្ម។ វារក្នុងអំឡុងពេលម៉ោងក្រៅម៉ោងមមាញឹកនៅពេលដែលអាចធ្វើទៅបាន។ ជម្រើសទាំងនេះកាត់បន្ថយការកកិតសម្រាប់មនុស្សគ្រប់គ្នា។
2. រំពឹងថានឹងមានការគ្រប់គ្រង Bot (សូម្បីតែនៅលើគេហទំព័រ "ធម្មតា")
គេហទំព័រដាក់ពង្រាយការការពារ bot ពីព្រោះពួកវាប្រឈមមុខនឹងការស៊ើបអង្កេត និងការកោសជាបន្តបន្ទាប់។ ការការពារខ្លះរារាំងដោយកេរ្តិ៍ឈ្មោះ IP។ ខ្លះទៀតកម្មវិធីរុករកតាមអ៊ីនធឺណិតដែលមានស្នាមម្រាមដៃ។ ជាច្រើនប្រឈមនឹងគំរូសំណើគួរឱ្យសង្ស័យ។
ការពិតនោះបង្ហាញឱ្យឃើញនៅក្នុងការវាស់វែងថ្មីៗនេះ។ របាយការណ៍វិភាគរបស់ DataDome មានតែ 2.8% នៃគេហទំព័រប៉ុណ្ណោះដែលត្រូវបានការពារយ៉ាងពេញលេញនៅឆ្នាំ 2025ដែលក៏បញ្ជាក់ផងដែរថា ការការពារជាច្រើននៅតែមិនស៊ីសង្វាក់គ្នា និងមិនអាចទាយទុកជាមុនបាន។
ដូច្នេះ ចូរបង្កើតបំពង់បង្ហូររបស់អ្នកដើម្បីដោះស្រាយបញ្ហាប្រឈមនានាដោយរលូន។ រកឃើញការរារាំង។ បញ្ឈប់មុន។ កុំប្រើកម្លាំងខ្លាំងពេក។
៣. កាត់បន្ថយហានិភ័យសុវត្ថិភាពនៅក្នុងជង់ផ្ទាល់ខ្លួនរបស់អ្នក
ការ Scraping មិនត្រឹមតែបង្កឱ្យមានការការពារពីខាងក្រៅនោះទេ។ វាក៏អាចបង្ហាញបរិស្ថានផ្ទាល់ខ្លួនរបស់អ្នកផងដែរ ប្រសិនបើអ្នកចាត់ទុកការបញ្ចូលគេហទំព័រជាអត្ថបទដែលគួរឱ្យទុកចិត្ត។
កុំរក្សាទុក HTML ឆៅដោយមិនបានស្កេន។ កុំប្រតិបត្តិស្គ្រីបទំព័រ។ រក្សាការអស់ពេល និងដែនកំណត់ខ្លឹមសារ។ កត់ត្រាអ្វីដែលអ្នកបានទាញយក ដើម្បីអ្នកអាចធ្វើសវនកម្មនៅពេលក្រោយ។
ដូចគ្នានេះដែរ សូមចងចាំថា កម្មវិធីទំនើបទាញយកធនធានភាគីទីបីជាច្រើន។ Cloudflare គូសបញ្ជាក់ពីអ្វីដែលអង្គការនានាប្រើប្រាស់ ជាមធ្យម 47.1 បំណែកនៃកូដពីអ្នកផ្តល់សេវាភាគីទីបីហើយភាពស្មុគស្មាញនោះច្រើនតែជាប់ទាក់ទងនឹងការបង្ហាញទំព័រដែលផុយស្រួយ និងការទាញយកឯកសារដោយរញ៉េរញ៉ៃ។
អ្វីដែលបានផ្លាស់ប្តូរថ្មីៗនេះ (និងអ្វីដែលអ្នកចាប់ផ្តើមដំបូងគួរធ្វើអំពីវា)
១. AI Crawlers បានបង្កើនបន្ទុកមូលដ្ឋានលើអ្នកបោះពុម្ពផ្សាយ
ឥឡូវនេះ អ្នកបោះពុម្ពផ្សាយឃើញចរាចរណ៍ "ទាញយក" កាន់តែច្រើនពីឧបករណ៍ AI មិនមែនគ្រាន់តែបណ្តុះបណ្តាល crawler នោះទេ។ ការវិភាគមួយបានលើកឡើងថា ចរាចរណ៍ bot ទាញយក បានកើនឡើង ៤៩% ពីចុងឆ្នាំ ២០២៤ ដល់ដើមឆ្នាំ ២០២៥ដែលជួយពន្យល់ពីមូលហេតុដែលគេហទំព័រមួយចំនួនរឹតបន្តឹងច្បាប់ចូលប្រើយ៉ាងឆាប់រហ័ស។
ក្នុងនាមជាអ្នកចាប់ផ្តើមដំបូង អ្នកគួរតែសន្មត់ថាការបិទបើកកាន់តែតឹងរ៉ឹង និងការរារាំងញឹកញាប់ជាងការណែនាំអំពីការកោសចាស់ៗ។
2. អ្នកផ្តល់សេវាហេដ្ឋារចនាសម្ព័ន្ធបានចាប់ផ្តើមរារាំងការកោស AI ក្នុងទ្រង់ទ្រាយធំ
បណ្តាញធំៗឥឡូវនេះរារាំងចំនួនដ៏ច្រើននៃសំណើដោយស្វ័យប្រវត្តិ។ របាយការណ៍ថ្មីៗនេះបានកត់សម្គាល់ថា Cloudflare បាន បានរារាំងសំណើរសុំ AI bot ចំនួន ៤១៦ ពាន់លានចាប់តាំងពីថ្ងៃទី ១ ខែកក្កដា ឆ្នាំ ២០២៥ដែលបង្ហាញពីទិសដៅច្បាស់លាស់មួយ៖ ការអនុវត្តច្បាប់កាន់តែច្រើន មិនមែនតិចជាងនេះទេ។
ការផ្លាស់ប្តូរនោះផ្តល់រង្វាន់ដល់ crawler ដែលមានសុជីវធម៌។ វាក៏ដាក់ទណ្ឌកម្មលើការរៀបចំ scraping "firehose" ដែលមិនអើពើនឹងច្បាប់ pacing និង access ផងដែរ។
គំនិតគម្រោងសម្រាប់អ្នកចាប់ផ្តើមដំបូង (ជាមួយនឹងលទ្ធផលច្បាស់លាស់ និងជាក់លាក់)
១. ប្រែក្លាយឯកសារផលិតផលសាធារណៈទៅជាជំនួយការស្វែងរក
ជ្រើសរើសគេហទំព័រឯកសារមួយដែលអ្នកពឹងផ្អែក។ វារវាតាមរយៈផែនទីគេហទំព័រ ឬបញ្ជី URL ដែលបានរៀបចំ។ សម្អាត និងបែងចែកតាមចំណងជើង។ បន្ទាប់មកបង្កើតកម្មវិធីទាញយកដែលឆ្លើយសំណួរ "តើខ្ញុំត្រូវធ្វើដូចម្តេច..." ជាមួយនឹងតំណភ្ជាប់ត្រឡប់ទៅទំព័រប្រភពវិញ។
គម្រោងនេះបង្រៀនពីបំពង់បង្ហូរប្រេងពេញលេញ ខណៈពេលដែលរក្សាវិសាលភាពឱ្យគ្រប់គ្រងបាន។
2. តាមដានទំព័រមួយចំនួនតូចសម្រាប់ការផ្លាស់ប្តូរ
ជំនួសឲ្យការកោសទំព័ររាប់ពាន់ សូមកោសបញ្ជីខ្លីមួយជារៀងរាល់ថ្ងៃ។ គណនាហាសនៃអត្ថបទដែលបានសម្អាត។ ជូនដំណឹងនៅពេលដែលខ្លឹមសារផ្លាស់ប្តូរ។
វិធីសាស្រ្តនេះបណ្តុះបណ្តាលអ្នកឱ្យបង្កើតកម្មវិធីផ្ទុកដែលមានស្ថេរភាព ដោះស្រាយការអស់ពេល និងជៀសវាងការចម្លងដោយគ្មានសម្ពាធនៃ "មាត្រដ្ឋាន"។
៣. បង្កើតរូបថតអេក្រង់ប្រកួតប្រជែងទម្ងន់ស្រាល (ដោយមិនចាំបាច់ហួសហេតុពេក)
ជ្រើសរើសទំព័រដៃគូប្រកួតប្រជែងមួយចំនួនដែលសំខាន់ ដូចជាការកំណត់តម្លៃ បញ្ជីលក្ខណៈពិសេស និងកំណត់ចំណាំចេញផ្សាយ។ ស្រង់ចេញតែផ្នែកពាក់ព័ន្ធប៉ុណ្ណោះ។ រក្សាទុកវាជាមួយត្រាពេលវេលា។
បន្ទាប់មកសួរសំណួរដូចជា "អ្វីដែលបានផ្លាស់ប្តូរចាប់តាំងពីខែមុន" ដោយប្រើរូបថតអេក្រង់ដែលអ្នកបានរក្សាទុក។ នេះធ្វើឱ្យអ្នកផ្តោតលើគុណភាព មិនមែនបរិមាណទេ។
បញ្ជីត្រួតពិនិត្យការដោះស្រាយបញ្ហា (នៅពេលដែលឧបករណ៍ Scraper របស់អ្នកខូច)
១. អ្នកទទួលបានខ្លឹមសារទទេ
ដំបូង សូមបញ្ជាក់ថាតើទំព័រនេះត្រូវការការបង្ហាញ JavaScript ដែរឬទេ។ ប្រសិនបើវាត្រូវការ សូមប្តូរទៅកម្មវិធីផ្ទុកកម្មវិធីរុករកតាមអ៊ីនធឺណិត។ ប្រសិនបើវាមិនត្រូវការទេ សូមពិនិត្យមើលការច្រោះ HTML របស់អ្នក ពីព្រោះអ្នកប្រហែលជាកំពុងដកកុងតឺន័រសំខាន់ចេញ។
2. អ្នកត្រូវបានរារាំង ឬប្រឈម
បន្ថយល្បឿន និងកាត់បន្ថយការធ្វើដំណាលគ្នា។ បន្ថែមការ caching។ បង្វិលតិច មិនមែនច្រើនទេ ព្រោះការផ្លាស់ប្តូរអត្តសញ្ញាណដ៏ច្របូកច្របល់មើលទៅគួរឱ្យសង្ស័យ។ ដូចគ្នានេះដែរ ឈប់កោសទំព័រដែលមិនអនុញ្ញាតឱ្យធ្វើដូច្នេះ។
៣. លទ្ធផលរបស់អ្នកមើលទៅរញ៉េរញ៉ៃ
កែលម្អការសម្អាតមុនពេលអ្នកកែសម្រួលការបង្កប់។ យក boilerplate ចេញ។ រក្សាចំណងជើង។ លុបអត្ថបទរុករកដដែលៗ។ បន្ទាប់មកបង្កប់ឡើងវិញ។
៤. ការទាញយកមកវិញមានអារម្មណ៍ចៃដន្យ
រឹតបន្តឹងច្បាប់បែងចែកជាផ្នែកៗ ហើយបន្ថែមតម្រងទិន្នន័យមេតា។ ជាងនេះទៅទៀត ត្រូវធានាថាផ្នែកនីមួយៗរក្សាបរិបទគ្រប់គ្រាន់ ដូចជាចំណងជើងទំព័រ និងចំណងជើងផ្នែកជាដើម។
ប្រើប្រាស់ជំនាញ Cloud Computing ដ៏រឹងមាំរបស់ 1Byte ដើម្បីជំរុញអាជីវកម្មរបស់អ្នកតាមរបៀបដ៏ធំមួយ
1Byte ផ្តល់ពេញលេញ domain សេវាកម្មចុះឈ្មោះដែលរួមមានបុគ្គលិកគាំទ្រដោយយកចិត្តទុកដាក់ ការថែទាំអតិថិជនដែលមានការអប់រំ ការចំណាយសមរម្យ ក៏ដូចជា ក domain ឧបករណ៍ស្វែងរកតម្លៃ។
បង្កើនសុវត្ថិភាពលើអ៊ីនធឺណិតរបស់អ្នកជាមួយនឹងសេវាកម្ម SSL របស់ 1Byte ។ ការការពារដែលមិនអាចប្រៀបផ្ទឹមបាន ការរួមបញ្ចូលដោយគ្មានថ្នេរ និងសន្តិភាពនៃចិត្តសម្រាប់ដំណើរឌីជីថលរបស់អ្នក។
មិនថា cloud server កញ្ចប់ដែលអ្នកជ្រើសរើស អ្នកអាចពឹងផ្អែកលើ 1Byte សម្រាប់ភាពជឿជាក់ ភាពឯកជន សុវត្ថិភាព និងបទពិសោធន៍គ្មានភាពតានតឹង ដែលមានសារៈសំខាន់សម្រាប់អាជីវកម្មជោគជ័យ។
ការជ្រើសរើសពួកយើងជាអ្នកផ្តល់សេវាបង្ហោះចែករំលែករបស់អ្នកអនុញ្ញាតឱ្យអ្នកទទួលបានតម្លៃដ៏ល្អឥតខ្ចោះសម្រាប់ប្រាក់របស់អ្នក ខណៈពេលដែលរីករាយនឹងកម្រិតគុណភាព និងមុខងារដូចគ្នានឹងជម្រើសដែលមានតម្លៃថ្លៃជាង។
តាមរយៈកម្មវិធីដែលមានភាពបត់បែនខ្ពស់ 1Byte ដ៏ទំនើប cloud hosting ផ្តល់ដំណោះស្រាយដ៏អស្ចារ្យដល់អាជីវកម្មខ្នាតតូច និងមធ្យមលឿនជាងមុន សុវត្ថិភាពជាងមុន និងក្នុងតម្លៃកាត់បន្ថយ។
បន្តនាំមុខការប្រកួតប្រជែងជាមួយនឹងសេវាកម្មបង្ហោះ WordPress ប្រកបដោយភាពច្នៃប្រឌិតរបស់ 1Byte ។ ផែនការដែលសំបូរទៅដោយលក្ខណៈពិសេសរបស់យើង និងភាពជឿជាក់ដែលមិនអាចប្រៀបផ្ទឹមបានធានាថាគេហទំព័ររបស់អ្នកមានភាពលេចធ្លោ និងផ្តល់នូវបទពិសោធន៍អ្នកប្រើប្រាស់ដែលមិនអាចបំភ្លេចបាន។
ក្នុងនាមជាដៃគូ AWS ផ្លូវការ ទំនួលខុសត្រូវចម្បងមួយរបស់យើងគឺជួយអាជីវកម្មក្នុងការធ្វើទំនើបកម្មប្រតិបត្តិការរបស់ពួកគេ និងប្រើប្រាស់ច្រើនបំផុតក្នុងការធ្វើដំណើររបស់ពួកគេទៅកាន់ពពកជាមួយ AWS ។
សន្និដ្ឋាន
ការស្កេនគេហទំព័រ LangChain ដំណើរការបានល្អបំផុតនៅពេលអ្នកចាត់ទុកវាដូចជាបំពង់បង្ហូរទិន្នន័យ មិនមែនជាស្គ្រីបម្តងទេ៖ ជ្រើសរើសកម្មវិធីផ្ទុកដែលស្រាលបំផុតដែលចាប់យកទំព័របានយ៉ាងគួរឱ្យទុកចិត្ត កាត់ចេញ boilerplate រហូតដល់អត្ថបទអានដូចជាឯកសារដែលងាយស្រួលសម្រាប់មនុស្ស ហើយភ្ជាប់ metadata (ជាពិសេស URL ប្រភព) ដើម្បីឱ្យ chunk នីមួយៗនៅតែអាចតាមដានបាន។ នៅពេលដែលឯកសាររបស់អ្នកស្អាត និងស៊ីសង្វាក់គ្នា ការបែងចែក chunk និងការទាញយកកាន់តែងាយស្រួលជាងមុន ហើយលទ្ធផល LLM របស់អ្នកកាន់តែអាចពន្យល់បាន ពីព្រោះអ្នកអាចចង្អុលបង្ហាញពីកន្លែងដែលចម្លើយនីមួយៗមកពី។
នៅក្នុងការអនុវត្តជាក់ស្តែង ក្រុមភាគច្រើនទទួលបានជោគជ័យដោយការចាប់ផ្តើមសាមញ្ញ (HTML ឋិតិវន្ត) ការធ្វើឱ្យប្រសើរឡើងតែនៅពេលចាំបាច់ (ការបង្ហាញ JavaScript) និងការប្រើប្រាស់ផែនទីគេហទំព័រសម្រាប់ការគ្របដណ្តប់ដែលអាចព្យាករណ៍បាន។ បន្ថែមរបាំងការពារផលិតកម្មមួយចំនួនតាំងពីដំបូង ដូចជាការកំណត់អត្រា ការដាក់ក្នុងឃ្លាំងសម្ងាត់ ការព្យាយាមឡើងវិញជាមួយការបិទផ្លូវ ការច្រោះ URL និងការកត់ត្រាជាមូលដ្ឋានសម្រាប់ "ខ្លឹមសារទទេ" ឬការបញ្ជូនបន្ត ហើយបំពង់បង្ហូររបស់អ្នកនឹងបន្តដំណើរការ ទោះបីជាប្លង់ទំព័រផ្លាស់ប្តូរ ឬការគ្រប់គ្រង bot កាន់តែតឹងរ៉ឹងក៏ដោយ។
ប្រសិនបើគោលដៅរបស់អ្នកគឺជា RAG chatbot ការស្វែងរកផ្ទៃក្នុង ឬការត្រួតពិនិត្យលំហូរការងារ ជំហានបន្ទាប់គឺសាមញ្ញ៖ កោសសំណុំទំព័រតូចៗដែលមានវិសាលភាពល្អ ផ្ទៀងផ្ទាត់គុណភាពខ្លឹមសារជាមួយនឹងការធ្វើតេស្តទាញយកមួយចំនួន បន្ទាប់មកពង្រីកការគ្របដណ្តប់ជាមួយនឹងតម្រងតឹងរ៉ឹង និងការសម្អាតកាន់តែប្រសើរ ដូច្នេះមាត្រដ្ឋានធ្វើអោយប្រសើរឡើងនូវភាពពាក់ព័ន្ធជំនួសឱ្យការជន់លិចគេហទំព័ររបស់អ្នក។ សន្ទស្សន៍ ជាមួយនឹងសំឡេងរំខាន។
