هر روز شاهد بهبود گسترده سرویسهای قدیمی و یا تولید سرویسهای جدید هستیم که بر اساس تحلیل دادههای بزرگ فراهم آمدهاند. به عنوان مثال گوگل مپ در چند ماه اخیر نقشه ترافیکی شهرها و جاده ایران را بر اساس ترکیب اطلاعات دریافتی از موبایلهای با سیستم اندروید و استفاده کاربران از سرویسهایی نظیری جیمیل ارائه داده است. هر سرویس مبتنی بر تحلیل اطلاعات، خود به تولید اطلاعاتی جدید می انجامد، که با تحلیل آنها میتوان سرویسهای جدیدی ارائه داد، برای مثال پس از تعریف این سرویس، گوگل سرویس جدیدی را اضافه کرد که به شما پیشنهاد می کند در چه ساعتی تردد کنید تا کمتر در ترافیک گیر کنید یا این که ساعتی که می خواهید به مقصد برسید را اعلام میکنید و به شما با دقت بالایی میگوید که چه موقع راه بیافتید.
به استخراج دانش و اطلاعات ارزشمندتر از تحلیل اطلاعات جمع شده، دادهکاوی میگویند. همانطور که از این تعریف پیداست، داده کاوی موضوعی چند رشتهای است که از بازیابی اطلاعات، یادگیری ماشین، آمار، هوش مصنوعی، تصویر سازی اطلاعات، دانش تخصصی در مورد اطلاعات و بسیاری موارد دیگر تشکیل شده است. دادهکاوی مناسب در برخی از کسب و کارها، به بهبود گسترده در سطح استراتژیک یا عملیاتی میانجامد و به جرات میتوان گفت که عامل بحرانی موفقیت برای این کسب وکارها محسوب میشود زیرا مهارتی است که فقدان آن ممکن است باعث به وجود آمدن زیان و یا از دست دادن فرصتها شود.
یکی از انواع کسب و کارهایی که به شدت به دادهکاوی نیاز دارد، کسب و کارهای آنلاین است. هر چه که جلوتر می رویم بخش بزرگتری از کسب و کارها در فضای مجازی مدیریت میشوند و درگاه ورود و خروج اطلاعات سازمان به وبسایتهای سازمان منتقل میشود. البته مدلهای کسب و کار جدیدی نیز هر روز به وجود میآیند که اساسا مبتنی بر مدیریت وبسایتها و یا سایر برنامههای کاربردی تحت وب هستند. حول وبسایتها و سایر برنامههای کاربردی، غالبا اطلاعات زیادی جمع میشود، اگر وبسایت شما در کسب و کار شما نقش مهمی دارد، شک نکنید که نیاز دارید که اطلاعات روی وبسایت خودتان و رقبایتان را بکاوید تا تصمیمهای درستتری بگیرید، سرویسهای جدید تعریف کنید، محیط دوستانهتر و قابل استفادهتری برای کاربرنان فراهم کنید و مزیت رقابتی برای خود به وجود آورید.
وب کاوی جنبهای از داده کاوی است که به طور خاص بر مبنای تحلیل دادههای وبسایتها توسعه یافته است. این لفظ اولین بار 1996 در مقالهای با عنوان شبکه جهانگستر (World Wide Web)، باتلاق یا معدن طلا از اتزیونی (Etzioni) استفاده شد. دستهبندیهای مختلفی برای وبماینینگ استفاده شده است. یک دستهبندی پذیرفته شده به شرح ذیل است:
محتواکاوی مربوط به استخراج دانش از محتوای صفحات وبسایت است. ساختار کاوی، بر اساس تحلیل نحوه سازماندهی صفحات و لینک صفحات به یکدیگر انجام میشود و کاربرد کاوی، بر اساس تحلیل الگوهای دسترسی کاربر به محتواهای وب ایجاد میشود.
محتواکاوی با تفسیر محتواهای درون وبسایت امکان پذیر می شود. محتوای درون وبسایت میتوان دارای ساختار باشد، مانند اطلاعات حسابداری، شاخصهای مختلف عملکرد بورس و سایر محتوایی که در چارچوب یک دیتابیس قابل تحلیل است. برای کاوش در این اطلاعات ار رویکردهای مبتنی بر دیتا بیس استفاده میشود.
ولی محتوای درون وبسایت غالبا بی ساختار است و شامل مواردی نظیر متن، عکس، فیلم و یا صدا است. به عنوان مثال با متن کاوی نظرات کاربران در باره محصول، میتوان به اطلاعات زیادی در باره محصولات عرضه شده دست یافت. برای متن کاوی نرم افزارهای عاملی وجود دارد که بررسی محتواهای وبسایت میپردازد و این رویکرد مبتنی بر عامل نامیده میشود.
ساختار کاوی، بر اساس تحلیل شبکه ارتباطات بین صفحات وب صورت میپذیرد . لینک دادن صفحات به یکدیگر اطلاعات زیادی درباره ارزش محتوای صفحات آشکار میسازد.
کابرد کاوی از کاوش دادههای ثانویه ای که ناشی از تعامل کاربر است به دست میآید. مواردی مانند لاگهای دسترسی به صفحات در سرور، مدت زمان طی شده در وبسایت، درصد خروج از سایت بدون کلیک در آن و بسیاری موارد دیگر در ذیل کاربرد کاوی میگنجند.
کسب و کارها معمولا از مورد اول و دوم برای تعریف شاخصهای عملکردی وبسایت خود و تحقیق در باره نحوه حضور خود در فضای مجازی استفاده میکنند. یکی از ابزارهای کاربردی که بسیاری از خدمات آن مجانی است، سرویس تحلیل گوگل است که با اندکی جستجو میتوانید نحوه استفاده از آن و گزارش سازی با آن را یاد بگیرید.
منابع:
Bing L (2008) Web data mining: exploring hyperlinks, contents, and usage data. Data-centric systems and applications series. Springer, Berlin
Chou PH, Li PH, Chen KK, Wua MJ (2010) Integrating webmining and neural network for personalized e-commerce automatic service. Expert Syst Appl 37:2898–2910
Liu B (2007) Web data mining: exploring hyperlinks, contents and usage data. Springer, New York