最后更新于2023年5月8日星期一20:37:23 GMT

所有类型的系统都会不断地产生大量的日志数据. 在寻找最令人信服的理由来深入研究和分析这些数据, 我们整理了一份清单,列出了通常导致这种行为的七个原因. 在这篇博文中,我们将解决这7个问题中的第一个,包括:

  1. 系统故障排除
  2. 安全事件响应
  3. 安全故障排除
  4. 性能故障诊断
  5. 理解用户行为或活动
  6. 遵守安全策略
  7. 遵从审计或法规

因此,今天的话题是 Log Analysis 为系统故障排除,正如它在标题中所说的.

什么是系统故障排除?

In general, 对系统进行故障排除意味着试图从一个或多个错误行为的症状中找出根本原因, 从那里到可用的修复或解决方案. 系统故障排除 通常是在观察或报告某些东西不正常工作(或根本不正常工作)时调用的。, 或者直接响应错误或警报消息(通常与声音配合以吸引用户的注意力)。. 有一个标准的通用的故障排除方法,每当麻烦出现时,总是值得回忆(和遵循). 即使在处理过程中使用日志分析时也是如此, 注意并记住标准顺序是明智的. 请注意,日志分析直到序列的第二步(或更晚)才开始!

CompTIA的标准故障排除顺序分为六个步骤,来自其A+计算机技术员认证培训和材料, 但值得注意并在适当的时候应用. Here goes:

  1. 识别问题询问用户(或进行观察)并确定用户(或其他)对系统的更改. 在进行任何更改之前执行备份.
  2. 制定一个合理原因的理论找出问题的可能原因,并记得对明显的原因提出质疑. 避免草率下结论.
  3. **测试理论以确定原因:**采取任何必要的步骤来确认或否认可能的原因. 如果理论得到证实,确定解决问题的下一步步骤. 如果理论被否定,返回步骤2. 多次返回步骤2可能意味着需要返回步骤1(问题可能已被错误识别)。.
  4. 计划,然后行动制定一个行动计划来解决问题, 记录计划, 然后执行计划的解决方案.
  5. 测试和预防:检查和验证系统的全部或正常功能,并记录结果. 如果验证通过,请执行步骤6. 如果适用,实施预防措施以防止再次发生.  如果验证不正确,请返回步骤2.
  6. Report:记录发现、行动和结果. 如果需要多次通过步骤1-6, 跟踪这些活动,以确保你不会陷入一个循环,你一遍又一遍地重复同样的错误.

最有效的故障排除来自对正常或预期的系统行为的清晰理解, 仔细观察什么地方不起作用, missing, 或者其他不正常或意外的. Often, 步骤2中的“找到可能的原因”元素将来自对系统日志数据的仔细检查,以查看错误的类型, warning, 以及它们可能包含的警告.

哪些类型的日志数据有助于系统故障排除?

最明显或最有用的日志数据通常来自错误消息或警报, 通常来自系统或应用程序日志. Thus, for example, 在Windows计算机上排除USB问题可能会转向事件查看器,并查看系统日志. 另一方面, 与登录或创建远程登录会话失败有关的问题最好在应用程序日志中查找. 对于大多数问题, 快速浏览一下可靠性监视器也会有所帮助, 因为它标记了系统的硬件和软件方面的问题. 例如,在解决最近的USB问题时,这被证明是有用的.

关于8/10硬件错误的可靠性监视器细节表明发生了USB集线器故障:这正是我们需要知道的!

In most cases, 你必须至少对可能的原因有一些想法,以便知道从哪里开始寻找相关或启发性的信息. 如果你的猜测被证明是错误的,那么你最初的理论也可能是错误的.

将故障排除拼图拼凑在一起

当涉及到形成(和检验)关于问题因果关系的理论时, 有很多方法可以寻找线索. 如果您大致了解错误发生的时间, 您可以使用事件日志中的时间信息来查找感兴趣的事件. 很少有必要在记录或相关时间之前回到一两分钟以上,以获得对根本原因的强烈感觉, 这确实有助于确定后续分析需要检查多少日志数据.

错误代码或消息也是如此. 您可以以与时间戳大致相同的方式对过滤器进行范围过滤, 您还可以查找特定代码或消息文本. 即使没有这些令人难以置信的信息细节,您也可以根据事件的严重性过滤事件. Thus, Windows事件, 这意味着您通常只需要检查错误和警告事件级别,就可以查看您可能需要的重要内容.

通过执行各种基于时间的事件关联, error level, 涉及的系统或应用程序, 等等——你可以限制你的搜索,把注意力集中在最有可能阐明手头问题的东西上. 因为你通常也会找到足够的细节来帮助你确定原因, 而且通常, 确定修复(更换故障的USB集线器), 在我们的例子中)或解决方法(移除故障的USB集线器), (如果更换不方便)保持设备正常工作.